PESQUISA · APPLE · 24 ABR 2026

Apple apresenta método que gera movimento longo e realista sem sintetizar vídeo inteiro

Pesquisadores da Apple e do CompVis (LMU Munique) publicaram no CVPR 2026 um paper que modela dinâmica de cena operando direto num embedding de movimento de longo prazo, em vez de gerar vídeo frame a frame. Compressão temporal de 64x e um modelo de flow-matching condicional entregam geração de movimento orientada por texto ou 'pokes' espaciais, superando modelos de vídeo SOTA e abordagens especializadas.

Curadoria cafecomtech2 min de leitura#vision#motion_embeddings#video_models

Apple apresenta método que gera movimento longo e realista sem sintetizar vídeo inteiro foi anunciado em 24 de abril às 00:00, horário de Brasília. fonte original →

00:00 / 03:15

voz sintética · pt-br

A Apple, junto com o grupo CompVis da LMU Munique e o Munich Center for Machine Learning, publicou no CVPR 2026 o paper Learning Long-Term Motion Embeddings for Efficient Kinematics Generation. Autores: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Ángel Bautista, Josh Susskind e Björn Ommer.

O problema que eles atacam é direto: entender e prever movimento é peça central de inteligência visual, e modelos de vídeo modernos até capturam bem a dinâmica de cena. Só que explorar múltiplos futuros possíveis via síntese completa de vídeo sai caríssimo em compute. Gerar pixel pra depois extrair movimento é desperdício.

Como funciona

A ideia é pular o vídeo e trabalhar direto no espaço de movimento. O pipeline tem duas etapas:

Embedding de movimento comprimido: aprendem uma representação altamente comprimida de trajetórias, com fator de compressão temporal de 64x. As trajetórias vêm em larga escala de modelos de tracker já existentes.
Flow-matching condicional: treinam um modelo de flow-matching condicional nesse espaço latente pra gerar motion latents condicionados em descrições de tarefa (prompt de texto ou 'spatial pokes', interações espaciais pontuais).

O resultado: geração eficiente de movimentos longos e realistas que cumprem objetivos especificados via texto ou poke espacial. A distribuição de movimentos gerada supera tanto modelos de vídeo SOTA quanto abordagens especializadas feitas sob medida pra cada tarefa.

Na prática, o truque aqui é o mesmo que latent diffusion fez com imagem: sair do espaço de pixel e operar num latente comprimido. Só que aplicado à dimensão temporal com fator agressivo de 64x, o que explica o 'orders of magnitude more efficiently' do abstract.

Por que isso importa

Se você quer um agente que raciocine sobre 'o que pode acontecer a seguir' numa cena (robótica, planejamento, animação, simulação), rodar um gerador de vídeo completo pra cada hipótese é inviável. Um embedding de movimento desacoplado do render permite amostrar várias trajetórias plausíveis barato e só renderizar as que interessam.

Vale o filtro de sempre com paper de research lab: resultado em benchmark controlado não garante que o embedding generaliza pra domínios fora das trajetórias de tracker vistas no treino. Mas o framing de eficiência é o ângulo mais interessante aqui, não o SOTA em si.

Link pro paper no site de research da Apple (View publication). Conferência: CVPR, publicação abril de 2026.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.