A Apple publicou no ICASSP o StereoFoley, framework que gera áudio estéreo a 48 kHz a partir de vídeo, com sincronização temporal e posicionamento espacial alinhado aos objetos em cena. Os autores treinam um modelo base estado-da-arte e resolvem a falta de dataset estéreo com um pipeline sintético de panning dinâmico e controle de loudness por distância.
A Apple apresentou no ICASSP 2026 o StereoFoley, um framework de video-to-audio que gera som estéreo a 48 kHz semanticamente alinhado, temporalmente sincronizado e espacialmente correto em relação aos objetos do vídeo.
O problema que o paper ataca é específico: modelos generativos recentes de video-to-audio até acertam bem em fidelidade semântica e temporal, só que travam em mono ou entregam estéreo sem consciência de objeto (object-aware stereo imaging). A causa raiz, segundo os autores, é a falta de datasets de vídeo com áudio mixado profissionalmente e espacialmente preciso.
O trabalho tem três etapas:
Como não existem métricas consagradas pra essa tarefa, os autores propõem medidas próprias de stereo object-awareness e validam com um estudo de escuta humana, mostrando correlação forte com percepção.
Tornike Karchkhadze (UC San Diego), Kuan-Lin Chen, Mojtaba Heydari, Robert Henzel, Alessandro Toso, Mehrez Souden e Joshua Atkins. Karchkhadze fez o trabalho enquanto estava na Apple.
Na prática, isso encaixa direto no roadmap da Apple pra áudio espacial em Vision Pro e AirPods: Foley automático com posicionamento correto é exatamente o que falta pra escalar conteúdo imersivo sem estúdio de mixagem.
O paper se posiciona como o primeiro framework end-to-end pra geração de áudio estéreo object-aware a partir de vídeo, e segue a linha de outros trabalhos da Apple na área, como ImmerseDiffusion (áudio 3D ambisônico, ICASSP 2025) e o estudo de embeddings de linguagem e áudio com consciência espacial (NeurIPS 2024).
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0