Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A Apple publicou no ICASSP o StereoFoley, framework que gera áudio estéreo a 48 kHz a partir de vídeo, com sincronização temporal e posicionamento espacial alinhado aos objetos em cena. Os autores treinam um modelo base estado-da-arte e resolvem a falta de dataset estéreo com um pipeline sintético de panning dinâmico e controle de loudness por distância.
Pesquisadores da Apple e do CompVis (LMU Munique) publicaram no CVPR 2026 um paper que modela dinâmica de cena operando direto num embedding de movimento de longo prazo, em vez de gerar vídeo frame a frame. Compressão temporal de 64x e um modelo de flow-matching condicional entregam geração de movimento orientada por texto ou 'pokes' espaciais, superando modelos de vídeo SOTA e abordagens especializadas.
Pesquisa da Apple aceita como Oral no ICLR 2026 resolve o gargalo clássico das RNNs: treinar em paralelo. Usando o método de Newton pra linearizar a recorrência, o framework ParaRNN atinge speedup de 665× no treino sequencial e viabiliza, pela primeira vez, RNNs clássicas (GRU/LSTM adaptadas) de 7B parâmetros com perplexidade competitiva com transformers e Mamba2. Código aberto.
A Apple desembarca no ICLR 2026, que rola no Rio de Janeiro, com cinco trabalhos de destaque: paralelização de RNNs que destrava treino de 7B parâmetros, uso de ferramentas externas pra State Space Models generalizarem em tarefas longas, modelo multimodal unificado (Manzano), geração 3D a partir de uma foto em menos de 1 segundo (SHARP) e uma nova arquitetura simples pra protein folding (SimpleFold).
Pesquisa da Apple com Georgetown propõe um benchmark pra medir se LLM entende contexto linguístico de verdade. Resultado: modelos densos pré-treinados patinam em features contextuais mais sutis quando comparados a modelos fine-tuned especializados. Quantização 3-bit pós-treino piora ainda mais o desempenho. Paper sai na EACL 2026.
Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.
A Apple desembarca no Rio de Janeiro pra edição 2026 do ICLR (International Conference on Learning Representations), de 23 a 27 de abril, com mais de 40 papers na conferência principal, workshops e duas demos técnicas no estande 204: inferência de LLM local num MacBook Pro M5 Max rodando MLX dentro do Xcode, e o SHARP gerando nuvem de pontos 3D num iPad Pro M5.
Pesquisadores da Apple (com Virginia Tech e University of Washington) publicaram o MixAtlas, framework pra otimizar mistura de dados em treinamento multimodal de LLMs. Usa modelos proxy menores e processo gaussiano pra explorar o espaço de mistura a 1/100 do custo do treino full-scale. Resultado: convergência até 3x mais rápida e ganhos de 2-5% em benchmarks, com +10% em ChartQA e +13% em TextVQA. Aceito no workshop NADPFM do ICLR 2026.
Pesquisa da Apple ataca uma pergunta aberta: por que modelos de difusão condicional conseguem gerar amostras boas pra combinações de condicionadores fora da distribuição de treino? Usando o setup CLEVR, o paper mostra que generalização por comprimento (gerar imagens com mais objetos do que viu no treino) só rola quando o modelo aprende scores condicionais locais. E prova equivalência matemática entre essa estrutura local e composição projetiva condicional.
Pesquisadores ligados à Apple e à UC San Diego propõem o LaDiR (Latent Diffusion Reasoner), framework que junta representação latente contínua com refinamento iterativo de modelos de difusão pra melhorar raciocínio em LLMs. A ideia é fugir da limitação do decoding autorregressivo, que não consegue revisitar tokens anteriores. Aceito no ICLR 2026, com ganhos em benchmarks de matemática e planejamento.