Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
Pesquisa da Apple aceita como Oral no ICLR 2026 resolve o gargalo clássico das RNNs: treinar em paralelo. Usando o método de Newton pra linearizar a recorrência, o framework ParaRNN atinge speedup de 665× no treino sequencial e viabiliza, pela primeira vez, RNNs clássicas (GRU/LSTM adaptadas) de 7B parâmetros com perplexidade competitiva com transformers e Mamba2. Código aberto.
A Apple desembarca no ICLR 2026, que rola no Rio de Janeiro, com cinco trabalhos de destaque: paralelização de RNNs que destrava treino de 7B parâmetros, uso de ferramentas externas pra State Space Models generalizarem em tarefas longas, modelo multimodal unificado (Manzano), geração 3D a partir de uma foto em menos de 1 segundo (SHARP) e uma nova arquitetura simples pra protein folding (SimpleFold).
Pesquisa da Apple com Georgetown propõe um benchmark pra medir se LLM entende contexto linguístico de verdade. Resultado: modelos densos pré-treinados patinam em features contextuais mais sutis quando comparados a modelos fine-tuned especializados. Quantização 3-bit pós-treino piora ainda mais o desempenho. Paper sai na EACL 2026.
Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.
A Apple desembarca no Rio de Janeiro pra edição 2026 do ICLR (International Conference on Learning Representations), de 23 a 27 de abril, com mais de 40 papers na conferência principal, workshops e duas demos técnicas no estande 204: inferência de LLM local num MacBook Pro M5 Max rodando MLX dentro do Xcode, e o SHARP gerando nuvem de pontos 3D num iPad Pro M5.
Pesquisadores da Apple (com Virginia Tech e University of Washington) publicaram o MixAtlas, framework pra otimizar mistura de dados em treinamento multimodal de LLMs. Usa modelos proxy menores e processo gaussiano pra explorar o espaço de mistura a 1/100 do custo do treino full-scale. Resultado: convergência até 3x mais rápida e ganhos de 2-5% em benchmarks, com +10% em ChartQA e +13% em TextVQA. Aceito no workshop NADPFM do ICLR 2026.