A Apple desembarca no ICLR 2026, que rola no Rio de Janeiro, com cinco trabalhos de destaque: paralelização de RNNs que destrava treino de 7B parâmetros, uso de ferramentas externas pra State Space Models generalizarem em tarefas longas, modelo multimodal unificado (Manzano), geração 3D a partir de uma foto em menos de 1 segundo (SHARP) e uma nova arquitetura simples pra protein folding (SimpleFold).
ICLR top-tier no Rio é evento raro, vale a ida mesmo sem inscrição no main conference (workshops e posters costumam ser acessíveis). Pra quem faz ML research no Brasil, oportunidade de networking que não se repete tão cedo.
A Apple publicou o resumo da participação no ICLR 2026 (International Conference on Learning Representations), que acontece no Rio de Janeiro. A empresa entra como patrocinadora e leva pesquisadores pro stand #204 com demos rodando localmente em Apple silicon.
São cinco trabalhos principais, dois deles aceitos como Oral (categoria de maior destaque da conferência). Resumo do que vale olhar.
RNNs (Recurrent Neural Networks) são naturalmente eficientes em inferência, usam bem menos memória e compute que arquiteturas baseadas em attention. Só que a natureza sequencial da computação historicamente travou o scale-up pra bilhões de parâmetros.
No paper ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models (aceito como Oral), a Apple mostra um framework de treino paralelizado que entrega 665× de speedup sobre a abordagem sequencial tradicional. Com isso treinaram as primeiras RNNs clássicas de 7 bilhões de parâmetros competitivas em perplexidade com transformers e com Mamba2.
O codebase foi liberado como open-source. Pra quem trabalha com deploy em ambientes restritos (edge, on-device), isso reabre uma frente de arquitetura que parecia enterrada desde 2017. Vale acompanhar se alguém fora da Apple consegue reproduzir o resultado em benchmarks de downstream além de perplexidade.
State Space Models (SSMs) tipo Mamba viraram a alternativa principal aos Transformers pra modelagem de sequência, principalmente por causa da memória de tamanho fixo e escala linear em complexidade.
O paper To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models (também Oral) mostra o preço dessa eficiência: SSMs degradam em tarefas de geração longa quando a complexidade passa da capacidade do modelo, mesmo com chain-of-thought (CoT) liberado. A memória limitada corta a expressividade.
A solução proposta: dar acesso interativo a ferramentas externas (tipo um "ponteiro de memória" pra fazer soma de vários dígitos). Com o training data certo, SSMs com ferramentas generalizam em aritmética, raciocínio e código pra comprimentos arbitrários, superando Transformers como Pythia e Mistral na task de adição com até 1.000 dígitos.
LLMs multimodais unificados que entendem E geram imagem são atraentes por simplicidade arquitetural, mas modelos open-source sofrem com trade-off: quando melhora um lado, piora o outro.
O MANZANO usa um encoder de visão compartilhado que alimenta dois adapters leves: um produz embeddings contínuos pra entendimento imagem-pra-texto, outro produz tokens discretos pra geração texto-pra-imagem. Um LLM autoregressivo unificado prevê semântica em alto nível (texto e tokens de imagem), e um decoder de difusão auxiliar traduz os tokens de imagem pra pixels.
A Apple afirma que o Manzano atinge state-of-the-art entre modelos unificados e compete com modelos especialistas, especialmente em avaliação rica em texto.
Sharp Monocular View Synthesis in Less Than a Second apresenta o SHARP (Single-image High-Accuracy Real-time Parallax), técnica que gera uma representação 3D Gaussiana de uma foto com um único forward pass em menos de 1 segundo numa GPU padrão.
Os números: redução de 25-34% em LPIPS e 21-43% em DISTS versus o melhor modelo anterior, e tempo de síntese três ordens de grandeza menor. A representação é métrica (com escala absoluta), suporta movimento de câmera métrico e renderiza a mais de 100 fps numa GPU padrão.
Código disponível. Vai ter demo rodando em iPad Pro com chip M5 no stand #204.
SimpleFold: Folding Proteins is Simpler than You Think defende que dá pra fazer predição de estrutura 3D de proteína com uma arquitetura baseada só em transformer blocks padrão (tipo os de text-to-image), sem os designs arquiteturais complexos dos approaches anteriores (leia-se: AlphaFold e variantes).
O resultado: performance mantida com arquitetura mais simples. Código e checkpoints liberados, rodando localmente em Mac com Apple silicon via MLX. Testaram em tamanhos de 100M até 3B de parâmetros, com benchmark em CASP14.
No stand a Apple mostra duas demos principais:
A escolha de demo aqui tá alinhada com a narrativa que a Apple vem construindo faz uns 18 meses: IA roda no device, não precisa de datacenter, e o MLX é a ponte pra comunidade de pesquisa experimentar em cima.
A Apple patrocina afinidades como Women in Machine Learning (WiML, social em 24 de abril) e Queer in AI (social em 25 de abril), com funcionários participando dos eventos.
O overview completo da participação está no site de ML Research da Apple.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0