PESQUISA · APPLE · 16 ABR 2026

MixAtlas: Apple apresenta framework pra otimizar mistura de dados em midtraining multimodal

Pesquisadores da Apple (com Virginia Tech e University of Washington) publicaram o MixAtlas, framework pra otimizar mistura de dados em treinamento multimodal de LLMs. Usa modelos proxy menores e processo gaussiano pra explorar o espaço de mistura a 1/100 do custo do treino full-scale. Resultado: convergência até 3x mais rápida e ganhos de 2-5% em benchmarks, com +10% em ChartQA e +13% em TextVQA. Aceito no workshop NADPFM do ICLR 2026.

Curadoria cafecomtech2 min de leitura#multimodal#llm#training_optimization

MixAtlas: Apple apresenta framework pra otimizar mistura de dados em midtraining multimodal foi anunciado em 16 de abril às 00:00, horário de Brasília. fonte original →

00:00 / 03:11

voz sintética · pt-br

A Apple publicou o MixAtlas, framework pra otimizar a mistura de dados (data mixture) em midtraining de LLMs multimodais. O paper foi aceito no Workshop on Navigating and Addressing Data Problems for Foundation Models (NADPFM) no ICLR 2026.

O problema

Reponderar domínios de treino de forma principiada melhora bastante eficiência de amostra e generalização downstream. Só que otimização de mistura pra pretraining multimodal ainda é pouco explorada. As receitas atuais ajustam mistura de uma perspectiva só: formato de dado OU tipo de tarefa. Nunca as duas juntas de forma sistemática.

Como funciona

O MixAtlas fatoriza os dados de treino em dois eixos interpretáveis:

Conceitos de imagem (image concepts)
Supervisão de tarefa (task supervision)

Isso dá controle interpretável da mistura e atribuição fina de performance downstream a domínios específicos em cada eixo.

Pra evitar o custo absurdo de rodar experimentos em escala full, os autores usam modelos proxy menores combinados com um surrogate baseado em processo gaussiano (Gaussian-process surrogate). Resultado: exploram o espaço de mistura a 1/100 do custo do treino full-scale.

Os números

As misturas geradas entregam:

Até 3x mais rápida na convergência
Ganhos consistentes de 2-5% em benchmarks diversos
+10% em ChartQA
+13% em TextVQA

O salto em benchmarks text-rich (ChartQA e TextVQA) é o destaque, justo onde modelos multimodais historicamente sofrem.

A parte interessante pra quem treina modelo de verdade: os autores mostram que mistura encontrada via proxy pequeno transfere pra treino de modelo maior, preservando eficiência e ganho de acurácia. Ou seja, não é otimização que só vale no brinquedo.

Autoria

Bingbing Wen (trabalho feito na Apple), Sirajul Salekin, Feiyang Kang (Virginia Tech), Lucy Lu Wang e Bill Howe (University of Washington), Javier Movellan e Manjot Bilkhu assinam o paper.

Se você treina MLLM (Multimodal LLM) e gasta compute explorando mistura na mão, vale dar uma olhada no método. A promessa de receita reproduzível com 1/100 do custo é o tipo de coisa que muda workflow de pesquisa.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.