Pesquisadores da Apple (com Virginia Tech e University of Washington) publicaram o MixAtlas, framework pra otimizar mistura de dados em treinamento multimodal de LLMs. Usa modelos proxy menores e processo gaussiano pra explorar o espaço de mistura a 1/100 do custo do treino full-scale. Resultado: convergência até 3x mais rápida e ganhos de 2-5% em benchmarks, com +10% em ChartQA e +13% em TextVQA. Aceito no workshop NADPFM do ICLR 2026.
A Apple publicou o MixAtlas, framework pra otimizar a mistura de dados (data mixture) em midtraining de LLMs multimodais. O paper foi aceito no Workshop on Navigating and Addressing Data Problems for Foundation Models (NADPFM) no ICLR 2026.
Reponderar domínios de treino de forma principiada melhora bastante eficiência de amostra e generalização downstream. Só que otimização de mistura pra pretraining multimodal ainda é pouco explorada. As receitas atuais ajustam mistura de uma perspectiva só: formato de dado OU tipo de tarefa. Nunca as duas juntas de forma sistemática.
O MixAtlas fatoriza os dados de treino em dois eixos interpretáveis:
Isso dá controle interpretável da mistura e atribuição fina de performance downstream a domínios específicos em cada eixo.
Pra evitar o custo absurdo de rodar experimentos em escala full, os autores usam modelos proxy menores combinados com um surrogate baseado em processo gaussiano (Gaussian-process surrogate). Resultado: exploram o espaço de mistura a 1/100 do custo do treino full-scale.
As misturas geradas entregam:
O salto em benchmarks text-rich (ChartQA e TextVQA) é o destaque, justo onde modelos multimodais historicamente sofrem.
A parte interessante pra quem treina modelo de verdade: os autores mostram que mistura encontrada via proxy pequeno transfere pra treino de modelo maior, preservando eficiência e ganho de acurácia. Ou seja, não é otimização que só vale no brinquedo.
Bingbing Wen (trabalho feito na Apple), Sirajul Salekin, Feiyang Kang (Virginia Tech), Lucy Lu Wang e Bill Howe (University of Washington), Javier Movellan e Manjot Bilkhu assinam o paper.
Se você treina MLLM (Multimodal LLM) e gasta compute explorando mistura na mão, vale dar uma olhada no método. A promessa de receita reproduzível com 1/100 do custo é o tipo de coisa que muda workflow de pesquisa.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0