Pesquisa da Apple ataca uma pergunta aberta: por que modelos de difusão condicional conseguem gerar amostras boas pra combinações de condicionadores fora da distribuição de treino? Usando o setup CLEVR, o paper mostra que generalização por comprimento (gerar imagens com mais objetos do que viu no treino) só rola quando o modelo aprende scores condicionais locais. E prova equivalência matemática entre essa estrutura local e composição projetiva condicional.
A Apple publicou o paper Local Mechanisms of Compositional Generalization in Conditional Diffusion, assinado por Arwen Bradley, na linha de pesquisa Methods and Algorithms.
O problema: modelos de difusão condicional parecem capazes de generalização composicional (gerar amostras convincentes pra combinações de condicionadores fora da distribuição de treino), mas ninguém sabe direito por quê. O paper ataca isso de frente.
pra deixar concreto, os autores estudam generalização por comprimento: a capacidade de gerar imagens com mais objetos do que o modelo viu no treino. Setup controlado em CLEVR (Johnson et al., 2017).
Resultado: generalização por comprimento rola em alguns casos e em outros não. Ou seja, o modelo às vezes aprende a estrutura composicional subjacente, e às vezes não. A pergunta vira: o que separa os dois casos?
A hipótese investigada é localidade como mecanismo estrutural. Trabalhos anteriores (Kamb & Ganguli, 2024; Niedoba et al., 2024) já tinham proposto score locality como mecanismo de criatividade em difusão não-condicional, mas não cobriam condicionamento flexível nem composicionalidade.
A contribuição teórica central: o paper prova equivalência exata entre uma estrutura composicional específica (conditional projective composition, de Bradley et al., 2025) e scores com dependências esparsas tanto em pixels quanto em condicionadores (chamados de local conditional scores). A teoria também se estende pra composição de conceitos em feature-space (tipo estilo + conteúdo).
Três resultados:
Na prática, o paper liga uma propriedade arquitetural mensurável (esparsidade de dependências no score) a uma capacidade observável (compor combinações inéditas de condicionadores). Isso dá uma alavanca pra quem treina modelos de difusão: forçar localidade vira ferramenta de design, não acidente de treino.
Publicado em outubro de 2025, com data de publicação formal April 2026. Ver publicação na Apple Machine Learning Research.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0