PESQUISA · APPLE · 28 ABR 2026

Apple investiga por que modelos de difusão condicional conseguem (às vezes) generalizar composicionalmente

Pesquisa da Apple ataca uma pergunta aberta: por que modelos de difusão condicional conseguem gerar amostras boas pra combinações de condicionadores fora da distribuição de treino? Usando o setup CLEVR, o paper mostra que generalização por comprimento (gerar imagens com mais objetos do que viu no treino) só rola quando o modelo aprende scores condicionais locais. E prova equivalência matemática entre essa estrutura local e composição projetiva condicional.

Curadoria cafecomtech2 min de leitura#diffusion_models#vision#compositional_generalization

Apple investiga por que modelos de difusão condicional conseguem (às vezes) generalizar composicionalmente foi anunciado em 28 de abril às 00:00, horário de Brasília. fonte original →

A Apple publicou o paper Local Mechanisms of Compositional Generalization in Conditional Diffusion, assinado por Arwen Bradley, na linha de pesquisa Methods and Algorithms.

O problema: modelos de difusão condicional parecem capazes de generalização composicional (gerar amostras convincentes pra combinações de condicionadores fora da distribuição de treino), mas ninguém sabe direito por quê. O paper ataca isso de frente.

O experimento

pra deixar concreto, os autores estudam generalização por comprimento: a capacidade de gerar imagens com mais objetos do que o modelo viu no treino. Setup controlado em CLEVR (Johnson et al., 2017).

Resultado: generalização por comprimento rola em alguns casos e em outros não. Ou seja, o modelo às vezes aprende a estrutura composicional subjacente, e às vezes não. A pergunta vira: o que separa os dois casos?

Localidade como mecanismo

A hipótese investigada é localidade como mecanismo estrutural. Trabalhos anteriores (Kamb & Ganguli, 2024; Niedoba et al., 2024) já tinham proposto score locality como mecanismo de criatividade em difusão não-condicional, mas não cobriam condicionamento flexível nem composicionalidade.

A contribuição teórica central: o paper prova equivalência exata entre uma estrutura composicional específica (conditional projective composition, de Bradley et al., 2025) e scores com dependências esparsas tanto em pixels quanto em condicionadores (chamados de local conditional scores). A teoria também se estende pra composição de conceitos em feature-space (tipo estilo + conteúdo).

Validação empírica

Três resultados:

Modelos CLEVR que acertam generalização por comprimento exibem local conditional scores. Os que falham, não.
Uma intervenção causal que força explicitamente local conditional scores faz um modelo que antes falhava passar a generalizar.
No SDXL (Stable Diffusion XL), em pixel-space, localidade espacial existe mas localidade condicional está em grande parte ausente. Só que no feature-space aprendido pela rede, há evidência quantitativa de local conditional scores.

Na prática, o paper liga uma propriedade arquitetural mensurável (esparsidade de dependências no score) a uma capacidade observável (compor combinações inéditas de condicionadores). Isso dá uma alavanca pra quem treina modelos de difusão: forçar localidade vira ferramenta de design, não acidente de treino.

Publicado em outubro de 2025, com data de publicação formal April 2026. Ver publicação na Apple Machine Learning Research.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.