O Google Research publicou o Simula, framework que trata geração de dados sintéticos como mechanism design no nível do dataset inteiro. A ideia: em vez de otimizar ponto a ponto, arquitetar a coleção toda a partir de taxonomias geradas por reasoning, controlando cobertura, complexidade e qualidade como eixos separados. Usado internamente em ShieldGemma, MedGemma e nos classificadores de segurança do Gemini.
O Google Research publicou no Transactions on Machine Learning Research o paper "Reasoning-Driven Synthetic Data Generation and Evaluation", que apresenta o Simula: framework pra gerar dados sintéticos tratando a coleção inteira como um problema de design, não amostra por amostra.
O ponto de partida é prático. Modelos generalistas foram treinados com a abundância da internet, mas aplicação em nicho (segurança, jurídico, saúde, dado sensível) esbarra em escassez de dado real. Coletar manualmente é caro e lento, e dado estático trava ciclo de desenvolvimento. Dado sintético resolve no papel, mas os métodos atuais (prompts manuais, algoritmos evolutivos, seeds extensos da distribuição alvo) não escalam direito e são caixa-preta.
A crítica central dos autores: os métodos existentes operam no nível da amostra, otimizando um ponto de dado por vez. Pra produção, isso não basta. Você precisa de alocação fina onde cobertura, complexidade e qualidade sejam variáveis independentes e controláveis.
Simula decompõe a geração em quatro etapas:
Essa separação em eixos é o que diferencia Simula de pipelines evolutivos tradicionais: você consegue dizer "quero mais cobertura sem aumentar dificuldade" ou o contrário, sem efeito colateral emaranhado.
Avaliar dado sintético é notoriamente difícil. Cosine distance em embedding dá sinal, mas não é acionável. O paper propõe métricas baseadas em reasoning: Taxonomic Coverage (quanta da taxonomia foi efetivamente coberta) e Calibrated Complexity Scoring (usa comparações em batch feitas por LLM pra atribuir ratings estilo Elo de xadrez a pontos individuais de dado).
Setup: Gemini 2.5 Flash como teacher, Gemma-3 4B como student. Geração de até 512 mil pontos por domínio. Cinco domínios testados: CTI-MCQ e CTI-RCM (cybersecurity, do CTIBench), LEXam (raciocínio jurídico), GSM8k (matemática de ensino fundamental) e Global MMLU (conhecimento acadêmico multilíngue).
Três achados que os autores destacam:
O post deixa claro que Simula não é só paper. Usos internos citados:
Pra quem acompanha o espaço: a mensagem do Google aqui é que dado sintético de qualidade virou ativo estratégico, não curiosidade acadêmica. Se a próxima onda de avanço depende de domínios onde humano não escala (ciência, segurança, jurídico), quem tiver pipeline de geração controlável larga na frente.
Tim R. Davidson (student researcher), Benoit Seguin, Enrico Bacis, Cesar Ilharco e Hamza Harkous (senior staff research scientist). Framework liderado por Harkous e Seguin.
O paper tá linkado no post original do Google Research.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0