Pesquisadores da Apple e UNC propõem o Sonata, um adapter leve que decide quanto orçamento de chain-of-thought alocar pra cada query antes do modelo começar a pensar. Usa self-consistency como proxy de dificuldade e corta de 20% a 80% dos tokens de raciocínio mantendo a mesma acurácia. Testado em Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B e Intern-S1-mini, com paper aceito na ICLR 2026.
Pesquisadores da Apple (parte do trabalho) e da University of North Carolina at Chapel Hill publicaram um paper aceito na ICLR 2026 atacando um problema bem prático de quem roda modelo de raciocínio em produção: quanto thinking budget (orçamento de tokens pra chain-of-thought) cada query realmente precisa.
A pergunta importa porque aumentar o budget melhora performance de forma suave, mas custa caro. E hoje a relação entre capacidade do modelo, complexidade da query e alocação ótima de budget é mal compreendida.
Os autores usam self-consistency (concordância entre múltiplos caminhos de raciocínio) como proxy pra dificuldade da query. A observação base: quando a self-consistency é baixa, a query precisa de mais thinking pra chegar na resposta certa. Quando é alta, dá pra economizar.
A partir disso, eles propõem o Sonata (Self-Consistency-Guided Adapter for Thinking Allocation): um adapter leve que prediz a self-consistency direto das hidden representations da última camada, durante o prefilling stage da query. Ou seja, antes do modelo começar a pensar, o Sonata já decidiu quanto budget vai liberar.
Experimentos rodaram em múltiplos modelos (Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B, Intern-S1-mini) e benchmarks de raciocínio (AIME24, AIME25, GSM8K, MATH500, GPQA). Dois resultados principais:
Pra quem está pagando conta de inferência de modelo reasoning, esse range de 20-80% não é detalhe acadêmico. Em fluxo de produção com Qwen3 ou GPT-OSS rodando local, isso é diferença direta no custo por query e na latência percebida.
O paper é assinado por Pingzhi Li, Bairu Hou, Yun Zhu, Yihao Feng, Ke Ye, Tao Lei, Zhifeng Chen, Tianlong Chen e Xianzhi Du. Pingzhi Li e Tianlong Chen são da UNC Chapel Hill. Parte do trabalho foi feito enquanto Pingzhi Li, Yun Zhu e Ke Ye estavam na Apple.
O trabalho conversa com uma linha que a Apple vem puxando em reasoning eficiente: o paper The Illusion of Thinking (NeurIPS 2025) questionou limites dos LRMs, e o AdaBoN propôs Best-of-N adaptativo. Sonata segue a mesma pegada de não desperdiçar compute em query que não precisa.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0