PESQUISA · APPLE · 29 ABR 2026

Apple apresenta Sonata: LLMs aprendem quando vale gastar token pensando (e quando não)

Pesquisadores da Apple e UNC propõem o Sonata, um adapter leve que decide quanto orçamento de chain-of-thought alocar pra cada query antes do modelo começar a pensar. Usa self-consistency como proxy de dificuldade e corta de 20% a 80% dos tokens de raciocínio mantendo a mesma acurácia. Testado em Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B e Intern-S1-mini, com paper aceito na ICLR 2026.

Curadoria cafecomtech3 min de leiturade olho#llm#reasoning#inference_optimization

Apple apresenta Sonata: LLMs aprendem quando vale gastar token pensando (e quando não) foi anunciado em 29 de abril às 00:00, horário de Brasília. fonte original →

Pesquisadores da Apple (parte do trabalho) e da University of North Carolina at Chapel Hill publicaram um paper aceito na ICLR 2026 atacando um problema bem prático de quem roda modelo de raciocínio em produção: quanto thinking budget (orçamento de tokens pra chain-of-thought) cada query realmente precisa.

A pergunta importa porque aumentar o budget melhora performance de forma suave, mas custa caro. E hoje a relação entre capacidade do modelo, complexidade da query e alocação ótima de budget é mal compreendida.

A ideia central

Os autores usam self-consistency (concordância entre múltiplos caminhos de raciocínio) como proxy pra dificuldade da query. A observação base: quando a self-consistency é baixa, a query precisa de mais thinking pra chegar na resposta certa. Quando é alta, dá pra economizar.

A partir disso, eles propõem o Sonata (Self-Consistency-Guided Adapter for Thinking Allocation): um adapter leve que prediz a self-consistency direto das hidden representations da última camada, durante o prefilling stage da query. Ou seja, antes do modelo começar a pensar, o Sonata já decidiu quanto budget vai liberar.

Como funciona na prática

Adapter treinado offline em um dataset de calibração
Prediz self-consistency a partir do hidden state da última camada no prefill
Essa predição guia alocação de budget on-the-fly antes do thinking começar
Overhead computacional próximo de zero na inferência
Transferível entre tarefas diferentes depois de treinado
Ortogonal a métodos de CoT compression existentes (dá pra combinar)

Os números

Experimentos rodaram em múltiplos modelos (Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B, Intern-S1-mini) e benchmarks de raciocínio (AIME24, AIME25, GSM8K, MATH500, GPQA). Dois resultados principais:

20% a 80% de redução em thinking tokens mantendo a mesma acurácia
Ou até 5% de ganho de acurácia com o mesmo custo de tokens

Pra quem está pagando conta de inferência de modelo reasoning, esse range de 20-80% não é detalhe acadêmico. Em fluxo de produção com Qwen3 ou GPT-OSS rodando local, isso é diferença direta no custo por query e na latência percebida.

Autores e contexto

O paper é assinado por Pingzhi Li, Bairu Hou, Yun Zhu, Yihao Feng, Ke Ye, Tao Lei, Zhifeng Chen, Tianlong Chen e Xianzhi Du. Pingzhi Li e Tianlong Chen são da UNC Chapel Hill. Parte do trabalho foi feito enquanto Pingzhi Li, Yun Zhu e Ke Ye estavam na Apple.

O trabalho conversa com uma linha que a Apple vem puxando em reasoning eficiente: o paper The Illusion of Thinking (NeurIPS 2025) questionou limites dos LRMs, e o AdaBoN propôs Best-of-N adaptativo. Sonata segue a mesma pegada de não desperdiçar compute em query que não precisa.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.