Arquivo · cafecomtech

PESQUISA

Apple apresenta Sonata: LLMs aprendem quando vale gastar token pensando (e quando não)

Pesquisadores da Apple e UNC propõem o Sonata, um adapter leve que decide quanto orçamento de chain-of-thought alocar pra cada query antes do modelo começar a pensar. Usa self-consistency como proxy de dificuldade e corta de 20% a 80% dos tokens de raciocínio mantendo a mesma acurácia. Testado em Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B e Intern-S1-mini, com paper aceito na ICLR 2026.

há cerca de 21 horas3 min#llm#reasoning

Toda a timeline, dia por dia.

Hoje

Apple apresenta Sonata: LLMs aprendem quando vale gastar token pensando (e quando não)