Pesquisadores da Google Cloud apresentaram no ICLR o ReasoningBank, framework de memória que destila estratégias de raciocínio de trajetórias bem e malsucedidas. Em testes com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, superou agentes sem memória em 8,3% e 4,6% de taxa de sucesso, com menos passos por tarefa. Código já liberado no GitHub.
Jun Yan e Chen-Yu Lee, pesquisadores da Google Cloud, publicaram no ICLR o paper ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory. A ideia ataca um problema prático: agente em produção encara cada tarefa nova do zero, repete os mesmos erros e joga fora insight valioso de execuções passadas.
As abordagens existentes caem em dois campos:
Os dois têm furos. Gravar ação detalhada não destila padrão de raciocínio transferível. E focar só em sucesso ignora a principal fonte de aprendizado: os próprios erros.
Cada item de memória é estruturado em três campos:
O workflow roda em loop fechado de retrieval, extração e consolidação. Antes de agir, o agente puxa memórias relevantes pro contexto. Interage com o ambiente e usa um LLM-as-a-judge pra auto-avaliar a trajetória, extraindo insight de sucesso ou reflexão de falha. O paper mostra que essa auto-avaliação não precisa ser perfeita, o sistema é robusto a ruído de julgamento.
A diferença central: ReasoningBank analisa ativamente trajetórias que falharam pra tirar sinal contrafactual. Em vez de aprender regra procedural do tipo "clicar no botão 'Load More'", o agente aprende, de um fracasso passado, a "sempre verificar o identificador da página atual antes de tentar carregar mais resultados, pra evitar armadilha de scroll infinito".
Test-time scaling (TTS) funciona bem em matemática e programação competitiva, mas em ambiente de agente costuma descartar a trajetória de exploração e considerar só a resposta final. MaTTS (Memory-aware Test-Time Scaling) conecta memória com scaling em duas formas:
Avaliação com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, usando ReAct como base, comparado a baseline sem memória (Vanilla ReAct), Synapse e AWM:
Os autores relataram também maturação estratégica emergente: memórias iniciais pareciam checklist simples ("procurar links da página") e evoluíram com uso pra lógica composicional preventiva ("cross-referenciar tarefas continuamente com filtros de página ativos pra garantir que datasets recuperados não foram paginados prematuramente").
Na prática, pra quem constrói agente de longa duração, o ponto interessante é tratar falha como sinal de treino em tempo de inferência, sem re-treinar modelo. Código tá no GitHub e dá pra testar em cima de qualquer agente ReAct.
A pesquisa foi conduzida por Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee e Tomas Pfister.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0