PESQUISA · GOOGLE · 21 ABR 2026

ReasoningBank: framework do Google faz agentes aprenderem com acertos e erros depois do deploy

Pesquisadores da Google Cloud apresentaram no ICLR o ReasoningBank, framework de memória que destila estratégias de raciocínio de trajetórias bem e malsucedidas. Em testes com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, superou agentes sem memória em 8,3% e 4,6% de taxa de sucesso, com menos passos por tarefa. Código já liberado no GitHub.

Curadoria cafecomtech3 min de leitura#agents#learning#reasoning

ReasoningBank: framework do Google faz agentes aprenderem com acertos e erros depois do deploy foi anunciado em 21 de abril às 16:42, horário de Brasília. fonte original →

Jun Yan e Chen-Yu Lee, pesquisadores da Google Cloud, publicaram no ICLR o paper ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory. A ideia ataca um problema prático: agente em produção encara cada tarefa nova do zero, repete os mesmos erros e joga fora insight valioso de execuções passadas.

O problema com memória de agente atual

As abordagens existentes caem em dois campos:

Memória de trajetória (tipo Synapse): guarda registro exaustivo de toda ação tomada.
Memória de workflow (tipo AWM): documenta fluxos resumidos só de tentativas bem-sucedidas.

Os dois têm furos. Gravar ação detalhada não destila padrão de raciocínio transferível. E focar só em sucesso ignora a principal fonte de aprendizado: os próprios erros.

Como o ReasoningBank funciona

Cada item de memória é estruturado em três campos:

Title: identificador curto da estratégia central.
Description: resumo breve do item.
Content: passos de raciocínio destilados, racionais de decisão e insights operacionais extraídos de experiência passada.

O workflow roda em loop fechado de retrieval, extração e consolidação. Antes de agir, o agente puxa memórias relevantes pro contexto. Interage com o ambiente e usa um LLM-as-a-judge pra auto-avaliar a trajetória, extraindo insight de sucesso ou reflexão de falha. O paper mostra que essa auto-avaliação não precisa ser perfeita, o sistema é robusto a ruído de julgamento.

A diferença central: ReasoningBank analisa ativamente trajetórias que falharam pra tirar sinal contrafactual. Em vez de aprender regra procedural do tipo "clicar no botão 'Load More'", o agente aprende, de um fracasso passado, a "sempre verificar o identificador da página atual antes de tentar carregar mais resultados, pra evitar armadilha de scroll infinito".

MaTTS: escalar em tempo de inferência com memória

Test-time scaling (TTS) funciona bem em matemática e programação competitiva, mas em ambiente de agente costuma descartar a trajetória de exploração e considerar só a resposta final. MaTTS (Memory-aware Test-Time Scaling) conecta memória com scaling em duas formas:

Parallel scaling: agente gera múltiplas trajetórias distintas pra mesma query guiado por memória. ReasoningBank contrasta as bem-sucedidas com as mal-raciocinadas pra destilar estratégia mais robusta.
Sequential scaling: agente refina iterativamente o raciocínio dentro de uma trajetória única. ReasoningBank captura os insights intermediários como itens de memória de alta qualidade.

Resultados

Avaliação com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, usando ReAct como base, comparado a baseline sem memória (Vanilla ReAct), Synapse e AWM:

Taxa de sucesso: ReasoningBank sem scaling superou agente sem memória em 8,3% no WebArena e 4,6% no SWE-Bench-Verified.
Eficiência: quase 3 passos de execução a menos por tarefa no SWE-Bench-Verified contra o baseline.
Sinergia com MaTTS: parallel scaling com k=5 adiciona 3% de sucesso e corta 0,4 passo no WebArena.

Os autores relataram também maturação estratégica emergente: memórias iniciais pareciam checklist simples ("procurar links da página") e evoluíram com uso pra lógica composicional preventiva ("cross-referenciar tarefas continuamente com filtros de página ativos pra garantir que datasets recuperados não foram paginados prematuramente").

Na prática, pra quem constrói agente de longa duração, o ponto interessante é tratar falha como sinal de treino em tempo de inferência, sem re-treinar modelo. Código tá no GitHub e dá pra testar em cima de qualquer agente ReAct.

Links

Paper no ICLR
Código do ReasoningBank no GitHub

A pesquisa foi conduzida por Siru Ouyang, Jun Yan, I-Hung Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T. Le, Samira Daruki, Xiangru Tang, Vishy Tirumalashetty, George Lee, Mahsan Rofouei, Hangfei Lin, Jiawei Han, Chen-Yu Lee e Tomas Pfister.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.