Arquivo · cafecomtech

PESQUISA

Por dentro do VAKRA: raciocínio, uso de ferramentas e modos de falha de agentes

IBM Research soltou o VAKRA, benchmark executável com 8.000+ APIs locais em 62 domínios pra medir se agentes de IA dão conta de workflows multi-step de verdade. Spoiler: dão mal. O post abre os 4 tipos de tarefa, o pipeline de avaliação em cascata e análise detalhada de onde modelos como GPT-OSS-120B, Gemini-3-flash-preview e Claude-Sonnet-4-5 quebram.

por mateus v.há 9 dias6 min#agents

Toda a timeline, dia por dia.

quarta-feira · 15 de abr

Por dentro do VAKRA: raciocínio, uso de ferramentas e modos de falha de agentes

HCompany lança HoloTab, extensão do Chrome que usa o navegador por você