Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
IBM Research soltou o VAKRA, benchmark executável com 8.000+ APIs locais em 62 domínios pra medir se agentes de IA dão conta de workflows multi-step de verdade. Spoiler: dão mal. O post abre os 4 tipos de tarefa, o pipeline de avaliação em cascata e análise detalhada de onde modelos como GPT-OSS-120B, Gemini-3-flash-preview e Claude-Sonnet-4-5 quebram.
A HCompany soltou o HoloTab, extensão gratuita do Chrome que roda em cima do Holo3, o modelo de computer-use da casa lançado em 31 de março. Você descreve a tarefa e o agente navega, clica e preenche campos como se fosse um humano. Tem também o modo Routines: grava uma vez o que você faz, e depois o HoloTab repete sozinho ou em horário agendado.