PRODUTO
AWS
A AWS detalhou como os checks de Automated Reasoning no Amazon Bedrock Guardrails trocam validação probabilística por verificação matemática formal. A ideia: em vez de rodar um LLM-como-juiz avaliando outro LLM, o sistema prova logicamente se a saída bate com as regras definidas. Casos citados vão de Amazon Logistics (revisão de 8h pra minutos) a Lucid Motors com PwC (forecast de semanas pra menos de 1 minuto) e FETG com redução de 80% no setup de regras.
FERRAMENTAS
AWS
A AWS publicou um guia combinando DVC (Data Version Control), Amazon SageMaker AI e SageMaker AI MLflow Apps pra resolver rastreabilidade de modelos em produção. Dois padrões acompanham notebooks prontos: lineage em nível de dataset e em nível de registro individual, esse último pensado pra compliance em saúde e finance. Tudo rodável em conta AWS própria.
há cerca de 16 horas · 2 min#mlops PRODUTO
Google
Google anunciou três features agênticas no Ads Advisor, o agente de IA dentro do Google Ads: troubleshooting proativo de violações de política, monitoramento 24/7 de segurança da conta e certificações instantâneas via Gemini. Lançamento gradual nos próximos meses, disponível em contas em inglês globalmente.
há cerca de 18 horas · 2 min#agents FERRAMENTAS
Hugging Face
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
há cerca de 23 horas · 2 min#open_source FERRAMENTAS
AWS
A AWS soltou o ToolSimulator, framework dentro do Strands Evals que usa LLM pra simular tool calls de agentes. Em vez de bater em API real (com risco de vazar PII, disparar ações indevidas ou lidar com rate limit), o simulator gera respostas adaptativas, mantém estado entre chamadas e valida schema Pydantic. Disponível hoje via `pip install strands-evals`.