Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A AWS anunciou o Claude Cowork no Amazon Bedrock: agora dá pra rodar o Cowork e o Claude Code Desktop via Bedrock, direto ou por um LLM gateway. A ideia é estender o Claude além do time de dev e levar pra qualquer knowledge worker da organização, mantendo dados no ambiente AWS do cliente. Billing consumption-based, sem licença por seat da Anthropic.
A AWS publicou um guia combinando DVC (Data Version Control), Amazon SageMaker AI e SageMaker AI MLflow Apps pra resolver rastreabilidade de modelos em produção. Dois padrões acompanham notebooks prontos: lineage em nível de dataset e em nível de registro individual, esse último pensado pra compliance em saúde e finance. Tudo rodável em conta AWS própria.
Pesquisadores da Google Cloud apresentaram no ICLR o ReasoningBank, framework de memória que destila estratégias de raciocínio de trajetórias bem e malsucedidas. Em testes com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, superou agentes sem memória em 8,3% e 4,6% de taxa de sucesso, com menos passos por tarefa. Código já liberado no GitHub.
Google anunciou três features agênticas no Ads Advisor, o agente de IA dentro do Google Ads: troubleshooting proativo de violações de política, monitoramento 24/7 de segurança da conta e certificações instantâneas via Gemini. Lançamento gradual nos próximos meses, disponível em contas em inglês globalmente.
A OpenAI anunciou o ChatGPT Images 2.0, novo modelo de geração de imagem da casa. Promete renderização de texto mais fiel, suporte multilíngue e raciocínio visual avançado. Detalhes técnicos, preço e disponibilidade ainda não saíram em comunicado oficial expandido.
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
Pesquisa da Apple com Georgetown propõe um benchmark pra medir se LLM entende contexto linguístico de verdade. Resultado: modelos densos pré-treinados patinam em features contextuais mais sutis quando comparados a modelos fine-tuned especializados. Quantização 3-bit pós-treino piora ainda mais o desempenho. Paper sai na EACL 2026.
Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.
OpenAI anunciou o Codex Labs e fechou parcerias com Accenture, PwC, Infosys e outras consultorias globais pra ajudar empresas a implantar e escalar o Codex no ciclo de desenvolvimento de software. Junto, soltou o número: 4 milhões de WAU (Weekly Active Users — usuários ativos semanais) no Codex.