Arquivo · cafecomtech

PRODUTO

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

A AWS anunciou o Claude Cowork no Amazon Bedrock: agora dá pra rodar o Cowork e o Claude Code Desktop via Bedrock, direto ou por um LLM gateway. A ideia é estender o Claude além do time de dev e levar pra qualquer knowledge worker da organização, mantendo dados no ambiente AWS do cliente. Billing consumption-based, sem licença por seat da Anthropic.

por mateus v.há 2 dias4 min#llm#agents

FERRAMENTAS

AWS

Lineage ponta a ponta com DVC e SageMaker AI MLflow Apps

A AWS publicou um guia combinando DVC (Data Version Control), Amazon SageMaker AI e SageMaker AI MLflow Apps pra resolver rastreabilidade de modelos em produção. Dois padrões acompanham notebooks prontos: lineage em nível de dataset e em nível de registro individual, esse último pensado pra compliance em saúde e finance. Tudo rodável em conta AWS própria.

há 2 dias6 min#mlops#aws

Lineage ponta a ponta com DVC e SageMaker AI MLflow Apps

PESQUISA

Google

ReasoningBank: framework do Google faz agentes aprenderem com acertos e erros depois do deploy

Pesquisadores da Google Cloud apresentaram no ICLR o ReasoningBank, framework de memória que destila estratégias de raciocínio de trajetórias bem e malsucedidas. Em testes com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, superou agentes sem memória em 8,3% e 4,6% de taxa de sucesso, com menos passos por tarefa. Código já liberado no GitHub.

há 2 dias3 min#agents#learning

PRODUTO

Google

Ads Advisor ganha 3 recursos agênticos de segurança no Google Ads

Google anunciou três features agênticas no Ads Advisor, o agente de IA dentro do Google Ads: troubleshooting proativo de violações de política, monitoramento 24/7 de segurança da conta e certificações instantâneas via Gemini. Lançamento gradual nos próximos meses, disponível em contas em inglês globalmente.

há 3 dias2 min#agents#safety

Ads Advisor ganha 3 recursos agênticos de segurança no Google Ads

PRODUTO

OpenAIde olho

OpenAI lança ChatGPT Images 2.0 com renderização de texto melhor e raciocínio visual

A OpenAI anunciou o ChatGPT Images 2.0, novo modelo de geração de imagem da casa. Promete renderização de texto mais fiel, suporte multilíngue e raciocínio visual avançado. Detalhes técnicos, preço e disponibilidade ainda não saíram em comunicado oficial expandido.

por mateus v.há 3 dias2 min#multimodal#vision

OpenAI lança ChatGPT Images 2.0 com renderização de texto melhor e raciocínio visual

FERRAMENTAS

Hugging Faceraiz

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.

por mateus v.há 3 dias5 min#open_source#leaderboard

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

PESQUISA

apple

Apple pergunta: LLMs realmente entendem contexto? Novo benchmark diz que nem tanto

Pesquisa da Apple com Georgetown propõe um benchmark pra medir se LLM entende contexto linguístico de verdade. Resultado: modelos densos pré-treinados patinam em features contextuais mais sutis quando comparados a modelos fine-tuned especializados. Quantização 3-bit pós-treino piora ainda mais o desempenho. Paper sai na EACL 2026.

há 3 dias2 min#llm#nlp

Apple pergunta: LLMs realmente entendem contexto? Novo benchmark diz que nem tanto

TECH

Hugging Face

IA e o futuro da cibersegurança: por que abertura importa

Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.

há 3 dias6 min#safety#open_source

IA e o futuro da cibersegurança: por que abertura importa

FERRAMENTAS

OpenAIde olho

OpenAI escala Codex pra empresas com Codex Labs e parceria com Accenture, PwC e Infosys

OpenAI anunciou o Codex Labs e fechou parcerias com Accenture, PwC, Infosys e outras consultorias globais pra ajudar empresas a implantar e escalar o Codex no ciclo de desenvolvimento de software. Junto, soltou o número: 4 milhões de WAU (Weekly Active Users — usuários ativos semanais) no Codex.

por mateus v.há 3 dias2 min#coding#codex

Toda a timeline, dia por dia.

terça-feira · 21 de abr

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

Lineage ponta a ponta com DVC e SageMaker AI MLflow Apps

ReasoningBank: framework do Google faz agentes aprenderem com acertos e erros depois do deploy

Ads Advisor ganha 3 recursos agênticos de segurança no Google Ads

OpenAI lança ChatGPT Images 2.0 com renderização de texto melhor e raciocínio visual

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

Apple pergunta: LLMs realmente entendem contexto? Novo benchmark diz que nem tanto

IA e o futuro da cibersegurança: por que abertura importa

OpenAI escala Codex pra empresas com Codex Labs e parceria com Accenture, PwC e Infosys