Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A DeepSeek lançou a quarta geração da família, com DeepSeek-V4-Pro (1.6T parâmetros totais, 49B ativos) e DeepSeek-V4-Flash (284B totais, 13B ativos). Ambos suportam contexto de 1M tokens e prometem 73% menos FLOPs por token e 90% menos memória de KV cache que o V3.2. NVIDIA mostra +150 tokens/s/usuário no GB200 NVL72 e libera os modelos em endpoints acelerados no build.nvidia.com.
A AWS tá posicionando o Amazon Quick como assistente de IA pra times de marketing conectarem dados espalhados entre HubSpot, Salesforce, Adobe, Slack e Asana. A proposta: relatórios de campanha em minutos, análise competitiva em 30 minutos, e pacotes de conteúdo gerados a partir das campanhas passadas. Integra via MCP e OpenAPI, roda na AWS com dados no ambiente do cliente.
A NVIDIA integrou o Universal Sparse Tensor (UST) ao nvmath-python v0.9.0, com interop zero-copy pra PyTorch, SciPy, CuPy e NumPy. Dá pra converter entre formatos densos e esparsos (COO, CSR, CSC, BSR, DIA e customizados) sem mover dados, definir novos esquemas de sparsity via DSL e injetar direto em modelos PyTorch. Nos benchmarks de SpMV, bateu CuPy e PyTorch em até 444x.
A AWS anunciou o Claude Cowork no Amazon Bedrock: agora dá pra rodar o Cowork e o Claude Code Desktop via Bedrock, direto ou por um LLM gateway. A ideia é estender o Claude além do time de dev e levar pra qualquer knowledge worker da organização, mantendo dados no ambiente AWS do cliente. Billing consumption-based, sem licença por seat da Anthropic.
A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.
A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.
Microsoft empurrou três atualizações de Reinforcement Fine-Tuning no Foundry: Global Training pro o4-mini em 13+ regiões Azure com preço menor por token, GPT-4.1/mini/nano liberados como model graders e um guia consolidado de boas práticas. Foco claro em baratear RFT e dar mais flexibilidade pra quem avalia saídas open-ended.
A AWS anunciou os sheet tooltips no Amazon QuickSight. Autores de dashboard agora montam tooltips customizados em layout free-form, misturando gráficos, KPIs, texto e imagens num único tooltip que atualiza dinâmico quando o leitor passa o mouse sobre pontos de dados. Funciona com a maioria dos tipos de visual e o mesmo tooltip pode ser reusado em múltiplos gráficos.
A AWS liberou os optimized deployments no SageMaker JumpStart: configurações pré-definidas de deploy pra casos de uso específicos como geração de conteúdo, resumo e Q&A. Em vez de só escolher número de usuários simultâneos, agora dá pra otimizar por custo, throughput ou latência. Disponível pra Llama, Mistral, Qwen, Gemma e outros modelos open.
A AWS mostrou como conectar a plataforma de Workforce AI da Visier ao Amazon Quick usando MCP (Model Context Protocol). A ideia: agentes que cruzam dados ao vivo de RH (headcount, tenure, performance) com documentos internos de política e planejamento em Quick Spaces, respondendo perguntas tipo "estamos dentro do budget de headcount?" sem trocar de ferramenta.
A NVIDIA lançou versão nova do FLARE, runtime de federated computing que leva a lógica de treino até o dado em vez do contrário. A proposta é matar o refactoring que trava projetos de federated learning depois do piloto: com ~5-6 linhas de código você transforma script local em cliente federado, e um job recipe em Python roda igual em simulação, PoC e produção.
A NEC vai usar Claude pra construir uma das maiores organizações de engenharia AI-native do Japão, liberando a ferramenta pra cerca de 30 mil funcionários do grupo no mundo todo. A NEC vira a primeira parceira global da Anthropic baseada no Japão. Juntas, vão desenvolver produtos de IA específicos pro mercado japonês, começando por finance, manufatura e governo local.
A DeepSeek soltou o V4 com dois checkpoints MoE: V4-Pro (1.6T parâmetros totais, 49B ativos) e V4-Flash (284B/13B). Ambos com janela de 1M tokens. Benchmarks são competitivos mas não SOTA. O pulo do gato está na arquitetura: atenção híbrida (CSA + HCA) que derruba KV cache pra 2% do padrão e libera workloads agênticos de verdade em contextos longos.
Pesquisadores da Apple e do CompVis (LMU Munique) publicaram no CVPR 2026 um paper que modela dinâmica de cena operando direto num embedding de movimento de longo prazo, em vez de gerar vídeo frame a frame. Compressão temporal de 64x e um modelo de flow-matching condicional entregam geração de movimento orientada por texto ou 'pokes' espaciais, superando modelos de vídeo SOTA e abordagens especializadas.
A Anthropic publicou update sobre como o Claude lida com perguntas eleitorais: avaliações de viés político (Opus 4.7 e Sonnet 4.6 com 95% e 96%), banners apontando pra fontes confiáveis (TurboVote nos EUA, equivalente ainda não nomeado no Brasil) e testes contra operações de influência autônomas. O documento mira midterms americanas de 2026 e cita explicitamente as eleições brasileiras do mesmo ano.
A AWS publicou um guia técnico sobre BioFMs multimodais (modelos de fundação biológica), IA treinada pra integrar dados que antes viviam em silos: genômica, imagem médica, prontuário eletrônico e documentação clínica. O post destrincha casos reais (Latent Labs, Arc Institute, Insilico, Noetik), ganhos medidos de 4-7% em AUC diagnóstico, e mapeia quais serviços AWS (SageMaker HyperPod, HealthOmics, Bedrock AgentCore) entram em cada camada do pipeline.
O Google publicou um explicativo sobre as TPUs (Tensor Processing Units), chips custom que a empresa desenha há mais de uma década pra rodar modelos de IA. A geração mais nova entrega 121 exaflops de capacidade de compute, com o dobro de banda das anteriores. É o hardware que roda silenciosamente atrás dos produtos Google que você usa todo dia.
A OpenAI lançou o GPT-5.5, novo modelo topo de linha que mira trabalho real no computador: código agêntico, pesquisa, planilhas, automação de ferramentas. Bate 82.7% em Terminal-Bench 2.0, 84.9% em GDPval e mantém a latência por token do GPT-5.4. Rolling out pros planos Plus, Pro, Business e Enterprise no ChatGPT e Codex. API sai em breve a US$ 5/US$ 30 por 1M tokens (input/output).
A OpenAI publicou o System Card do GPT-5.5, modelo desenhado pra trabalho complexo no mundo real: escrever código, pesquisar online, analisar dados, montar documentos e planilhas, e navegar entre ferramentas até fechar a tarefa. A casa rodou o Preparedness Framework completo, red-teaming focado em cyber e biologia, e colheu feedback de quase 200 parceiros em acesso antecipado. Release vem com o conjunto de safeguards mais forte até agora.
A OpenAI Academy publicou guia explicando o Codex como agente de IA pra delegar trabalho real, não apenas programar. Enquanto o ChatGPT ajuda a pensar, o Codex executa: puxa dados de Slack e email, monta deck, cria app simples, atualiza arquivos. O posicionamento expande o produto pra além de dev, mirando qualquer profissional com tarefa repetível.
A OpenAI liberou Automations no Codex, feature que deixa o agente rodar tarefas em horário marcado ou via trigger. A ideia é sair do modo reativo: em vez de você pedir update, o Codex volta sozinho na hora combinada, executa e deixa o resultado pra revisão. Serve pra review semanal, brief matinal, resumo de pasta e status report recorrente.
Google confirmou o primeiro data center da Áustria, em Kronstorf, com 100 vagas diretas pra atender a demanda por serviços digitais e capacidade de IA. O projeto inclui fundo pra melhorar a qualidade da água do rio Enns, telhado verde com painéis solares e recuperação de calor pra aquecimento regional. Vem junto com parceria de capacitação com a University of Applied Science Upper Austria.
A OpenAI lançou o Bio Bug Bounty do GPT-5.5: desafio pago pra pesquisadores tentarem quebrar as salvaguardas de biossegurança do modelo. Recompensa de US$ 25 mil pra quem achar um jailbreak universal que derrote os cinco prompts do teste, rodando no Codex Desktop. Inscrições vão até 22 de junho de 2026, testes de 28 de abril a 27 de julho de 2026.
Pesquisa da Apple aceita como Oral no ICLR 2026 resolve o gargalo clássico das RNNs: treinar em paralelo. Usando o método de Newton pra linearizar a recorrência, o framework ParaRNN atinge speedup de 665× no treino sequencial e viabiliza, pela primeira vez, RNNs clássicas (GRU/LSTM adaptadas) de 7B parâmetros com perplexidade competitiva com transformers e Mamba2. Código aberto.
A Anthropic publicou a página do time de Societal Impacts, grupo técnico que estuda como a IA é usada (e mal usada) no mundo real. Trabalha colado com os times de Policy e Safeguards, desenvolve experimentos, métodos de treino e avaliações. A página lista pesquisas recentes, incluindo o estudo com 81 mil users do Claude.ai e relatórios sobre impacto no trabalho de engenharia.
A Anthropic mantém uma página dedicada ao time de Interpretability, cuja missão é descobrir como LLMs funcionam por dentro. A ideia é virar base pra AI safety: entender circuitos, persona vectors, introspecção do modelo e como conceitos são representados. Lista também o portfólio de papers, de Toy Models of Superposition (2022) até publicações agendadas pra 2026.
A Anthropic tem um time dedicado de Economic Research que estuda como a IA tá remodelando trabalho, produtividade e oportunidade econômica. O carro-chefe é o Anthropic Economic Index, que rastreia uso real do Claude em todo setor da economia. Últimos relatórios mostram automação diretiva subindo de 27% pra 39% das conversas desde dezembro de 2024, com empresas automatizando bem mais que consumidores.
A Anthropic mantém uma página-hub do time de Alignment, que cuida de manter os modelos úteis, honestos e inofensivos mesmo quando a capacidade cresce. A página lista linhas de pesquisa (auditoria de objetivos ocultos, alignment faking, reward tampering, character training) e um histórico de publicações que vai de 2024 até 2026, incluindo Constitutional Classifiers e data poisoning em LLMs.
A AWS publicou um guia pra quem quer fugir do custo de ASR gerenciado: roda o NVIDIA Parakeet-TDT-0.6B-v3 em AWS Batch com GPU, dispara via S3 + EventBridge e usa Spot pra cortar até 90%. Pipeline event-driven escala do zero, cobre 25 idiomas europeus (português incluso) e sai por frações de centavo por hora de áudio.
A NVIDIA anunciou a RTX PRO 4500 Blackwell Server Edition, GPU de servidor com 32 GB GDDR7 e suporte a duas instâncias MIG, junto com o software vGPU 20. A combinação promete quase 1.9x mais aceleração em workloads gráficos vs L4 e abre espaço pra rodar desktop virtual, IA leve e simulação CUDA no mesmo hardware físico.
A NVIDIA integrou o Muon (MomentUm Orthogonalized by Newton-Schulz) e outros otimizadores de segunda ordem como MOP e REKLS no Megatron Core e no NeMo Megatron Bridge. Resultado: treino do Kimi K2 e Qwen3 30B em GB300 NVL72 com perda mínima de throughput contra o AdamW. A receita junta otimizador distribuído layer-wise e três modos de Newton-Schulz distribuído pra lidar com tensor parallelism.
A AWS lançou recomendações otimizadas de inferência generativa no Amazon SageMaker AI. Você traz o modelo, define tráfego esperado e escolhe um objetivo (custo, latência ou throughput). O SageMaker filtra configurações, aplica otimizações (speculative decoding, tensor parallelism) e faz benchmark em GPU real via NVIDIA AIPerf, devolvendo configs ranqueadas prontas pra deploy.
A AWS anunciou novos recursos no Amazon Bedrock AgentCore pra encurtar o caminho entre ideia e agente rodando. O destaque é o managed agent harness: você declara o agente em 3 chamadas de API, sem código de orquestração. Também entrou uma CLI que cobre prototipagem, deploy e operação no mesmo terminal, além de skills pré-construídas pra assistentes de código como Claude Code, Kiro, Codex e Cursor.
A Microsoft anunciou o Toolbox no Foundry em public preview: jeito de empacotar tools (APIs, MCP servers, connectors, skills) num bundle reusável, com autenticação centralizada e endpoint MCP único que qualquer agente consome. Funciona com Microsoft Agent Framework, LangGraph, GitHub Copilot, Claude Code e qualquer runtime que fale MCP. Foco inicial: parar de refazer fiação de tools em cada agente novo.
A Microsoft lançou a v1.0 do Agent Framework (SDK open-source que unifica Semantic Kernel e AutoGen em Python e .NET) junto com GA do Foundry Toolkit pro VS Code, memory gerenciada, Toolbox com MCP/OpenAPI/A2A num endpoint só, hosted agents com sandbox isolada e cold-start abaixo de 100ms, e Observability full GA no Foundry Control Plane. A pegada: cobrir o ciclo do laptop à produção sem você juntar peça de três fornecedores.
A Microsoft colocou em public preview os hosted agents no Foundry Agent Service: compute pensado pra agentes de produção, com sandbox isolado por sessão via hypervisor, filesystem que sobrevive a scale-to-zero, identidade por agente (Entra Agent ID) e suporte a qualquer framework (LangGraph, Claude Agent SDK, OpenAI Agents SDK). Deploy num comando: azd deploy.
Google lançou uma nova abordagem de edição no Auto frame do Google Photos: a foto 2D é interpretada como cena 3D, a câmera virtual é reposicionada e a IA generativa preenche o que ficou escondido. Roda em dois estágios (estimativa 3D + latent diffusion), corrige distorção de selfie grande-angular e entrega a versão reenquadrada como segunda opção dentro do Auto frame.
A Microsoft Research apresentou o AutoAdapt, framework end-to-end que automatiza a adaptação de LLMs pra domínios de alto risco como direito, medicina e resposta a incidentes em nuvem. Ele escolhe entre RAG e fine-tuning, planeja pipelines válidos e refina hiperparâmetros respeitando restrições de latência, hardware, privacidade e orçamento. Código liberado em open source.
A AWS publicou arquitetura de referência que combina Amazon Bedrock, Neptune e Mem0 pra dar memória persistente e específica da empresa a agentes de IA. A TrendMicro usou o stack pra construir o Trend's Companion, chatbot que cruza memória curta de conversa com knowledge graph organizacional. Inclui human-in-the-loop pra validar o que entra na base.
Asier Arranz (NVIDIA) publicou no Hugging Face um tutorial de VLA (Vision-Language-Action) rodando 100% local num Jetson Orin Nano Super de 8 GB. Stack: Parakeet STT → Gemma 4 → webcam (se precisar) → Kokoro TTS. O modelo decide sozinho quando olhar pela câmera pra responder, sem keyword trigger nem lógica hardcoded. Tudo em um script Python só.
A OpenAI lançou o ChatGPT for Clinicians, versão do ChatGPT desenhada pra tarefas clínicas como documentação, consulta de casos e revisão de literatura médica. Roda em cima do GPT-5.4, tem busca clínica com citações, skills pra workflows repetíveis e suporte opcional a HIPAA. Grátis pra médicos, NPs, PAs e farmacêuticos verificados nos EUA, com expansão internacional via Better Evidence Network nos próximos meses.
O Google anunciou a oitava geração do TPU com dois chips dedicados: o TPU 8i, otimizado pra inferência de agentes de IA autônomos que executam workflows multi-etapas, e o TPU 8t, voltado pra treinar modelos complexos num único pool gigante de memória. A dupla vira o motor da stack full-stack do Google pra escalar IA agêntica.
A OpenAI publicou um mergulho técnico no loop de agente do Codex, mostrando como trocou HTTP por WebSockets e aplicou cache escopado por conexão pra cortar overhead de API e melhorar a latência do modelo. É o tipo de otimização que importa quando o agente faz centenas de chamadas por sessão.
A OpenAI anunciou os workspace agents no ChatGPT: agentes movidos a Codex que rodam na nuvem e automatizam fluxos complexos dentro do ambiente de trabalho. A proposta é deixar times escalarem tarefas entre ferramentas diferentes com controles de segurança, sem precisar montar pipeline próprio de automação.
A OpenAI publicou material sobre Workspace Agents, recurso pra times construírem, usarem e escalarem agentes dentro do ChatGPT. Objetivo: automatizar workflows repetitivos, conectar ferramentas e dar agilidade em operações de time. Direcionado pra contas corporativas que querem levar agente pra dentro do dia a dia sem montar infra própria.
A OpenAI liberou o Privacy Filter, modelo open-weight que detecta e mascara informação pessoal identificável (PII) em texto. A empresa afirma precisão state-of-the-art na tarefa. É uma peça pra quem precisa higienizar dados antes de mandar pra LLM, treinar modelo próprio ou logar prompts sem vazar dado sensível.
A Anthropic entrevistou 81 mil usuários do Claude pra entender como a IA tá mexendo com trabalho e renda. Quem atua em funções mais expostas à IA tem mais medo de perder emprego, e o receio é maior entre quem tá começando carreira. Os maiores ganhos de produtividade aparecem nos extremos: profissões bem pagas e mal pagas. Quem sente mais aceleração no trabalho também é quem mais teme substituição.
A Anthropic anunciou o Economic Index Survey, pesquisa mensal rodada via Anthropic Interviewer com amostra rotativa de usuários do Claude. Objetivo: captar dados qualitativos sobre como as pessoas estão vivendo a transição econômica da IA (tarefas delegadas, ganhos de produtividade, mudanças em contratação) antes que apareçam nos indicadores tradicionais de mercado de trabalho.
A Apple desembarca no ICLR 2026, que rola no Rio de Janeiro, com cinco trabalhos de destaque: paralelização de RNNs que destrava treino de 7B parâmetros, uso de ferramentas externas pra State Space Models generalizarem em tarefas longas, modelo multimodal unificado (Manzano), geração 3D a partir de uma foto em menos de 1 segundo (SHARP) e uma nova arquitetura simples pra protein folding (SimpleFold).
A AWS publicou um guia combinando DVC (Data Version Control), Amazon SageMaker AI e SageMaker AI MLflow Apps pra resolver rastreabilidade de modelos em produção. Dois padrões acompanham notebooks prontos: lineage em nível de dataset e em nível de registro individual, esse último pensado pra compliance em saúde e finance. Tudo rodável em conta AWS própria.
Pesquisadores da Google Cloud apresentaram no ICLR o ReasoningBank, framework de memória que destila estratégias de raciocínio de trajetórias bem e malsucedidas. Em testes com Gemini-2.5-Flash no WebArena e SWE-Bench-Verified, superou agentes sem memória em 8,3% e 4,6% de taxa de sucesso, com menos passos por tarefa. Código já liberado no GitHub.
Google anunciou três features agênticas no Ads Advisor, o agente de IA dentro do Google Ads: troubleshooting proativo de violações de política, monitoramento 24/7 de segurança da conta e certificações instantâneas via Gemini. Lançamento gradual nos próximos meses, disponível em contas em inglês globalmente.
A OpenAI anunciou o ChatGPT Images 2.0, novo modelo de geração de imagem da casa. Promete renderização de texto mais fiel, suporte multilíngue e raciocínio visual avançado. Detalhes técnicos, preço e disponibilidade ainda não saíram em comunicado oficial expandido.
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
OpenAI anunciou o Codex Labs e fechou parcerias com Accenture, PwC, Infosys e outras consultorias globais pra ajudar empresas a implantar e escalar o Codex no ciclo de desenvolvimento de software. Junto, soltou o número: 4 milhões de WAU (Weekly Active Users — usuários ativos semanais) no Codex.
Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.
Pesquisa da Apple com Georgetown propõe um benchmark pra medir se LLM entende contexto linguístico de verdade. Resultado: modelos densos pré-treinados patinam em features contextuais mais sutis quando comparados a modelos fine-tuned especializados. Quantização 3-bit pós-treino piora ainda mais o desempenho. Paper sai na EACL 2026.
A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).
A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.
A AWS soltou o ToolSimulator, framework dentro do Strands Evals que usa LLM pra simular tool calls de agentes. Em vez de bater em API real (com risco de vazar PII, disparar ações indevidas ou lidar com rate limit), o simulator gera respostas adaptativas, mantém estado entre chamadas e valida schema Pydantic. Disponível hoje via `pip install strands-evals`.
O AI Red Team da NVIDIA demonstrou um ataque de supply chain onde uma dependência Go maliciosa reescreve o arquivo AGENTS.md dentro do container do OpenAI Codex. O agente obedece as instruções injetadas, insere um `time.Sleep(5 * time.Minute)` no `main` e esconde a alteração do reviewer no PR. OpenAI avaliou que não eleva risco além do que dependência comprometida já permite, mas o caso abre uma dimensão nova de risco em workflows agênticos.
A AWS publicou um guia completo pra montar sistema de pedidos por voz multi-canal usando Bedrock AgentCore (plataforma pra rodar agentes de IA com isolamento em microVM) e Nova 2 Sonic, o modelo speech-to-speech da casa. Tem código no GitHub, deploy via CDK e arquitetura separada em frontend, agente e backend. Voz conversa com Lambda, DynamoDB e Location Services via MCP.
Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.
A Hyatt liberou ChatGPT Enterprise pra força de trabalho global, usando GPT-5.4 e Codex. A OpenAI posiciona o caso como ganho em produtividade, operação interna e experiência de hóspede. Mais um contrato grande de rede hoteleira entrando no catálogo Enterprise da OpenAI, sem número de licença divulgado.
A Anthropic assinou novo acordo com a Amazon pra garantir até 5 GW de capacidade pra treinar e servir o Claude, incluindo Trainium2 e Trainium3 entrando online ao longo de 2026. São mais de US$ 100 bilhões comprometidos em tecnologias AWS na próxima década, mais aporte de US$ 5 bi (com até US$ 20 bi adicionais no futuro). E o Claude Platform vai chegar nativo dentro da AWS.
A AWS anunciou atribuição granular de custo pra inferência no Amazon Bedrock. Agora cada chamada é atrelada ao IAM principal que a fez (user, role, identidade federada), e os custos aparecem no AWS Billing, Cost Explorer e CUR 2.0 sem nada pra gerenciar. Com tags opcionais, dá pra agregar gasto por time, projeto ou tenant. Disponível em todas as regiões comerciais, sem custo adicional.
A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.
A AWS publicou um guia arquitetural pra busca semântica em vídeo usando Nova Multimodal Embeddings no Bedrock. A solução gera embeddings separados pra visual, áudio e transcrição, combina com metadados via busca híbrida e roteia queries por intenção usando Claude Haiku. No benchmark interno, Recall@5 saltou de 51% pra 90% contra o modo combinado padrão.
A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.
O time TAA (Technology, AI, and Analytics) da AWS Marketing trabalhou com a Gradial pra montar uma solução agentic em cima do Amazon Bedrock. Resultado: montagem de página caiu de até 4 horas pra ~10 minutos (redução de 95%). Validação de SEO, acessibilidade e brand passou a rodar durante a criação, via servidor MCP, em vez de depois.
A NVIDIA publicou um guia técnico pra engenheiros nucleares usarem o PhysicsNeMo (framework de AI Physics) no design de reatores modulares pequenos (SMRs) e de Geração IV. A ideia: treinar modelos surrogate baseados em Fourier Neural Operators que preveem o campo de fluxo de nêutrons e a seção de choque macroscópica diretamente da geometria da pin cell, pulando a simulação Monte Carlo cara. Resultado: R² de 0.97 contra 0.80 do baseline de regressão.
O Google juntou num único post as ferramentas que quer empurrar pra temporada de viagem: AI Mode com Canvas montando roteiro, rastreamento de preço de hotel individual, reserva de restaurante via agente, Ask Maps pra explorar destino e Google Wallet com ID digital em aeroporto. Maioria das features é US-only, algumas expandem pra UK, Canadá, Índia e Austrália.
A Apple desembarca no Rio de Janeiro pra edição 2026 do ICLR (International Conference on Learning Representations), de 23 a 27 de abril, com mais de 40 papers na conferência principal, workshops e duas demos técnicas no estande 204: inferência de LLM local num MacBook Pro M5 Max rodando MLX dentro do Xcode, e o SHARP gerando nuvem de pontos 3D num iPad Pro M5.
A xAI anunciou duas APIs de áudio avulsas: Grok Speech to Text (STT) e Grok Text to Speech (TTS). Rodam no mesmo stack que sustenta o Grok Voice, os veículos Tesla e o atendimento ao cliente da Starlink. A jogada abre pra devs o motor de áudio que antes ficava trancado dentro dos produtos do ecossistema Musk.
A Anthropic anunciou o Claude Design, novo produto do Anthropic Labs que transforma conversa em design polido: protótipos interativos, wireframes, decks e landing pages. Roda no Claude Opus 4.7, exporta pra Canva, PDF, PPTX ou HTML, e faz handoff direto pro Claude Code. Disponível em research preview pros planos Pro, Max, Team e Enterprise.
AWS mostra dois caminhos pra fine-tunar o Amazon Nova Micro em dialeto SQL próprio, com deploy serverless no Bedrock e cobrança por token. No exemplo, 22 mil queries/mês saíram por US$ 0,80 — bem abaixo de rodar um modelo customizado em infra dedicada. Um caminho passa pelo Bedrock gerenciado, outro pelo SageMaker AI com controle fino de hiperparâmetros.
A AWS publicou um tutorial completo pra montar uma solução serverless de try-on virtual e recomendação de produtos pra varejo online. A stack combina Amazon Nova Canvas (geração de imagem), Rekognition (visão), Titan Multimodal Embeddings e OpenSearch Serverless pra busca vetorial. Tudo empacotado em SAM, deploy com um comando, e código aberto no GitHub.
A AWS detalhou como os checks de Automated Reasoning no Amazon Bedrock Guardrails trocam validação probabilística por verificação matemática formal. A ideia: em vez de rodar um LLM-como-juiz avaliando outro LLM, o sistema prova logicamente se a saída bate com as regras definidas. Casos citados vão de Amazon Logistics (revisão de 8h pra minutos) a Lucid Motors com PwC (forecast de semanas pra menos de 1 minuto) e FETG com redução de 80% no setup de regras.
O Google atualizou o AI Mode no Chrome pra abrir qualquer link clicado em split view com a busca, sem trocar de aba. Também dá pra jogar abas abertas, imagens e PDFs como contexto da pesquisa via um novo menu "+". Disponível nos EUA, rollout global vem depois.
Google acoplou o que chama de Personal Intelligence ao Nano Banana 2: o Gemini puxa contexto dos seus apps Google e da biblioteca do Google Photos pra gerar imagens com você e família sem upload manual nem prompt gigante. Rollout em dias pros assinantes Google AI Plus, Pro e Ultra nos EUA.
O Google Research publicou o Simula, framework que trata geração de dados sintéticos como mechanism design no nível do dataset inteiro. A ideia: em vez de otimizar ponto a ponto, arquitetar a coleção toda a partir de taxonomias geradas por reasoning, controlando cobertura, complexidade e qualidade como eixos separados. Usado internamente em ShieldGemma, MedGemma e nos classificadores de segurança do Gemini.
O Google Research apresentou o MoGen, modelo que gera formas neuronais 3D sintéticas pra treinar o PATHFINDER, sistema que reconstrói neurônios a partir de imagens de microscopia. A adição de dados sintéticos derrubou a taxa de erro em 4,4%, o equivalente a 157 anos-pessoa de revisão manual economizados na escala de um cérebro completo de camundongo. Modelo liberado como open-source.
A OpenAI atualizou o app Codex pra macOS e Windows com um combo novo: computer use (o modelo controlando o computador), browser embutido, geração de imagem, memória e plugins. O pitch é clássico: acelerar workflow de dev sem trocar de janela o tempo todo.
A OpenAI apresentou o GPT-Rosalind, modelo de raciocínio de fronteira feito pra acelerar descoberta de drogas, análise genômica, raciocínio sobre proteínas e workflows de pesquisa científica. É a primeira vez que a casa empacota um modelo específico pro domínio de life sciences, mirando laboratórios farmacêuticos e times de bioinformática.
A OpenAI anunciou o Trusted Access for Cyber, programa que junta empresas de segurança e grandes corporações pra usar o GPT-5.4-Cyber (modelo especializado em cyber defense) mais US$ 10 milhões em créditos de API. A ideia é acelerar defesa cibernética global com acesso antecipado a modelo dedicado pra time de security.
Pesquisadores da Apple (com Virginia Tech e University of Washington) publicaram o MixAtlas, framework pra otimizar mistura de dados em treinamento multimodal de LLMs. Usa modelos proxy menores e processo gaussiano pra explorar o espaço de mistura a 1/100 do custo do treino full-scale. Resultado: convergência até 3x mais rápida e ganhos de 2-5% em benchmarks, com +10% em ChartQA e +13% em TextVQA. Aceito no workshop NADPFM do ICLR 2026.
Tom Aarsen publicou um guia prático mostrando como fazer finetuning de modelos multimodais de embedding no Sentence Transformers. O exemplo usa Qwen3-VL-Embedding-2B pra Visual Document Retrieval e chega a NDCG@10 de 0.947 contra 0.888 do modelo base, batendo até o Qwen3-VL-Embedding-8B (4x maior). Receita completa: dataset, loss, training args, evaluator e trainer.
Opus 4.7 chegou com foco em engenharia de software avançada e tarefas longas de agente. Ganhos fortes em coding (Cursor reportou 70% vs 58% do 4.6), visão em alta resolução (até 2.576px) e novo nível de esforço xhigh. Preço mantido: US$5/M input, US$25/M output. Disponível na API, Bedrock, Vertex AI e Microsoft Foundry.
Pesquisadores estenderam o framework RLVE de puzzles single-turn pra conversas multi-turn com ferramentas em e-commerce. O EcomRLVE-GYM traz 8 ambientes verificáveis (descoberta de produto, substituição, carrinho, devolução, tracking, QA de política, bundle e jornada multi-intent), cada um com geração procedural, currículo de dificuldade de 12 eixos e rewards checados por código. Treinaram Qwen 3 8B com DAPO em 300 steps.
A Hugging Face publicou uma Skill do Claude Code mais um test harness pra ajudar a portar modelos da biblioteca transformers pro mlx-lm quase na hora em que saem. O post é menos sobre a ferramenta e mais sobre um problema real: agentes de código viraram fábrica de PRs de baixa qualidade em projetos open source grandes, e os mantenedores tão afogados.
A AWS publicou benchmarks mostrando que speculative decoding no Trainium2 com vLLM acelera geração de token em até 3x pra workloads decode-heavy. O combo testado: Qwen3-32B como target, Qwen3-1.7B como draft, num_speculative_tokens=7. Resultado depende muito do tipo de prompt: estruturado ganha até 3x, prompt aberto praticamente empata com baseline.
Google soltou o Gemini 3.1 Flash TTS, novo modelo de text-to-speech com audio tags que deixam você controlar estilo vocal, ritmo e entonação via comandos em linguagem natural. Roda em 70+ idiomas, tem diálogo multi-speaker nativo, score Elo 1.211 no leaderboard da Artificial Analysis e marca d'água SynthID em todo áudio gerado. Já tá disponível no AI Studio, Vertex AI e Google Vids.
IBM Research soltou o VAKRA, benchmark executável com 8.000+ APIs locais em 62 domínios pra medir se agentes de IA dão conta de workflows multi-step de verdade. Spoiler: dão mal. O post abre os 4 tipos de tarefa, o pipeline de avaliação em cascata e análise detalhada de onde modelos como GPT-OSS-120B, Gemini-3-flash-preview e Claude-Sonnet-4-5 quebram.
OpenAI soltou uma nova versão do Agents SDK com dois reforços: execução em sandbox nativa e um harness model-native. A ideia é deixar dev construir agentes mais seguros e capazes de rodar tarefas longas, cruzando arquivos e ferramentas sem sair do trilho. É atualização incremental, mas mira direto no gargalo de quem tenta colocar agente em produção.
A HCompany soltou o HoloTab, extensão gratuita do Chrome que roda em cima do Holo3, o modelo de computer-use da casa lançado em 31 de março. Você descreve a tarefa e o agente navega, clica e preenche campos como se fosse um humano. Tem também o modo Routines: grava uma vez o que você faz, e depois o HoloTab repete sozinho ou em horário agendado.
O Google liberou o Skills no Chrome, feature que deixa salvar, reusar e remixar prompts do Gemini direto no navegador. Roda com / ou +, aplica na aba atual (e nas que você selecionar) e já vem com uma biblioteca pronta pra tarefas comuns. Disponível no Gemini in Chrome desktop a partir de hoje.
A NVIDIA apresentou o ALCHEMI Toolkit, conjunto de blocos GPU-native pra simulação atomística em química e ciência dos materiais. Roda PyTorch, integra com MACE, TensorNet e AIMNet2, e deixa montar workflows batched de dinâmica molecular e relaxação geométrica. Parceiros como Orbital, MatGL e Matlantis já tão adotando, com speedups de até 33x em sistemas pequenos batched.
A NVIDIA publicou um guia do NVbandwidth, ferramenta CUDA que mede banda e latência de transferência de memória em sistemas com GPU. Suporta testes unidirecionais, bidirecionais, multi-GPU e multi-node, com métodos via copy engine ou kernel SM. Funciona em topologias NVLINK, NVLink C2C e PCIe, e serve pra otimização, validação de hardware e troubleshooting em aplicações CUDA.
A NVIDIA jogou o Ising, primeira família aberta de modelos de IA pra processadores quânticos. Vem em dois domínios: Ising Calibration (VLM de 35B parâmetros pra calibrar QPU) e Ising Decoding (CNNs 3D pra correção de erro em tempo real). O modelo de calibração bate Gemini 3.1 Pro, Claude Opus 4.6 e GPT 5.4 no novo benchmark QCalEval. Pesos, datasets e framework de treino abertos no Hugging Face.
AWS liberou em GA (Generally Available) o Spring AI AgentCore SDK, biblioteca open source que conecta o Amazon Bedrock AgentCore ao Spring AI via anotações e auto-configuração. Dev Java anota um método com @AgentCoreInvocation e o SDK resolve o contrato de runtime, streaming SSE, health check e rate limiting. Roda no AgentCore Runtime gerenciado ou standalone em EKS/ECS.
O Google lançou em Washington D.C. o AI for the Economy Forum, evento co-hospedado com o MIT FutureTech pra discutir impacto de IA em empregos e economia. Anuncia novos investimentos em pesquisa (via AI & Economy Research Program) e três programas de treinamento com Johnson & Johnson Foundation, Jobs for the Future e Manufacturing Institute. Meta: preparar trabalhadores pra transição.
A OpenAI tá expandindo o programa Trusted Access for Cyber, que dá acesso controlado a modelos com capacidades ofensivas/defensivas pra times de segurança previamente validados. A novidade é o GPT-5.4-Cyber, versão especializada do modelo pra defensores, junto com reforço nos safeguards à medida que as capacidades de cibersegurança da IA avançam.
A Anthropic colocou Vas Narasimhan, CEO da Novartis, no conselho via Long-Term Benefit Trust. Com a nomeação, diretores indicados pelo Trust agora são maioria no board. Narasimhan é médico-cientista e supervisionou aprovação de mais de 35 medicamentos novos na carreira.