Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A NVIDIA integrou o Universal Sparse Tensor (UST) ao nvmath-python v0.9.0, com interop zero-copy pra PyTorch, SciPy, CuPy e NumPy. Dá pra converter entre formatos densos e esparsos (COO, CSR, CSC, BSR, DIA e customizados) sem mover dados, definir novos esquemas de sparsity via DSL e injetar direto em modelos PyTorch. Nos benchmarks de SpMV, bateu CuPy e PyTorch em até 444x.
A Anthropic publicou a página do time de Societal Impacts, grupo técnico que estuda como a IA é usada (e mal usada) no mundo real. Trabalha colado com os times de Policy e Safeguards, desenvolve experimentos, métodos de treino e avaliações. A página lista pesquisas recentes, incluindo o estudo com 81 mil users do Claude.ai e relatórios sobre impacto no trabalho de engenharia.
A Anthropic mantém uma página dedicada ao time de Interpretability, cuja missão é descobrir como LLMs funcionam por dentro. A ideia é virar base pra AI safety: entender circuitos, persona vectors, introspecção do modelo e como conceitos são representados. Lista também o portfólio de papers, de Toy Models of Superposition (2022) até publicações agendadas pra 2026.
A Anthropic tem um time dedicado de Economic Research que estuda como a IA tá remodelando trabalho, produtividade e oportunidade econômica. O carro-chefe é o Anthropic Economic Index, que rastreia uso real do Claude em todo setor da economia. Últimos relatórios mostram automação diretiva subindo de 27% pra 39% das conversas desde dezembro de 2024, com empresas automatizando bem mais que consumidores.
A Anthropic mantém uma página-hub do time de Alignment, que cuida de manter os modelos úteis, honestos e inofensivos mesmo quando a capacidade cresce. A página lista linhas de pesquisa (auditoria de objetivos ocultos, alignment faking, reward tampering, character training) e um histórico de publicações que vai de 2024 até 2026, incluindo Constitutional Classifiers e data poisoning em LLMs.
A AWS publicou um guia pra quem quer fugir do custo de ASR gerenciado: roda o NVIDIA Parakeet-TDT-0.6B-v3 em AWS Batch com GPU, dispara via S3 + EventBridge e usa Spot pra cortar até 90%. Pipeline event-driven escala do zero, cobre 25 idiomas europeus (português incluso) e sai por frações de centavo por hora de áudio.
A NVIDIA anunciou a RTX PRO 4500 Blackwell Server Edition, GPU de servidor com 32 GB GDDR7 e suporte a duas instâncias MIG, junto com o software vGPU 20. A combinação promete quase 1.9x mais aceleração em workloads gráficos vs L4 e abre espaço pra rodar desktop virtual, IA leve e simulação CUDA no mesmo hardware físico.
A NVIDIA integrou o Muon (MomentUm Orthogonalized by Newton-Schulz) e outros otimizadores de segunda ordem como MOP e REKLS no Megatron Core e no NeMo Megatron Bridge. Resultado: treino do Kimi K2 e Qwen3 30B em GB300 NVL72 com perda mínima de throughput contra o AdamW. A receita junta otimizador distribuído layer-wise e três modos de Newton-Schulz distribuído pra lidar com tensor parallelism.
A AWS lançou recomendações otimizadas de inferência generativa no Amazon SageMaker AI. Você traz o modelo, define tráfego esperado e escolhe um objetivo (custo, latência ou throughput). O SageMaker filtra configurações, aplica otimizações (speculative decoding, tensor parallelism) e faz benchmark em GPU real via NVIDIA AIPerf, devolvendo configs ranqueadas prontas pra deploy.
A AWS anunciou novos recursos no Amazon Bedrock AgentCore pra encurtar o caminho entre ideia e agente rodando. O destaque é o managed agent harness: você declara o agente em 3 chamadas de API, sem código de orquestração. Também entrou uma CLI que cobre prototipagem, deploy e operação no mesmo terminal, além de skills pré-construídas pra assistentes de código como Claude Code, Kiro, Codex e Cursor.
A Microsoft anunciou o Toolbox no Foundry em public preview: jeito de empacotar tools (APIs, MCP servers, connectors, skills) num bundle reusável, com autenticação centralizada e endpoint MCP único que qualquer agente consome. Funciona com Microsoft Agent Framework, LangGraph, GitHub Copilot, Claude Code e qualquer runtime que fale MCP. Foco inicial: parar de refazer fiação de tools em cada agente novo.
A Microsoft lançou a v1.0 do Agent Framework (SDK open-source que unifica Semantic Kernel e AutoGen em Python e .NET) junto com GA do Foundry Toolkit pro VS Code, memory gerenciada, Toolbox com MCP/OpenAPI/A2A num endpoint só, hosted agents com sandbox isolada e cold-start abaixo de 100ms, e Observability full GA no Foundry Control Plane. A pegada: cobrir o ciclo do laptop à produção sem você juntar peça de três fornecedores.
A Microsoft colocou em public preview os hosted agents no Foundry Agent Service: compute pensado pra agentes de produção, com sandbox isolado por sessão via hypervisor, filesystem que sobrevive a scale-to-zero, identidade por agente (Entra Agent ID) e suporte a qualquer framework (LangGraph, Claude Agent SDK, OpenAI Agents SDK). Deploy num comando: azd deploy.
Google lançou uma nova abordagem de edição no Auto frame do Google Photos: a foto 2D é interpretada como cena 3D, a câmera virtual é reposicionada e a IA generativa preenche o que ficou escondido. Roda em dois estágios (estimativa 3D + latent diffusion), corrige distorção de selfie grande-angular e entrega a versão reenquadrada como segunda opção dentro do Auto frame.
A Microsoft Research apresentou o AutoAdapt, framework end-to-end que automatiza a adaptação de LLMs pra domínios de alto risco como direito, medicina e resposta a incidentes em nuvem. Ele escolhe entre RAG e fine-tuning, planeja pipelines válidos e refina hiperparâmetros respeitando restrições de latência, hardware, privacidade e orçamento. Código liberado em open source.
A AWS publicou arquitetura de referência que combina Amazon Bedrock, Neptune e Mem0 pra dar memória persistente e específica da empresa a agentes de IA. A TrendMicro usou o stack pra construir o Trend's Companion, chatbot que cruza memória curta de conversa com knowledge graph organizacional. Inclui human-in-the-loop pra validar o que entra na base.
Asier Arranz (NVIDIA) publicou no Hugging Face um tutorial de VLA (Vision-Language-Action) rodando 100% local num Jetson Orin Nano Super de 8 GB. Stack: Parakeet STT → Gemma 4 → webcam (se precisar) → Kokoro TTS. O modelo decide sozinho quando olhar pela câmera pra responder, sem keyword trigger nem lógica hardcoded. Tudo em um script Python só.
O Google anunciou a oitava geração do TPU com dois chips dedicados: o TPU 8i, otimizado pra inferência de agentes de IA autônomos que executam workflows multi-etapas, e o TPU 8t, voltado pra treinar modelos complexos num único pool gigante de memória. A dupla vira o motor da stack full-stack do Google pra escalar IA agêntica.
A OpenAI publicou material sobre Workspace Agents, recurso pra times construírem, usarem e escalarem agentes dentro do ChatGPT. Objetivo: automatizar workflows repetitivos, conectar ferramentas e dar agilidade em operações de time. Direcionado pra contas corporativas que querem levar agente pra dentro do dia a dia sem montar infra própria.
A OpenAI publicou um mergulho técnico no loop de agente do Codex, mostrando como trocou HTTP por WebSockets e aplicou cache escopado por conexão pra cortar overhead de API e melhorar a latência do modelo. É o tipo de otimização que importa quando o agente faz centenas de chamadas por sessão.
A OpenAI anunciou os workspace agents no ChatGPT: agentes movidos a Codex que rodam na nuvem e automatizam fluxos complexos dentro do ambiente de trabalho. A proposta é deixar times escalarem tarefas entre ferramentas diferentes com controles de segurança, sem precisar montar pipeline próprio de automação.
A OpenAI liberou o Privacy Filter, modelo open-weight que detecta e mascara informação pessoal identificável (PII) em texto. A empresa afirma precisão state-of-the-art na tarefa. É uma peça pra quem precisa higienizar dados antes de mandar pra LLM, treinar modelo próprio ou logar prompts sem vazar dado sensível.
A Anthropic anunciou o Economic Index Survey, pesquisa mensal rodada via Anthropic Interviewer com amostra rotativa de usuários do Claude. Objetivo: captar dados qualitativos sobre como as pessoas estão vivendo a transição econômica da IA (tarefas delegadas, ganhos de produtividade, mudanças em contratação) antes que apareçam nos indicadores tradicionais de mercado de trabalho.
A Apple desembarca no ICLR 2026, que rola no Rio de Janeiro, com cinco trabalhos de destaque: paralelização de RNNs que destrava treino de 7B parâmetros, uso de ferramentas externas pra State Space Models generalizarem em tarefas longas, modelo multimodal unificado (Manzano), geração 3D a partir de uma foto em menos de 1 segundo (SHARP) e uma nova arquitetura simples pra protein folding (SimpleFold).
A Anthropic entrevistou 81 mil usuários do Claude pra entender como a IA tá mexendo com trabalho e renda. Quem atua em funções mais expostas à IA tem mais medo de perder emprego, e o receio é maior entre quem tá começando carreira. Os maiores ganhos de produtividade aparecem nos extremos: profissões bem pagas e mal pagas. Quem sente mais aceleração no trabalho também é quem mais teme substituição.