Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.
A AWS anunciou atribuição granular de custo pra inferência no Amazon Bedrock. Agora cada chamada é atrelada ao IAM principal que a fez (user, role, identidade federada), e os custos aparecem no AWS Billing, Cost Explorer e CUR 2.0 sem nada pra gerenciar. Com tags opcionais, dá pra agregar gasto por time, projeto ou tenant. Disponível em todas as regiões comerciais, sem custo adicional.
A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.
A AWS publicou um guia arquitetural pra busca semântica em vídeo usando Nova Multimodal Embeddings no Bedrock. A solução gera embeddings separados pra visual, áudio e transcrição, combina com metadados via busca híbrida e roteia queries por intenção usando Claude Haiku. No benchmark interno, Recall@5 saltou de 51% pra 90% contra o modo combinado padrão.
A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.
O time TAA (Technology, AI, and Analytics) da AWS Marketing trabalhou com a Gradial pra montar uma solução agentic em cima do Amazon Bedrock. Resultado: montagem de página caiu de até 4 horas pra ~10 minutos (redução de 95%). Validação de SEO, acessibilidade e brand passou a rodar durante a criação, via servidor MCP, em vez de depois.
A NVIDIA publicou um guia técnico pra engenheiros nucleares usarem o PhysicsNeMo (framework de AI Physics) no design de reatores modulares pequenos (SMRs) e de Geração IV. A ideia: treinar modelos surrogate baseados em Fourier Neural Operators que preveem o campo de fluxo de nêutrons e a seção de choque macroscópica diretamente da geometria da pin cell, pulando a simulação Monte Carlo cara. Resultado: R² de 0.97 contra 0.80 do baseline de regressão.
O Google juntou num único post as ferramentas que quer empurrar pra temporada de viagem: AI Mode com Canvas montando roteiro, rastreamento de preço de hotel individual, reserva de restaurante via agente, Ask Maps pra explorar destino e Google Wallet com ID digital em aeroporto. Maioria das features é US-only, algumas expandem pra UK, Canadá, Índia e Austrália.
A xAI anunciou duas APIs de áudio avulsas: Grok Speech to Text (STT) e Grok Text to Speech (TTS). Rodam no mesmo stack que sustenta o Grok Voice, os veículos Tesla e o atendimento ao cliente da Starlink. A jogada abre pra devs o motor de áudio que antes ficava trancado dentro dos produtos do ecossistema Musk.
A Anthropic anunciou o Claude Design, novo produto do Anthropic Labs que transforma conversa em design polido: protótipos interativos, wireframes, decks e landing pages. Roda no Claude Opus 4.7, exporta pra Canva, PDF, PPTX ou HTML, e faz handoff direto pro Claude Code. Disponível em research preview pros planos Pro, Max, Team e Enterprise.
A Apple desembarca no Rio de Janeiro pra edição 2026 do ICLR (International Conference on Learning Representations), de 23 a 27 de abril, com mais de 40 papers na conferência principal, workshops e duas demos técnicas no estande 204: inferência de LLM local num MacBook Pro M5 Max rodando MLX dentro do Xcode, e o SHARP gerando nuvem de pontos 3D num iPad Pro M5.