FERRAMENTAS
NVIDIA👀 de olho
A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).
nota do editorFP8 em RL é terreno minado por causa do desalinhamento entre engines (vLLM vs Megatron). A receita da NVIDIA resolve na marra com importance sampling e recalibração dinâmica de escala QKV. Quem treina modelo de raciocínio open source deve testar antes de assumir que BF16 é o único caminho seguro.
FERRAMENTAS
NVIDIA👀 de olho
A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.
nota do editorDynamo tá atacando problema concreto: quem roda open-source em GPU própria não tem nenhuma otimização de KV cache que API gerenciada entrega por padrão. 4x em p50 TTFT do NAT é resultado que justifica benchmark sério pra quem opera inferência agêntica em escala.
FERRAMENTAS
NVIDIA👀 de olho
A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.
nota do editorReceita pronta da NVIDIA pra rodar agente autônomo on-prem é útil pra quem já tem DGX Spark ou GPU equivalente. Pra BR, pega bem em banco, saúde e jurídico onde dado não pode sair do perímetro. Mas 30-90s de latência por resposta no 120B limita uso interativo.
FERRAMENTAS
NVIDIA
A NVIDIA publicou um guia técnico pra engenheiros nucleares usarem o PhysicsNeMo (framework de AI Physics) no design de reatores modulares pequenos (SMRs) e de Geração IV. A ideia: treinar modelos surrogate baseados em Fourier Neural Operators que preveem o campo de fluxo de nêutrons e a seção de choque macroscópica diretamente da geometria da pin cell, pulando a simulação Monte Carlo cara. Resultado: R² de 0.97 contra 0.80 do baseline de regressão.
nota do editorCaso de uso bem nichado (engenharia nuclear), mas a lição técnica é geral: surrogate que prevê campo espacial inteiro bate regressão escalar em generalização. Vale guardar o padrão pra quem treina modelo físico em qualquer domínio CAE.
FERRAMENTAS
NVIDIA
A NVIDIA apresentou o ALCHEMI Toolkit, conjunto de blocos GPU-native pra simulação atomística em química e ciência dos materiais. Roda PyTorch, integra com MACE, TensorNet e AIMNet2, e deixa montar workflows batched de dinâmica molecular e relaxação geométrica. Parceiros como Orbital, MatGL e Matlantis já tão adotando, com speedups de até 33x em sistemas pequenos batched.
FERRAMENTAS
NVIDIA
A NVIDIA publicou um guia do NVbandwidth, ferramenta CUDA que mede banda e latência de transferência de memória em sistemas com GPU. Suporta testes unidirecionais, bidirecionais, multi-GPU e multi-node, com métodos via copy engine ou kernel SM. Funciona em topologias NVLINK, NVLink C2C e PCIe, e serve pra otimização, validação de hardware e troubleshooting em aplicações CUDA.