Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
O time do NVIDIA BioNeMo lançou um framework de context parallelism (CP) que faz sharding de uma única molécula gigante entre várias GPUs. Na prática, dá pra dobrar proteínas de 3.605 resíduos em 4 H100s, e até 20.000 tokens em 256 GPUs. Quebra o limite que forçava biólogos computacionais a fragmentar proteínas grandes pra caber numa GPU só.
A DeepSeek lançou a quarta geração da família, com DeepSeek-V4-Pro (1.6T parâmetros totais, 49B ativos) e DeepSeek-V4-Flash (284B totais, 13B ativos). Ambos suportam contexto de 1M tokens e prometem 73% menos FLOPs por token e 90% menos memória de KV cache que o V3.2. NVIDIA mostra +150 tokens/s/usuário no GB200 NVL72 e libera os modelos em endpoints acelerados no build.nvidia.com.
A NVIDIA integrou o Universal Sparse Tensor (UST) ao nvmath-python v0.9.0, com interop zero-copy pra PyTorch, SciPy, CuPy e NumPy. Dá pra converter entre formatos densos e esparsos (COO, CSR, CSC, BSR, DIA e customizados) sem mover dados, definir novos esquemas de sparsity via DSL e injetar direto em modelos PyTorch. Nos benchmarks de SpMV, bateu CuPy e PyTorch em até 444x.
A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.
A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.
A NVIDIA apresentou o ALCHEMI Toolkit, conjunto de blocos GPU-native pra simulação atomística em química e ciência dos materiais. Roda PyTorch, integra com MACE, TensorNet e AIMNet2, e deixa montar workflows batched de dinâmica molecular e relaxação geométrica. Parceiros como Orbital, MatGL e Matlantis já tão adotando, com speedups de até 33x em sistemas pequenos batched.
A NVIDIA jogou o Nemotron 3 Nano Omni, modelo aberto de 30B-A3B em arquitetura MoE (Mixture of Experts) que unifica raciocínio multimodal de vídeo, áudio, imagem e texto num único loop. Substitui as stacks fragmentadas de visão+fala+linguagem que agentes precisam hoje. Pesos, datasets e receitas abertos no Hugging Face, com suporte a vLLM, SGLang e TensorRT-LLM em GPUs Ampere, Hopper e Blackwell.
A NVIDIA lançou versão nova do FLARE, runtime de federated computing que leva a lógica de treino até o dado em vez do contrário. A proposta é matar o refactoring que trava projetos de federated learning depois do piloto: com ~5-6 linhas de código você transforma script local em cliente federado, e um job recipe em Python roda igual em simulação, PoC e produção.
A NVIDIA anunciou a RTX PRO 4500 Blackwell Server Edition, GPU de servidor com 32 GB GDDR7 e suporte a duas instâncias MIG, junto com o software vGPU 20. A combinação promete quase 1.9x mais aceleração em workloads gráficos vs L4 e abre espaço pra rodar desktop virtual, IA leve e simulação CUDA no mesmo hardware físico.
A NVIDIA integrou o Muon (MomentUm Orthogonalized by Newton-Schulz) e outros otimizadores de segunda ordem como MOP e REKLS no Megatron Core e no NeMo Megatron Bridge. Resultado: treino do Kimi K2 e Qwen3 30B em GB300 NVL72 com perda mínima de throughput contra o AdamW. A receita junta otimizador distribuído layer-wise e três modos de Newton-Schulz distribuído pra lidar com tensor parallelism.
A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).
O AI Red Team da NVIDIA demonstrou um ataque de supply chain onde uma dependência Go maliciosa reescreve o arquivo AGENTS.md dentro do container do OpenAI Codex. O agente obedece as instruções injetadas, insere um `time.Sleep(5 * time.Minute)` no `main` e esconde a alteração do reviewer no PR. OpenAI avaliou que não eleva risco além do que dependência comprometida já permite, mas o caso abre uma dimensão nova de risco em workflows agênticos.
A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.
A NVIDIA publicou um guia técnico pra engenheiros nucleares usarem o PhysicsNeMo (framework de AI Physics) no design de reatores modulares pequenos (SMRs) e de Geração IV. A ideia: treinar modelos surrogate baseados em Fourier Neural Operators que preveem o campo de fluxo de nêutrons e a seção de choque macroscópica diretamente da geometria da pin cell, pulando a simulação Monte Carlo cara. Resultado: R² de 0.97 contra 0.80 do baseline de regressão.
A NVIDIA publicou um guia do NVbandwidth, ferramenta CUDA que mede banda e latência de transferência de memória em sistemas com GPU. Suporta testes unidirecionais, bidirecionais, multi-GPU e multi-node, com métodos via copy engine ou kernel SM. Funciona em topologias NVLINK, NVLink C2C e PCIe, e serve pra otimização, validação de hardware e troubleshooting em aplicações CUDA.
A NVIDIA jogou o Ising, primeira família aberta de modelos de IA pra processadores quânticos. Vem em dois domínios: Ising Calibration (VLM de 35B parâmetros pra calibrar QPU) e Ising Decoding (CNNs 3D pra correção de erro em tempo real). O modelo de calibração bate Gemini 3.1 Pro, Claude Opus 4.6 e GPT 5.4 no novo benchmark QCalEval. Pesos, datasets e framework de treino abertos no Hugging Face.