MODELOS · NVIDIA · 28 ABR 2026

NVIDIA lança Nemotron 3 Nano Omni: modelo aberto unifica vídeo, áudio, imagem e texto em uma só MoE

A NVIDIA jogou o Nemotron 3 Nano Omni, modelo aberto de 30B-A3B em arquitetura MoE (Mixture of Experts) que unifica raciocínio multimodal de vídeo, áudio, imagem e texto num único loop. Substitui as stacks fragmentadas de visão+fala+linguagem que agentes precisam hoje. Pesos, datasets e receitas abertos no Hugging Face, com suporte a vLLM, SGLang e TensorRT-LLM em GPUs Ampere, Hopper e Blackwell.

Mateus Veloso4 min de leiturade olho#llm#multimodal#agents

NVIDIA lança Nemotron 3 Nano Omni: modelo aberto unifica vídeo, áudio, imagem e texto em uma só MoE foi anunciado em 28 de abril às 16:01, horário de Brasília. fonte original →

por que importa

Movimento clássico da NVIDIA: solta modelo aberto competitivo e empurra a stack inteira (NIM, Dynamo, TensorRT-LLM, NeMo) junto. Pra time que já roda Nemotron Nano VL ou Super, upgrade óbvio. Pra quem tá em GPT-4o multimodal via API, vale rodar o benchmark próprio antes de comprar a narrativa.

A NVIDIA anunciou o Nemotron 3 Nano Omni, novo modelo da família Nemotron 3 que ataca um problema feio dos sistemas agênticos: hoje, agente que precisa raciocinar em telas, documentos, áudio e vídeo depende de cadeias fragmentadas de modelos. Stack separada pra visão, outra pra áudio, outra pra texto. Isso aumenta hops de inferência, complica orquestração, encarece e ainda quebra consistência de contexto entre modalidades.

O Nano Omni é um MoE (Mixture of Experts) híbrido de 30B com 3B ativos, projetado pra rodar como sub-agente de percepção e contexto dentro de sistemas agênticos maiores. Ativa só o expert necessário pra cada tarefa e modalidade.

O que ele entrega

Nos benchmarks de inteligência de documentos (MMlongbench-Doc, OCRBenchV2), a NVIDIA reivindica accuracy best-in-class. Também lidera em compreensão de vídeo e áudio nos benchmarks WorldSense, DailyOmni e VoiceBench.

No MediaPerf (benchmark aberto que avalia modelos de compreensão de vídeo em dados reais e tarefas de produção), o Nano Omni chega ao maior throughput em todas as tarefas e ao menor custo de inferência pra tagging de vídeo.

Pros números de capacidade efetiva, com threshold fixo de interatividade por usuário (tokens/seg/user constante):

Raciocínio de vídeo: até ~9.2x mais capacidade efetiva de sistema vs outros modelos omni abertos.
Raciocínio multi-documento: até ~7.4x mais capacidade efetiva.

Em GPUs Blackwell com quantização NVFP4, é o de maior throughput entre modelos omnimodais abertos pra cargas enterprise envolvendo documentos complexos, raciocínio long-horizon e batches grandes de vídeo.

Esses números são típicos de release NVIDIA: comparativo é sempre contra "outros modelos omni abertos", não contra GPT-4o ou Gemini multimodal proprietário. Se você compara com fechados, o cenário muda. Mas pra quem precisa de open weights rodando em infra própria, é referência.

Por baixo do capô

Núcleo MoE híbrido: combina camadas Mamba (eficiência de sequência e memória) com camadas transformer (raciocínio preciso). NVIDIA reivindica até 4x de melhoria em eficiência de memória e compute.

Processamento visual espaço-temporal: convoluções 3D capturam movimento entre frames. A camada de Efficient Video Sampling (EVS) comprime tokens visuais densos de múltiplos frames num conjunto que o LLM consegue processar sem estourar o context window.

Texto como decoder central: o modelo usa um modelo de texto forte como decoder central e treina a ponte cross-modality em volta. Isso reduz instabilidade de treinamento multimodal e custo.

Áudio: integração baseada no encoder NVIDIA Parakeet, com datasets especializados (Granary, Music Flamingo) que vão além de transcrição simples.

Visual: encoder C-RADIOv4-H pra alta resolução, balanceando detalhe com computação eficiente. Foca em patches específicos pra preservar precisão de OCR.

Treinamento

Pipeline em estágios usando NVIDIA Megatron-LM, com expansão progressiva de modalidades e context length escalando 16K → 49K → 262K.

Depois do SFT (Supervised Fine-Tuning), reinforcement learning multi-ambiente em 25 configurações de environment, usando NeMo Gym e NeMo RL, com mais de 2.3M rollouts.

Escala de dados:

~127B tokens em treino de adapter e encoder, cobrindo combinações texto+imagem, texto+vídeo, texto+áudio e texto+vídeo+áudio.
~124M exemplos curados de post-training em combinações multimodais.
20 datasets de RL em 25 environments cobrindo 5 novas tarefas multimodais: visual grounding, compreensão de gráficos e documentos, problemas STEM com componente visual, compreensão de vídeo e ASR (reconhecimento automático de fala).

A NVIDIA também liberou pipelines de SDG (Synthetic Data Generation) feitos com NeMo Data Designer, gerando ~11.4M pares de pergunta-resposta visuais sintéticos (~45B tokens) que entraram no blend final de treino.

Aberto de verdade

Pesos completos no Hugging Face. Licença NVIDIA Nemotron Open Model permite deploy em qualquer lugar com controle de dados.

Receitas completas de pré-treino, post-treino e avaliação disponíveis. Cookbooks prontos pra:

vLLM: continuous batching e streaming de alto throughput.
SGLang: inferência leve otimizada pra workloads multi-agente com tool-calling.
TensorRT-LLM: engines com kernels MoE latentes pra deploy de baixa latência.
NVIDIA Dynamo: disaggregated serving, roteamento inteligente, KV caching multi-tier e auto-scaling.

Dataset de imagens liberado em huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3.

Disponibilidade

Disponível agora em:

Hugging Face e OpenRouter
Runtimes locais: Ollama, llama.cpp, LM Studio (checkpoints GGUF)
Provedores cloud: AWS, Oracle Cloud Infrastructure (Microsoft Foundry em breve)
Inference providers: Baseten, Fireworks AI, DeepInfra, fal.AI, FriendliAI, Unsloth, entre outros
NVIDIA Cloud Partners: Crusoe, DigitalOcean, Lightning AI, Nebius, Together AI, Vultr
Dell Technologies pra deploy on-prem e híbrido
NVIDIA NIM pra inferência otimizada via build.nvidia.com

Pra quem opera agente multimodal em GPU própria, esse é o tipo de modelo que vale o benchmark sério. A promessa de trocar 3 stacks (visão, áudio, texto) por um modelo só de 30B-A3B com 3B ativos por inferência muda a economia de orquestração de agente.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.