MODELOS · HUGGING FACE · 28 ABR 2026

NVIDIA lança Nemotron 3 Nano Omni: modelo multimodal de contexto longo pra documentos, áudio e vídeo

A NVIDIA soltou o Nemotron 3 Nano Omni, modelo aberto que junta texto, imagem, vídeo e áudio nativos no mesmo backbone híbrido Mamba-Transformer-MoE. Roda análise de PDFs com 100+ páginas, transcrição de áudio longo, vídeo com narração e uso agêntico de GUI. Entrega até 9x mais throughput que alternativas em casos multimodais. Checkpoints BF16, FP8 e NVFP4 já no Hugging Face.

Mateus Veloso4 min de leiturade olho#llm#multimodal#vision

NVIDIA lança Nemotron 3 Nano Omni: modelo multimodal de contexto longo pra documentos, áudio e vídeo foi anunciado em 28 de abril às 15:58, horário de Brasília. fonte original →

por que importa

Modelo aberto sério pra agente de GUI e document AI: salto de 11 pra 47 em OSWorld vs o V2 VL é o número que mais importa aqui. Pra quem roda inferência própria em H100/B200, virou candidato natural pra substituir Qwen3-Omni em pipeline multimodal.

A NVIDIA lançou o Nemotron 3 Nano Omni, novo modelo omni-modal aberto pra análise de documento real, raciocínio sobre múltiplas imagens, ASR (Automatic Speech Recognition, reconhecimento de fala), entendimento de áudio e vídeo longos, uso agêntico de computador e raciocínio geral.

É a evolução da linha Nemotron multimodal: sai de um VLM (Vision-Language Model) forte e vira um modelo texto + imagem + vídeo + áudio. Roda em backbone Nemotron 3 Nano 30B-A3B (híbrido Mamba-Transformer-MoE), com encoder visual C-RADIOv4-H e encoder de áudio Parakeet-TDT-0.6B-v2.

Números que importam

O modelo lidera benchmarks pesados de document intelligence (MMLongBench-Doc, OCRBenchV2) e bate concorrentes em vídeo e áudio (WorldSense, DailyOmni, VoiceBench). Comparado ao Qwen3-Omni 30B-A3B, principal rival open-weights:

OCRBenchV2-En: 65.8 (vs 61.2 do Nemotron Nano V2 VL)
MMLongBench-Doc: 57.5 (vs 49.5 do Qwen3-Omni)
OSWorld (uso agêntico): 47.4 (vs 29.0 do Qwen3-Omni)
Video-MME: 72.2 (vs 70.5)
VoiceBench: 89.4 (vs 88.8)
HF Open ASR (menor é melhor): 5.95 (vs 6.55)

No lado de eficiência, a NVIDIA cita 9.2x mais throughput de sistema em casos de vídeo e 7.4x em multi-documento comparado a outros omni models abertos com mesma interatividade. Também 9x mais throughput geral e 2.9x velocidade de raciocínio single-stream em casos multimodais.

A NVIDIA tá basicamente atacando o Qwen3-Omni de frente: mesmo tamanho de parâmetros ativos, posicionamento omni, mas com foco bem mais agressivo em document understanding e GUI agente. Quem roda agente de uso de computador open-source presta atenção: o salto de 11.0 pra 47.4 em OSWorld vs o V2 VL é absurdo.

Pra que foi desenhado

A NVIDIA mira cinco classes de workload:

Análise de documento real: não é só OCR. É contrato, paper técnico, relatório, manual, formulário com várias páginas, pacote de compliance. Aguenta documento de 100+ páginas com layout, tabela, fórmula, referência cruzada.
ASR (transcrição de fala): áudio longo, vários speakers, sotaques, ruído de fundo. Dá pra plugar em workflow de sumarização, Q&A e raciocínio cross-modal.
Entendimento de áudio-vídeo longo: gravação de tela com narração, vídeo de treinamento, reunião com slide, tutorial, demo de produto, captura de suporte. Razona sobre os dois inputs juntos.
Uso agêntico de computador: interpreta screenshot, monitora estado da GUI, conecta o raciocínio ao que tá na tela, ajuda em seleção de ação ou automação de workflow.
Raciocínio multimodal geral: tarefas que exigem juntar informação de janela de contexto longa, várias modalidades e evidência estruturada. Cálculo, planejamento multi-passo, conexão entre texto, imagem e tabela.

Arquitetura: o que tem de diferente

Design unificado encoder-projector-decoder. O backbone intercala:

23 camadas Mamba (state-space seletivo) pra contexto longo eficiente
23 camadas MoE com 128 experts, top-6 routing e um shared expert
6 camadas de grouped-query attention pra preservar interação global

Resolução dinâmica pra documento denso: cada imagem usa de 1.024 a 13.312 patches de 16x16 (de 512x512 a 1840x1840 em quadradas). Acabou a estratégia de tiling do V2. Crítico pra OCR pesado, tabela financeira, slide e screenshot de GUI.

Conv3D tubelet pra vídeo: par de frames consecutivos vira um "tubelet" antes do ViT, cortando metade dos tokens visuais que o LLM precisa atender. Dá pra dobrar frames com mesmo budget ou cortar tokens pela metade.

EVS (Efficient Video Sampling): em inferência, descarta tokens redundantes depois do encoder de visão. Mantém o primeiro frame inteiro, depois preserva só os tokens "dinâmicos" (onde mudou) e descarta os "estáticos".

Áudio nativo, não transcrição: Parakeet-TDT-0.6B-v2 conectado via projector MLP de 2 camadas. Áudio em 16 kHz, treinado com input de até 1.200 segundos (20 min), e contexto máximo do LLM aguenta 5+ horas. Áudio, visão e texto são interleaved e processados juntos no backbone.

Treinamento e infra

SFT (Supervised Fine-Tuning) em H100, escalando de 32 a 128 nós conforme o stage. Stack com Megatron-LM, Transformer Engine e Megatron Energon, com tensor/expert/sequence/context parallelism.

RL pós-SFT com NeMo-RL e NeMo Gym em backend Megatron, distribuído via Ray em clusters B200 e H100. Tem deduplicação multimodal pra rollout repetido não estourar memória de imagem, vídeo e áudio.

Destaque do data pipeline: a NVIDIA gerou ~11.4M pares de QA sintéticos (~45B tokens) a partir de PDFs reais usando o NeMo Data Designer. Isso entregou 2.19x de melhoria em MMLongBench-Doc. A receita do pipeline tá aberta com nove recipes runnable pra quem quiser construir dataset próprio de document understanding.

Esse é um dos pontos mais úteis pra quem trabalha com PDF de cliente em PT-BR: o pipeline de geração sintética tá publicado, então dá pra adaptar pra documento brasileiro (contrato, parecer jurídico, relatório regulatório) sem reinventar a roda.

Como pegar

Checkpoints no Hugging Face em três precisões:

Relatório técnico completo, dataset de treino, código no Megatron-Bridge e NeMo-RL.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.