A NVIDIA soltou o Nemotron 3 Nano Omni, modelo aberto que junta texto, imagem, vídeo e áudio nativos no mesmo backbone híbrido Mamba-Transformer-MoE. Roda análise de PDFs com 100+ páginas, transcrição de áudio longo, vídeo com narração e uso agêntico de GUI. Entrega até 9x mais throughput que alternativas em casos multimodais. Checkpoints BF16, FP8 e NVFP4 já no Hugging Face.
Modelo aberto sério pra agente de GUI e document AI: salto de 11 pra 47 em OSWorld vs o V2 VL é o número que mais importa aqui. Pra quem roda inferência própria em H100/B200, virou candidato natural pra substituir Qwen3-Omni em pipeline multimodal.
A NVIDIA lançou o Nemotron 3 Nano Omni, novo modelo omni-modal aberto pra análise de documento real, raciocínio sobre múltiplas imagens, ASR (Automatic Speech Recognition, reconhecimento de fala), entendimento de áudio e vídeo longos, uso agêntico de computador e raciocínio geral.
É a evolução da linha Nemotron multimodal: sai de um VLM (Vision-Language Model) forte e vira um modelo texto + imagem + vídeo + áudio. Roda em backbone Nemotron 3 Nano 30B-A3B (híbrido Mamba-Transformer-MoE), com encoder visual C-RADIOv4-H e encoder de áudio Parakeet-TDT-0.6B-v2.
O modelo lidera benchmarks pesados de document intelligence (MMLongBench-Doc, OCRBenchV2) e bate concorrentes em vídeo e áudio (WorldSense, DailyOmni, VoiceBench). Comparado ao Qwen3-Omni 30B-A3B, principal rival open-weights:
No lado de eficiência, a NVIDIA cita 9.2x mais throughput de sistema em casos de vídeo e 7.4x em multi-documento comparado a outros omni models abertos com mesma interatividade. Também 9x mais throughput geral e 2.9x velocidade de raciocínio single-stream em casos multimodais.
A NVIDIA tá basicamente atacando o Qwen3-Omni de frente: mesmo tamanho de parâmetros ativos, posicionamento omni, mas com foco bem mais agressivo em document understanding e GUI agente. Quem roda agente de uso de computador open-source presta atenção: o salto de 11.0 pra 47.4 em OSWorld vs o V2 VL é absurdo.
A NVIDIA mira cinco classes de workload:
Análise de documento real: não é só OCR. É contrato, paper técnico, relatório, manual, formulário com várias páginas, pacote de compliance. Aguenta documento de 100+ páginas com layout, tabela, fórmula, referência cruzada.
ASR (transcrição de fala): áudio longo, vários speakers, sotaques, ruído de fundo. Dá pra plugar em workflow de sumarização, Q&A e raciocínio cross-modal.
Entendimento de áudio-vídeo longo: gravação de tela com narração, vídeo de treinamento, reunião com slide, tutorial, demo de produto, captura de suporte. Razona sobre os dois inputs juntos.
Uso agêntico de computador: interpreta screenshot, monitora estado da GUI, conecta o raciocínio ao que tá na tela, ajuda em seleção de ação ou automação de workflow.
Raciocínio multimodal geral: tarefas que exigem juntar informação de janela de contexto longa, várias modalidades e evidência estruturada. Cálculo, planejamento multi-passo, conexão entre texto, imagem e tabela.
Design unificado encoder-projector-decoder. O backbone intercala:
Resolução dinâmica pra documento denso: cada imagem usa de 1.024 a 13.312 patches de 16x16 (de 512x512 a 1840x1840 em quadradas). Acabou a estratégia de tiling do V2. Crítico pra OCR pesado, tabela financeira, slide e screenshot de GUI.
Conv3D tubelet pra vídeo: par de frames consecutivos vira um "tubelet" antes do ViT, cortando metade dos tokens visuais que o LLM precisa atender. Dá pra dobrar frames com mesmo budget ou cortar tokens pela metade.
EVS (Efficient Video Sampling): em inferência, descarta tokens redundantes depois do encoder de visão. Mantém o primeiro frame inteiro, depois preserva só os tokens "dinâmicos" (onde mudou) e descarta os "estáticos".
Áudio nativo, não transcrição: Parakeet-TDT-0.6B-v2 conectado via projector MLP de 2 camadas. Áudio em 16 kHz, treinado com input de até 1.200 segundos (20 min), e contexto máximo do LLM aguenta 5+ horas. Áudio, visão e texto são interleaved e processados juntos no backbone.
SFT (Supervised Fine-Tuning) em H100, escalando de 32 a 128 nós conforme o stage. Stack com Megatron-LM, Transformer Engine e Megatron Energon, com tensor/expert/sequence/context parallelism.
RL pós-SFT com NeMo-RL e NeMo Gym em backend Megatron, distribuído via Ray em clusters B200 e H100. Tem deduplicação multimodal pra rollout repetido não estourar memória de imagem, vídeo e áudio.
Destaque do data pipeline: a NVIDIA gerou ~11.4M pares de QA sintéticos (~45B tokens) a partir de PDFs reais usando o NeMo Data Designer. Isso entregou 2.19x de melhoria em MMLongBench-Doc. A receita do pipeline tá aberta com nove recipes runnable pra quem quiser construir dataset próprio de document understanding.
Esse é um dos pontos mais úteis pra quem trabalha com PDF de cliente em PT-BR: o pipeline de geração sintética tá publicado, então dá pra adaptar pra documento brasileiro (contrato, parecer jurídico, relatório regulatório) sem reinventar a roda.
Checkpoints no Hugging Face em três precisões:
Relatório técnico completo, dataset de treino, código no Megatron-Bridge e NeMo-RL.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0