A NVIDIA jogou o Nemotron 3 Nano Omni, modelo aberto de 30B-A3B em arquitetura MoE (Mixture of Experts) que unifica raciocínio multimodal de vídeo, áudio, imagem e texto num único loop. Substitui as stacks fragmentadas de visão+fala+linguagem que agentes precisam hoje. Pesos, datasets e receitas abertos no Hugging Face, com suporte a vLLM, SGLang e TensorRT-LLM em GPUs Ampere, Hopper e Blackwell.
Movimento clássico da NVIDIA: solta modelo aberto competitivo e empurra a stack inteira (NIM, Dynamo, TensorRT-LLM, NeMo) junto. Pra time que já roda Nemotron Nano VL ou Super, upgrade óbvio. Pra quem tá em GPT-4o multimodal via API, vale rodar o benchmark próprio antes de comprar a narrativa.
A NVIDIA anunciou o Nemotron 3 Nano Omni, novo modelo da família Nemotron 3 que ataca um problema feio dos sistemas agênticos: hoje, agente que precisa raciocinar em telas, documentos, áudio e vídeo depende de cadeias fragmentadas de modelos. Stack separada pra visão, outra pra áudio, outra pra texto. Isso aumenta hops de inferência, complica orquestração, encarece e ainda quebra consistência de contexto entre modalidades.
O Nano Omni é um MoE (Mixture of Experts) híbrido de 30B com 3B ativos, projetado pra rodar como sub-agente de percepção e contexto dentro de sistemas agênticos maiores. Ativa só o expert necessário pra cada tarefa e modalidade.
Nos benchmarks de inteligência de documentos (MMlongbench-Doc, OCRBenchV2), a NVIDIA reivindica accuracy best-in-class. Também lidera em compreensão de vídeo e áudio nos benchmarks WorldSense, DailyOmni e VoiceBench.
No MediaPerf (benchmark aberto que avalia modelos de compreensão de vídeo em dados reais e tarefas de produção), o Nano Omni chega ao maior throughput em todas as tarefas e ao menor custo de inferência pra tagging de vídeo.
Pros números de capacidade efetiva, com threshold fixo de interatividade por usuário (tokens/seg/user constante):
Em GPUs Blackwell com quantização NVFP4, é o de maior throughput entre modelos omnimodais abertos pra cargas enterprise envolvendo documentos complexos, raciocínio long-horizon e batches grandes de vídeo.
Esses números são típicos de release NVIDIA: comparativo é sempre contra "outros modelos omni abertos", não contra GPT-4o ou Gemini multimodal proprietário. Se você compara com fechados, o cenário muda. Mas pra quem precisa de open weights rodando em infra própria, é referência.
Núcleo MoE híbrido: combina camadas Mamba (eficiência de sequência e memória) com camadas transformer (raciocínio preciso). NVIDIA reivindica até 4x de melhoria em eficiência de memória e compute.
Processamento visual espaço-temporal: convoluções 3D capturam movimento entre frames. A camada de Efficient Video Sampling (EVS) comprime tokens visuais densos de múltiplos frames num conjunto que o LLM consegue processar sem estourar o context window.
Texto como decoder central: o modelo usa um modelo de texto forte como decoder central e treina a ponte cross-modality em volta. Isso reduz instabilidade de treinamento multimodal e custo.
Áudio: integração baseada no encoder NVIDIA Parakeet, com datasets especializados (Granary, Music Flamingo) que vão além de transcrição simples.
Visual: encoder C-RADIOv4-H pra alta resolução, balanceando detalhe com computação eficiente. Foca em patches específicos pra preservar precisão de OCR.
Pipeline em estágios usando NVIDIA Megatron-LM, com expansão progressiva de modalidades e context length escalando 16K → 49K → 262K.
Depois do SFT (Supervised Fine-Tuning), reinforcement learning multi-ambiente em 25 configurações de environment, usando NeMo Gym e NeMo RL, com mais de 2.3M rollouts.
Escala de dados:
A NVIDIA também liberou pipelines de SDG (Synthetic Data Generation) feitos com NeMo Data Designer, gerando ~11.4M pares de pergunta-resposta visuais sintéticos (~45B tokens) que entraram no blend final de treino.
Pesos completos no Hugging Face. Licença NVIDIA Nemotron Open Model permite deploy em qualquer lugar com controle de dados.
Receitas completas de pré-treino, post-treino e avaliação disponíveis. Cookbooks prontos pra:
Dataset de imagens liberado em huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3.
Disponível agora em:
Pra quem opera agente multimodal em GPU própria, esse é o tipo de modelo que vale o benchmark sério. A promessa de trocar 3 stacks (visão, áudio, texto) por um modelo só de 30B-A3B com 3B ativos por inferência muda a economia de orquestração de agente.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0