PRODUTO · AWS · 28 ABR 2026

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com vídeo, áudio, imagem e texto em um modelo só

A AWS liberou o NVIDIA Nemotron 3 Nano Omni no SageMaker JumpStart em day zero. É um modelo multimodal aberto de 30B parâmetros totais e 3B ativos (MoE) que processa vídeo, áudio, imagem e texto em uma única passagem de inferência. Suporta contexto de 131K, chain of thought, tool calling e roda em FP8. Mira agentes que precisam de percepção unificada sem ter que costurar 3 ou 4 modelos.

Mateus Veloso5 min de leiturade olho#multimodal#vision#voice

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com vídeo, áudio, imagem e texto em um modelo só foi anunciado em 28 de abril às 16:40, horário de Brasília. fonte original →

por que importa

Modelo aberto, FP8, MoE 30B/3B ativo e omni de verdade no JumpStart day zero é movimento forte. Pra time BR rodando agente em SageMaker, vale testar contra a stack costurada atual: se cortar 2 hops de inferência, paga o switch sozinho.

A AWS anunciou a disponibilidade day zero do NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart. É um LLM multimodal aberto da NVIDIA que junta entendimento de vídeo, áudio, imagem e texto numa arquitetura só, com saída em texto.

Arquitetura

O Nemotron 3 Nano Omni tem 30 bilhões de parâmetros totais e 3 bilhões ativos (30B A3B), construído sobre uma arquitetura híbrida Mamba2 Transformer com MoE (Mixture of Experts). São três componentes principais:

Nemotron 3 Nano LLM como backbone de linguagem
CRADIO v4-H como encoder de visão (imagem e vídeo)
Parakeet como encoder de áudio (transcrição e compreensão)

Suporta contexto de 131K tokens, chain of thought, tool calling, saída em JSON e timestamps por palavra em transcrição. Vem em precisão FP8 no JumpStart e tá licenciado sob o NVIDIA Open Model Agreement pra uso comercial.

Por que um omni só importa pra agentes

Workflow agêntico é multimodal por natureza: agente precisa interpretar telas, documentos, áudio, vídeo e texto, muitas vezes no mesmo loop de raciocínio. Hoje a maioria dos sistemas costura modelos separados pra visão, fala e linguagem. Isso aumenta latência (várias passagens de inferência), complica orquestração e tratamento de erro, fragmenta contexto entre modalidades e empilha custo e modos de falha.

O Nano Omni vira o sub-agente de percepção e contexto: lê tela, interpreta documento, transcreve fala e analisa vídeo mantendo contexto multimodal convergido entre loops de raciocínio.

Pra quem tá montando arquitetura agêntica, isso colapsa hops de inferência, lógica de orquestração e overhead de sincronização entre modelos numa chamada só. É exatamente o tipo de simplificação que faz diferença em produção, onde cada hop extra é mais p99 ruim e mais ponto de falha.

Entradas suportadas

Tipo	Formatos	Limites
Vídeo	mp4	Até 2 minutos, até 256 frames
Áudio	wav, mp3	Até 1 hora, sampling 8kHz+
Imagem	JPEG, PNG (RGB)	Resolução padrão
Texto	String	Até 131K de contexto

Casos de uso enterprise

Agentes de computer use

Nano Omni roda o loop de percepção pra agentes navegando GUIs. Lê tela, entende estado da UI no tempo e valida resultado, enquanto agentes de execução cuidam das ações. Aplicações práticas: dashboard de incident management, busca agêntica, automação de browser e agentes de workflow de email.

Document intelligence

O modelo interpreta documentos, gráficos, tabelas, screenshots e entrada mista. Crítico pra análise enterprise e workflow de compliance envolvendo contratos, SOWs (Statement of Work), documentos financeiros e literatura científica.

Agentes de áudio e vídeo

Pra customer service, pesquisa e monitoramento, Nano Omni mantém contexto contínuo de áudio e vídeo. Casa o que foi dito, mostrado e documentado num fluxo de raciocínio único, em vez de resumos desconectados. Aplicações: análise de gravação de reunião, gestão de assets em mídia e entretenimento, conferência de pedido em drive-thru e revisão de vídeo de atendimento (por exemplo, verificar entrega de pacote num endereço via OCR).

Como subir no JumpStart

Pré-requisitos: conta AWS, permissões pro JumpStart e quota suficiente de GPU (por exemplo, ml.p4d.24xlarge ou ml.p5.48xlarge).

No SageMaker Studio, abre o JumpStart no menu lateral, busca por Nemotron 3 Nano Omni, escolhe o card, configura instância e clica em Deploy.

Via SDK Python:

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(
    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
    role="<your_sagemaker_execution_role>",
)

predictor = model.deploy(accept_eula=True)

Inferência: entendimento de imagem

import base64

def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

image_b64 = encode_image("example.jpg")

payload = {
    "messages": [{
        "role": "user",
        "content": [
            {"type": "text", "text": "Describe this image in detail."},
            {"type": "image_url",
             "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
        ],
    }],
    "max_tokens": 1024,
    "temperature": 0.2,
}

response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Inferência: vídeo com reasoning

Mesmo padrão, trocando image_url por video_url (data URI data:video/mp4;base64,...) e usando temperature=0.6, top_p=0.95, max_tokens=20480.

Inferência: transcrição de áudio

Mesmo padrão com audio_url (data:audio/wav;base64,...), temperature=0.2, max_tokens=1024.

Parâmetros recomendados

Modo	Temperature	top_p	max_tokens	Uso
Thinking	0.6	0.95	20480	Raciocínio complexo
Instruct	0.2	N/A	1024	Tarefas gerais, ASR

Pra raciocínio e compreensão complexa, ativa thinking mode. Pra transcrição e tarefa direta, instruct (sem thinking) responde mais rápido.

Limpeza

Não esquece de matar o endpoint pra não queimar GPU à toa:

predictor.delete_endpoint()

Fechamento

A NVIDIA fala em até 9x mais throughput comparado a outros modelos omni abertos. Número de fabricante, vale o benchmark próprio com seu workload.

A real é: omni unificado é a direção pra quem tá construindo agente sério. Stack com 3 ou 4 modelos separados (Whisper + CLIP + LLM + OCR) ainda funciona, mas paga pedágio em latência, custo e bug de orquestração. Vale rodar PoC contra seu pipeline atual antes de comprar a tese inteira.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.