A AWS liberou o NVIDIA Nemotron 3 Nano Omni no SageMaker JumpStart em day zero. É um modelo multimodal aberto de 30B parâmetros totais e 3B ativos (MoE) que processa vídeo, áudio, imagem e texto em uma única passagem de inferência. Suporta contexto de 131K, chain of thought, tool calling e roda em FP8. Mira agentes que precisam de percepção unificada sem ter que costurar 3 ou 4 modelos.
Modelo aberto, FP8, MoE 30B/3B ativo e omni de verdade no JumpStart day zero é movimento forte. Pra time BR rodando agente em SageMaker, vale testar contra a stack costurada atual: se cortar 2 hops de inferência, paga o switch sozinho.
A AWS anunciou a disponibilidade day zero do NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart. É um LLM multimodal aberto da NVIDIA que junta entendimento de vídeo, áudio, imagem e texto numa arquitetura só, com saída em texto.
O Nemotron 3 Nano Omni tem 30 bilhões de parâmetros totais e 3 bilhões ativos (30B A3B), construído sobre uma arquitetura híbrida Mamba2 Transformer com MoE (Mixture of Experts). São três componentes principais:
Suporta contexto de 131K tokens, chain of thought, tool calling, saída em JSON e timestamps por palavra em transcrição. Vem em precisão FP8 no JumpStart e tá licenciado sob o NVIDIA Open Model Agreement pra uso comercial.
Workflow agêntico é multimodal por natureza: agente precisa interpretar telas, documentos, áudio, vídeo e texto, muitas vezes no mesmo loop de raciocínio. Hoje a maioria dos sistemas costura modelos separados pra visão, fala e linguagem. Isso aumenta latência (várias passagens de inferência), complica orquestração e tratamento de erro, fragmenta contexto entre modalidades e empilha custo e modos de falha.
O Nano Omni vira o sub-agente de percepção e contexto: lê tela, interpreta documento, transcreve fala e analisa vídeo mantendo contexto multimodal convergido entre loops de raciocínio.
Pra quem tá montando arquitetura agêntica, isso colapsa hops de inferência, lógica de orquestração e overhead de sincronização entre modelos numa chamada só. É exatamente o tipo de simplificação que faz diferença em produção, onde cada hop extra é mais p99 ruim e mais ponto de falha.
| Tipo | Formatos | Limites |
|---|---|---|
| Vídeo | mp4 | Até 2 minutos, até 256 frames |
| Áudio | wav, mp3 | Até 1 hora, sampling 8kHz+ |
| Imagem | JPEG, PNG (RGB) | Resolução padrão |
| Texto | String | Até 131K de contexto |
Nano Omni roda o loop de percepção pra agentes navegando GUIs. Lê tela, entende estado da UI no tempo e valida resultado, enquanto agentes de execução cuidam das ações. Aplicações práticas: dashboard de incident management, busca agêntica, automação de browser e agentes de workflow de email.
O modelo interpreta documentos, gráficos, tabelas, screenshots e entrada mista. Crítico pra análise enterprise e workflow de compliance envolvendo contratos, SOWs (Statement of Work), documentos financeiros e literatura científica.
Pra customer service, pesquisa e monitoramento, Nano Omni mantém contexto contínuo de áudio e vídeo. Casa o que foi dito, mostrado e documentado num fluxo de raciocínio único, em vez de resumos desconectados. Aplicações: análise de gravação de reunião, gestão de assets em mídia e entretenimento, conferência de pedido em drive-thru e revisão de vídeo de atendimento (por exemplo, verificar entrega de pacote num endereço via OCR).
Pré-requisitos: conta AWS, permissões pro JumpStart e quota suficiente de GPU (por exemplo, ml.p4d.24xlarge ou ml.p5.48xlarge).
No SageMaker Studio, abre o JumpStart no menu lateral, busca por Nemotron 3 Nano Omni, escolhe o card, configura instância e clica em Deploy.
Via SDK Python:
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",
role="<your_sagemaker_execution_role>",
)
predictor = model.deploy(accept_eula=True)
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_b64 = encode_image("example.jpg")
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image in detail."},
{"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},
],
}],
"max_tokens": 1024,
"temperature": 0.2,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])
Mesmo padrão, trocando image_url por video_url (data URI data:video/mp4;base64,...) e usando temperature=0.6, top_p=0.95, max_tokens=20480.
Mesmo padrão com audio_url (data:audio/wav;base64,...), temperature=0.2, max_tokens=1024.
| Modo | Temperature | top_p | max_tokens | Uso |
|---|---|---|---|---|
| Thinking | 0.6 | 0.95 | 20480 | Raciocínio complexo |
| Instruct | 0.2 | N/A | 1024 | Tarefas gerais, ASR |
Pra raciocínio e compreensão complexa, ativa thinking mode. Pra transcrição e tarefa direta, instruct (sem thinking) responde mais rápido.
Não esquece de matar o endpoint pra não queimar GPU à toa:
predictor.delete_endpoint()
A NVIDIA fala em até 9x mais throughput comparado a outros modelos omni abertos. Número de fabricante, vale o benchmark próprio com seu workload.
A real é: omni unificado é a direção pra quem tá construindo agente sério. Stack com 3 ou 4 modelos separados (Whisper + CLIP + LLM + OCR) ainda funciona, mas paga pedágio em latência, custo e bug de orquestração. Vale rodar PoC contra seu pipeline atual antes de comprar a tese inteira.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0