PRODUTO · NVIDIA · 24 ABR 2026

DeepSeek V4 chega com janela de 1M tokens e roda no NVIDIA Blackwell direto de fábrica

A DeepSeek lançou a quarta geração da família, com DeepSeek-V4-Pro (1.6T parâmetros totais, 49B ativos) e DeepSeek-V4-Flash (284B totais, 13B ativos). Ambos suportam contexto de 1M tokens e prometem 73% menos FLOPs por token e 90% menos memória de KV cache que o V3.2. NVIDIA mostra +150 tokens/s/usuário no GB200 NVL72 e libera os modelos em endpoints acelerados no build.nvidia.com.

Mateus Veloso4 min de leiturade olho#llm#deepseek#coding

DeepSeek V4 chega com janela de 1M tokens e roda no NVIDIA Blackwell direto de fábrica foi anunciado em 24 de abril às 23:29, horário de Brasília. fonte original →

por que importa

Open weight de 1M de contexto com queda de 90% em KV cache é exatamente o tipo de combo que muda economia de agente em produção. Pra quem roda inferência própria, vale benchmarkar contra GPT-4o-mini e Claude Haiku no custo por milhão de tokens.

A DeepSeek soltou a quarta geração da família flagship: DeepSeek-V4-Pro e DeepSeek-V4-Flash, ambos focados em inferência eficiente com contexto de 1 milhão de tokens. A NVIDIA já chegou junto com recipes de deploy pra Blackwell e endpoints hospedados no build.nvidia.com.

Especificações

	DeepSeek-V4-Pro	DeepSeek-V4-Flash
Parâmetros totais	1.6T	284B
Parâmetros ativos	49B	13B
Janela de contexto	1M tokens	1M tokens
Output máximo	384K tokens	384K tokens
Uso primário	Reasoning avançado, código, agentes long-context	Eficiência, chat, roteamento, sumarização
Licença	MIT	MIT

Ambos abrem espaço pra workloads de código long-context, análise de documento, retrieval e workflows agentic.

O pulo arquitetural: hybrid attention

A família V4 segue na base MoE (Mixture of Experts) da DeepSeek, mas mexeu pesado no componente de atenção do transformer. O número que a casa cita: 73% menos FLOPs por token de inferência e 90% menos memória de KV cache comparado ao V3.2.

Isso importa porque agente não guarda só prompt e resposta. Carrega instrução de sistema, output de ferramenta, contexto recuperado, código, log, memória e traço de raciocínio multi-step. Quando a janela cresce, atenção e KV cache viram gargalo bruto.

A solução é hybrid attention, que combina três técnicas:

Compressed Sparse Attention (CSA): comprime entradas do KV via compressão dinâmica de sequência, reduz memória, e depois aplica DeepSeek Sparse Attention (DSA) pra esparsificar as matrizes de atenção e cortar overhead de compute.
Heavily Compressed Attention (HCA): compressão bem mais agressiva, consolidando entradas de KV de conjuntos de tokens em uma única entrada comprimida. Resultado: corte significativo no tamanho do KV cache.

Na prática, é o sinal de que open model sério agora compete por economia de inferência, não só por benchmark de qualidade. Quem opera infra pra agentes vai sentir esses 90% de KV cache no bolso.

Performance no Blackwell de fábrica

A NVIDIA rodou o DeepSeek-V4-Pro no GB200 NVL72 e mediu mais de 150 tokens/s/usuário sem otimização extra. Pra contexto adicional, o time usou o recipe Day 0 do vLLM pro Blackwell B300 e gerou um snapshot de pareto rodando configuração 1K/1K ISL/OSL no formato MXFP4 nativo do modelo.

A expectativa é que esse número suba à medida que o stack de co-design (Dynamo, NVFP4, kernels CUDA otimizados, técnicas de paralelização) for amadurecendo.

Como deployar

SGLang: três recipes principais pro V4 em Blackwell e Hopper, cada um sintonizado pra um perfil diferente (baixa latência, balanceado, throughput máximo), além de recipes específicos pra long-context e desagregação prefill/decode.

vLLM: recipes single-node e multinode pro Blackwell e Hopper, incluindo desagregação prefill/decode escalando pra 100+ GPUs, com suporte a tool calling, reasoning e speculative decoding.

NVIDIA NIM: download Day-0 disponível, pronto pra workflows de código long-context, análise de documento e agentes via padrões familiares de API.

Pra agentes

A NVIDIA aponta três pontos de entrada pra plugar o V4 como LLM em workflows agentic:

NVIDIA NemoClaw: roda o OpenClaw num ambiente OpenShell seguro pra montar assistente pessoal de longa duração (geração de código, suporte autônomo, etc.). Configura via nemoclaw onboard apontando pro endpoint do V4.
NVIDIA AI-Q Blueprint: baseado em LangChain Deep Agents, extensível, encaixa o V4 como camada de orquestração e planejamento pra deep research.
NVIDIA Data Explorer Agent: primeiro lugar no benchmark DABstep, focado em análise de dado, data science e pesquisa tabular. Escrito com NeMo Agent Toolkit, troca de modelo é trivial.

Pra começar

Os modelos estão no Hugging Face e o Pro tá testável direto no build.nvidia.com via NVIDIA Developer Program. Endpoint hospedado é o caminho rápido pra prototipar antes de partir pra self-hosted.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.