A DeepSeek lançou a quarta geração da família, com DeepSeek-V4-Pro (1.6T parâmetros totais, 49B ativos) e DeepSeek-V4-Flash (284B totais, 13B ativos). Ambos suportam contexto de 1M tokens e prometem 73% menos FLOPs por token e 90% menos memória de KV cache que o V3.2. NVIDIA mostra +150 tokens/s/usuário no GB200 NVL72 e libera os modelos em endpoints acelerados no build.nvidia.com.
Open weight de 1M de contexto com queda de 90% em KV cache é exatamente o tipo de combo que muda economia de agente em produção. Pra quem roda inferência própria, vale benchmarkar contra GPT-4o-mini e Claude Haiku no custo por milhão de tokens.
A DeepSeek soltou a quarta geração da família flagship: DeepSeek-V4-Pro e DeepSeek-V4-Flash, ambos focados em inferência eficiente com contexto de 1 milhão de tokens. A NVIDIA já chegou junto com recipes de deploy pra Blackwell e endpoints hospedados no build.nvidia.com.
| DeepSeek-V4-Pro | DeepSeek-V4-Flash | |
|---|---|---|
| Parâmetros totais | 1.6T | 284B |
| Parâmetros ativos | 49B | 13B |
| Janela de contexto | 1M tokens | 1M tokens |
| Output máximo | 384K tokens | 384K tokens |
| Uso primário | Reasoning avançado, código, agentes long-context | Eficiência, chat, roteamento, sumarização |
| Licença | MIT | MIT |
Ambos abrem espaço pra workloads de código long-context, análise de documento, retrieval e workflows agentic.
A família V4 segue na base MoE (Mixture of Experts) da DeepSeek, mas mexeu pesado no componente de atenção do transformer. O número que a casa cita: 73% menos FLOPs por token de inferência e 90% menos memória de KV cache comparado ao V3.2.
Isso importa porque agente não guarda só prompt e resposta. Carrega instrução de sistema, output de ferramenta, contexto recuperado, código, log, memória e traço de raciocínio multi-step. Quando a janela cresce, atenção e KV cache viram gargalo bruto.
A solução é hybrid attention, que combina três técnicas:
Na prática, é o sinal de que open model sério agora compete por economia de inferência, não só por benchmark de qualidade. Quem opera infra pra agentes vai sentir esses 90% de KV cache no bolso.
A NVIDIA rodou o DeepSeek-V4-Pro no GB200 NVL72 e mediu mais de 150 tokens/s/usuário sem otimização extra. Pra contexto adicional, o time usou o recipe Day 0 do vLLM pro Blackwell B300 e gerou um snapshot de pareto rodando configuração 1K/1K ISL/OSL no formato MXFP4 nativo do modelo.
A expectativa é que esse número suba à medida que o stack de co-design (Dynamo, NVFP4, kernels CUDA otimizados, técnicas de paralelização) for amadurecendo.
SGLang: três recipes principais pro V4 em Blackwell e Hopper, cada um sintonizado pra um perfil diferente (baixa latência, balanceado, throughput máximo), além de recipes específicos pra long-context e desagregação prefill/decode.
vLLM: recipes single-node e multinode pro Blackwell e Hopper, incluindo desagregação prefill/decode escalando pra 100+ GPUs, com suporte a tool calling, reasoning e speculative decoding.
NVIDIA NIM: download Day-0 disponível, pronto pra workflows de código long-context, análise de documento e agentes via padrões familiares de API.
A NVIDIA aponta três pontos de entrada pra plugar o V4 como LLM em workflows agentic:
nemoclaw onboard apontando pro endpoint do V4.Os modelos estão no Hugging Face e o Pro tá testável direto no build.nvidia.com via NVIDIA Developer Program. Endpoint hospedado é o caminho rápido pra prototipar antes de partir pra self-hosted.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0