cafecomtech
Assinar
FERRAMENTAS · AWS · 20 ABR 2026

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x
AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x foi anunciado em 20 de abril às 19:38, horário de Brasília. fonte original →
por que importa

Cair modelo de 32B num único g7e.2xlarge por US$ 4,20/h e chegar a US$ 0,79/M tokens muda a conta pra quem roda open source em self-hosted. A real é que o G6e só fazia sentido em cenário de latência baixa em baixa concorrência, e agora perde feio no custo em produção.

A AWS anunciou hoje a chegada das instâncias G7e no Amazon SageMaker AI, rodando nas GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Dá pra provisionar nodes com 1, 2, 4 ou 8 GPUs, cada uma com 96 GB de GDDR7.

Na prática, isso significa que um único g7e.2xlarge (1 GPU) já hospeda modelos open source pesados como GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) e Qwen3.5-35B-A3B. Quem precisava de multi-node no G5 ou G6e agora resolve com uma máquina só.

O que muda vs. gerações anteriores

Dobrou a memória de GPU em relação ao G6e. Com isso, dá pra fazer deploy de LLM em FP16 em:

  • Modelo de 35B numa única GPU (g7e.2xlarge)
  • Modelo de 150B num node de 4 GPUs (g7e.24xlarge)
  • Modelo de 300B num node de 8 GPUs (g7e.48xlarge)

Rede escala até 1.600 Gbps com EFA no tamanho máximo, 4x mais que o G6e e 16x mais que o G5. Cada GPU entrega 1.597 GB/s de banda de memória.

Comparativo no tier de 8 GPUs:

Spec G5 (g5.48xlarge) G6e (g6e.48xlarge) G7e (g7e.48xlarge)
GPU 8x NVIDIA A10G 8x NVIDIA L40S 8x RTX PRO 6000 Blackwell
Memória por GPU 24 GB GDDR6 48 GB GDDR6 96 GB GDDR7
Memória total 192 GB 384 GB 768 GB
Banda de memória 600 GB/s 864 GB/s 1.597 GB/s
Rede 100 Gbps 400 Gbps 1.600 Gbps (EFA)
NVMe local 7,6 TB 7,6 TB 15,2 TB
Inferência vs G6e baseline ~1x até 2,3x

Suporte a precisão FP4 com Tensor Cores de 5ª geração e NVIDIA GPUDirect RDMA (Remote Direct Memory Access) sobre EFAv4 completam o pacote.

Casos de uso

  • Chatbots e IA conversacional: TTFT (Time To First Token) baixo e throughput alto mesmo sob carga.
  • Agentes e tool-calling: 4x mais banda CPU→GPU ajuda pipelines RAG (Retrieval-Augmented Generation) e fluxos agênticos onde injeção rápida de contexto é crítica.
  • Geração de texto e contexto longo: 96 GB por GPU acomoda KV caches grandes pra documentos extensos.
  • Geração de imagem e modelos de visão: sem mais out-of-memory em multimodais maiores.
  • Physical AI e computação científica: FP4, DLSS 4.0 e RT cores de 4ª geração abrem espaço pra digital twin e simulação 3D.

Benchmark: G7e vs G6e rodando Qwen3-32B

A AWS testou Qwen3-32B (BF16) nas duas instâncias com o mesmo workload (~1.000 tokens de entrada, ~560 de saída por request), representativo de tarefa de sumarização. Container vLLM nativo com prefix caching ligado.

G6e baseline (ml.g6e.12xlarge, 4x L40S, US$ 13,12/h):

C p50 (s) p99 (s) tok/s Agg tok/s US$/M tokens
1 16,1 16,3 37,1 37 38,09
8 19,8 20,2 30,3 242 5,85
16 23,1 23,5 26,0 416 3,41
32 26,0 29,2 21,5 686 2,06

G7e (ml.g7e.2xlarge, 1x RTX PRO 6000 Blackwell, US$ 4,20/h):

C p50 (s) p99 (s) tok/s Agg tok/s US$/M tokens
1 27,2 27,5 22,0 22 21,32
8 28,7 28,9 20,9 167 2,81
16 30,3 30,6 19,9 318 1,48
32 33,2 33,3 18,5 592 0,79

Em concorrência de produção (C=32), G7e entrega US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e (US$ 2,06). Dois motivos: hora mais barata (US$ 4,20 vs 13,12) e throughput consistente sob carga.

A parte interessante é o comportamento de latência. G7e escala melhor porque roda em GPU única, sem overhead de sincronização entre GPUs. Latência sobe só 22% de C=1 pra C=32 (27,2s → 33,2s), contra 62% no G6e (16,1s → 26,0s). Sem all-reduce a cada camada transformer, sem fragmentação de KV cache entre GPUs, sem gargalo de NVLink.

Pra latência baixa em baixa concorrência, o G6e com 4 GPUs ainda ganha em resposta individual. Pra produção otimizando custo por token em escala, G7e é a escolha clara.

G7e + EAGLE speculative decoding

O EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) acelera decoding prevendo múltiplos tokens futuros a partir das representações internas do modelo, depois verifica tudo num forward pass só. Mesma qualidade de saída, múltiplos tokens por step.

Combinando G7e com EAGLE3 (speculator treinado pela comunidade, ~1,56 GB, num_speculative_tokens=4) no Qwen3-32B BF16, a AWS relata:

  • 2,4x de throughput vs baseline da geração anterior
  • 75% de redução de custo vs baseline
  • US$ 0,41 por milhão de tokens de saída — 4x mais barato que G6e + EAGLE3 (US$ 1,72)

Pra deploy de produção com modelo fine-tuned, o toolkit de otimização EAGLE do SageMaker AI treina heads EAGLE customizadas nos seus próprios dados, melhorando a taxa de aceitação do speculator além do que vem da comunidade.

Preço e disponibilidade

G7e no SageMaker AI é cobrado no preço padrão de inferência pelo tipo de instância e duração. Sem cobrança adicional por token ou por request.

Jobs de otimização EAGLE rodam em instâncias de training do SageMaker e cobram a hora padrão. Artefatos ficam no S3. Depois de deployar, não tem cobrança extra por EAGLE, só o custo do endpoint.

Tabela de preços on-demand (US East N. Virginia):

Instância GPUs Memória GPU Caso típico
ml.g5.2xlarge 1 24 GB LLMs pequenos (≤7B FP16), dev/test
ml.g5.48xlarge 8 192 GB Serving multi-GPU no G5
ml.g6e.2xlarge 1 48 GB LLMs médios (≤14B FP16)
ml.g6e.12xlarge 2 96 GB LLMs grandes (≤36B FP16), baseline geração anterior
ml.g6e.48xlarge 8 384 GB LLMs muito grandes (≤90B FP16)
ml.g7e.2xlarge 1 96 GB LLMs grandes (≤70B FP8) em GPU única
ml.g7e.24xlarge 4 384 GB Serving de alto throughput
ml.g7e.48xlarge 8 768 GB Throughput máximo, maiores modelos

Dá pra combinar com SageMaker Savings Plans pra descontos de até 64% em uso comprometido.

Pré-requisitos

Conta AWS, role IAM com acesso ao SageMaker AI, acesso ao SageMaker Studio ou notebook, e quota pra pelo menos uma instância ml.g7e.2xlarge. Aumento de quota via console de Service Quotas.

0

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.
Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.