AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x
A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.
Cair modelo de 32B num único g7e.2xlarge por US$ 4,20/h e chegar a US$ 0,79/M tokens muda a conta pra quem roda open source em self-hosted. A real é que o G6e só fazia sentido em cenário de latência baixa em baixa concorrência, e agora perde feio no custo em produção.
A AWS anunciou hoje a chegada das instâncias G7e no Amazon SageMaker AI, rodando nas GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Dá pra provisionar nodes com 1, 2, 4 ou 8 GPUs, cada uma com 96 GB de GDDR7.
Na prática, isso significa que um único g7e.2xlarge (1 GPU) já hospeda modelos open source pesados como GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) e Qwen3.5-35B-A3B. Quem precisava de multi-node no G5 ou G6e agora resolve com uma máquina só.
O que muda vs. gerações anteriores
Dobrou a memória de GPU em relação ao G6e. Com isso, dá pra fazer deploy de LLM em FP16 em:
- Modelo de 35B numa única GPU (g7e.2xlarge)
- Modelo de 150B num node de 4 GPUs (g7e.24xlarge)
- Modelo de 300B num node de 8 GPUs (g7e.48xlarge)
Rede escala até 1.600 Gbps com EFA no tamanho máximo, 4x mais que o G6e e 16x mais que o G5. Cada GPU entrega 1.597 GB/s de banda de memória.
Comparativo no tier de 8 GPUs:
| Spec | G5 (g5.48xlarge) | G6e (g6e.48xlarge) | G7e (g7e.48xlarge) |
|---|---|---|---|
| GPU | 8x NVIDIA A10G | 8x NVIDIA L40S | 8x RTX PRO 6000 Blackwell |
| Memória por GPU | 24 GB GDDR6 | 48 GB GDDR6 | 96 GB GDDR7 |
| Memória total | 192 GB | 384 GB | 768 GB |
| Banda de memória | 600 GB/s | 864 GB/s | 1.597 GB/s |
| Rede | 100 Gbps | 400 Gbps | 1.600 Gbps (EFA) |
| NVMe local | 7,6 TB | 7,6 TB | 15,2 TB |
| Inferência vs G6e | baseline | ~1x | até 2,3x |
Suporte a precisão FP4 com Tensor Cores de 5ª geração e NVIDIA GPUDirect RDMA (Remote Direct Memory Access) sobre EFAv4 completam o pacote.
Casos de uso
- Chatbots e IA conversacional: TTFT (Time To First Token) baixo e throughput alto mesmo sob carga.
- Agentes e tool-calling: 4x mais banda CPU→GPU ajuda pipelines RAG (Retrieval-Augmented Generation) e fluxos agênticos onde injeção rápida de contexto é crítica.
- Geração de texto e contexto longo: 96 GB por GPU acomoda KV caches grandes pra documentos extensos.
- Geração de imagem e modelos de visão: sem mais out-of-memory em multimodais maiores.
- Physical AI e computação científica: FP4, DLSS 4.0 e RT cores de 4ª geração abrem espaço pra digital twin e simulação 3D.
Benchmark: G7e vs G6e rodando Qwen3-32B
A AWS testou Qwen3-32B (BF16) nas duas instâncias com o mesmo workload (~1.000 tokens de entrada, ~560 de saída por request), representativo de tarefa de sumarização. Container vLLM nativo com prefix caching ligado.
G6e baseline (ml.g6e.12xlarge, 4x L40S, US$ 13,12/h):
| C | p50 (s) | p99 (s) | tok/s | Agg tok/s | US$/M tokens |
|---|---|---|---|---|---|
| 1 | 16,1 | 16,3 | 37,1 | 37 | 38,09 |
| 8 | 19,8 | 20,2 | 30,3 | 242 | 5,85 |
| 16 | 23,1 | 23,5 | 26,0 | 416 | 3,41 |
| 32 | 26,0 | 29,2 | 21,5 | 686 | 2,06 |
G7e (ml.g7e.2xlarge, 1x RTX PRO 6000 Blackwell, US$ 4,20/h):
| C | p50 (s) | p99 (s) | tok/s | Agg tok/s | US$/M tokens |
|---|---|---|---|---|---|
| 1 | 27,2 | 27,5 | 22,0 | 22 | 21,32 |
| 8 | 28,7 | 28,9 | 20,9 | 167 | 2,81 |
| 16 | 30,3 | 30,6 | 19,9 | 318 | 1,48 |
| 32 | 33,2 | 33,3 | 18,5 | 592 | 0,79 |
Em concorrência de produção (C=32), G7e entrega US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e (US$ 2,06). Dois motivos: hora mais barata (US$ 4,20 vs 13,12) e throughput consistente sob carga.
A parte interessante é o comportamento de latência. G7e escala melhor porque roda em GPU única, sem overhead de sincronização entre GPUs. Latência sobe só 22% de C=1 pra C=32 (27,2s → 33,2s), contra 62% no G6e (16,1s → 26,0s). Sem all-reduce a cada camada transformer, sem fragmentação de KV cache entre GPUs, sem gargalo de NVLink.
Pra latência baixa em baixa concorrência, o G6e com 4 GPUs ainda ganha em resposta individual. Pra produção otimizando custo por token em escala, G7e é a escolha clara.
G7e + EAGLE speculative decoding
O EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) acelera decoding prevendo múltiplos tokens futuros a partir das representações internas do modelo, depois verifica tudo num forward pass só. Mesma qualidade de saída, múltiplos tokens por step.
Combinando G7e com EAGLE3 (speculator treinado pela comunidade, ~1,56 GB, num_speculative_tokens=4) no Qwen3-32B BF16, a AWS relata:
- 2,4x de throughput vs baseline da geração anterior
- 75% de redução de custo vs baseline
- US$ 0,41 por milhão de tokens de saída — 4x mais barato que G6e + EAGLE3 (US$ 1,72)
Pra deploy de produção com modelo fine-tuned, o toolkit de otimização EAGLE do SageMaker AI treina heads EAGLE customizadas nos seus próprios dados, melhorando a taxa de aceitação do speculator além do que vem da comunidade.
Preço e disponibilidade
G7e no SageMaker AI é cobrado no preço padrão de inferência pelo tipo de instância e duração. Sem cobrança adicional por token ou por request.
Jobs de otimização EAGLE rodam em instâncias de training do SageMaker e cobram a hora padrão. Artefatos ficam no S3. Depois de deployar, não tem cobrança extra por EAGLE, só o custo do endpoint.
Tabela de preços on-demand (US East N. Virginia):
| Instância | GPUs | Memória GPU | Caso típico |
|---|---|---|---|
| ml.g5.2xlarge | 1 | 24 GB | LLMs pequenos (≤7B FP16), dev/test |
| ml.g5.48xlarge | 8 | 192 GB | Serving multi-GPU no G5 |
| ml.g6e.2xlarge | 1 | 48 GB | LLMs médios (≤14B FP16) |
| ml.g6e.12xlarge | 2 | 96 GB | LLMs grandes (≤36B FP16), baseline geração anterior |
| ml.g6e.48xlarge | 8 | 384 GB | LLMs muito grandes (≤90B FP16) |
| ml.g7e.2xlarge | 1 | 96 GB | LLMs grandes (≤70B FP8) em GPU única |
| ml.g7e.24xlarge | 4 | 384 GB | Serving de alto throughput |
| ml.g7e.48xlarge | 8 | 768 GB | Throughput máximo, maiores modelos |
Dá pra combinar com SageMaker Savings Plans pra descontos de até 64% em uso comprometido.
Pré-requisitos
Conta AWS, role IAM com acesso ao SageMaker AI, acesso ao SageMaker Studio ou notebook, e quota pra pelo menos uma instância ml.g7e.2xlarge. Aumento de quota via console de Service Quotas.
☕ comentários · 0