PRODUTO · AWS · 22 ABR 2026

SageMaker AI ganha recomendações otimizadas de inferência pra IA generativa

A AWS lançou recomendações otimizadas de inferência generativa no Amazon SageMaker AI. Você traz o modelo, define tráfego esperado e escolhe um objetivo (custo, latência ou throughput). O SageMaker filtra configurações, aplica otimizações (speculative decoding, tensor parallelism) e faz benchmark em GPU real via NVIDIA AIPerf, devolvendo configs ranqueadas prontas pra deploy.

Mateus Veloso4 min de leiturade olho#sagemaker#inference#generative_ai

SageMaker AI ganha recomendações otimizadas de inferência pra IA generativa foi anunciado em 22 de abril às 19:15, horário de Brasília. fonte original →

00:00 / 06:19

voz sintética · pt-br

por que importa

AWS mirando o mesmo problema que NVIDIA Dynamo e vLLM enterprise atacam: tornar tuning de inferência algo que não exige time dedicado de perf. Pra quem roda modelo open na AWS, vale o teste. Só lembra: São Paulo fora do rollout inicial.

A AWS anunciou suporte a recomendações otimizadas de inferência generativa no Amazon SageMaker AI. A ideia é cortar o ciclo de 2 a 3 semanas que times gastam testando GPU, container, paralelismo e otimização manualmente até achar a config que bate o SLA (Service Level Agreement) de latência, throughput ou custo.

O ponto que a AWS vende: ninguém tem expertise in-house pra varrer mais de uma dúzia de tipos de instância GPU, múltiplos containers de serving, vários graus de paralelismo e técnicas como speculative decoding. Aí o default vira over-provisioning, que sangra GPU todo mês.

Como funciona

Você traz seu modelo generativo, descreve tráfego esperado e escolhe um objetivo: otimizar custo, minimizar latência ou maximizar throughput. Daí o SageMaker AI assume em três estágios.

Estágio 1: filtra o espaço de configuração. Analisa arquitetura, tamanho e requisitos de memória do modelo pra identificar instâncias e estratégias de paralelismo viáveis. Você escolhe até 3 tipos de instância pra comparar.

Estágio 2: aplica otimizações alinhadas ao objetivo.

Pra throughput: treina modelos de speculative decoding (tipo EAGLE 3.0) que geram múltiplos tokens por forward pass.
Pra latência: tuna kernels de compute pra reduzir tempo por token e TTFT (Time To First Token).
Tensor parallelism é aplicado conforme tamanho do modelo e capacidade da instância, distribuindo entre GPUs.

Estágio 3: benchmark e recomendações ranqueadas. Cada config otimizada roda em GPU real com NVIDIA AIPerf, medindo TTFT, inter-token latency, p50/p90/p99 de latência por request, throughput e custo. Sai uma lista ranqueada de configs prontas pra deploy.

Na prática, isso mata um dos trabalhos mais chatos de MLOps: decidir entre ml.p5en.48xlarge vs ml.g6.12xlarge sem saber qual vai dar SLA no modelo que você quer subir. O SageMaker tá basicamente terceirizando o benchmark de infra.

O número que a AWS mostra

Exemplo citado no post: GPT-OSS-20B numa ml.p5en.48xlarge (H100) com objetivo de maximizar throughput. O SageMaker identificou speculative decoding como técnica certa, treinou um draft model EAGLE 3.0 e rodou benchmark do baseline vs otimizado.

Resultado: a mesma instância passou a servir 2x mais tokens no mesmo 1.000ms de latência. Na prática, 2x mais usuários no mesmo hardware, custo por token cortado pela metade.

Contribuições da AWS pro AIPerf

A AWS contribuiu upstream pro AIPerf com:

Multi-run confidence reporting: mede variância entre runs repetidos e dá intervalos de confiança estatísticos, em vez do número frágil de um run só.
Adaptive convergence e early stopping: benchmark para quando métricas estabilizam, em vez de rodar número fixo de trials. Reduz custo de benchmark e acelera resultado.

Eliuth Triana, Developer Relations Manager da NVIDIA, comentou:

"Com a integração de componentes modulares do framework open source NVIDIA Dynamo direto no Amazon SageMaker AI, a AWS tá facilitando pra empresas subirem modelos generativos com confiança. A AWS foi instrumental no avanço do AIPerf através de colaboração profunda e contribuições técnicas."

Casos de uso

Validação pré-deploy: otimiza e faz benchmark antes de commitar produção.
Regression testing: valida performance após update de container, upgrade de framework ou release de lib de serving.
Right-sizing quando muda o cenário: tráfego mudou ou instância nova saiu, roda de novo em horas.
Comparação de modelos: compara variantes de modelo entre instâncias antes de subir.
Otimização de custo: roda benchmark em endpoints de produção existentes pra achar infra over-provisioned.

Preço

Não tem custo adicional pra gerar as recomendações. Você paga o compute padrão dos jobs de otimização e dos endpoints provisionados durante o benchmark. Quem tem ML Reservations (Flexible Training Plans) pode rodar benchmark na capacidade reservada sem custo extra, pagando só o job de otimização.

Disponibilidade

Já liberado em 7 regiões AWS: US East (N. Virginia), US West (Oregon), US East (Ohio), Asia Pacific (Tokyo), Europe (Ireland), Asia Pacific (Singapore) e Europe (Frankfurt).

Nenhuma região sa-east-1 na lista. Quem roda SageMaker em São Paulo e quer essa feature vai ter que esperar ou cross-region, com o custo de latência que isso traz.

Acesso via APIs do SageMaker AI. Notebooks de exemplo disponíveis no GitHub e na documentação do SageMaker.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.