A AWS lançou recomendações otimizadas de inferência generativa no Amazon SageMaker AI. Você traz o modelo, define tráfego esperado e escolhe um objetivo (custo, latência ou throughput). O SageMaker filtra configurações, aplica otimizações (speculative decoding, tensor parallelism) e faz benchmark em GPU real via NVIDIA AIPerf, devolvendo configs ranqueadas prontas pra deploy.
AWS mirando o mesmo problema que NVIDIA Dynamo e vLLM enterprise atacam: tornar tuning de inferência algo que não exige time dedicado de perf. Pra quem roda modelo open na AWS, vale o teste. Só lembra: São Paulo fora do rollout inicial.
A AWS anunciou suporte a recomendações otimizadas de inferência generativa no Amazon SageMaker AI. A ideia é cortar o ciclo de 2 a 3 semanas que times gastam testando GPU, container, paralelismo e otimização manualmente até achar a config que bate o SLA (Service Level Agreement) de latência, throughput ou custo.
O ponto que a AWS vende: ninguém tem expertise in-house pra varrer mais de uma dúzia de tipos de instância GPU, múltiplos containers de serving, vários graus de paralelismo e técnicas como speculative decoding. Aí o default vira over-provisioning, que sangra GPU todo mês.
Você traz seu modelo generativo, descreve tráfego esperado e escolhe um objetivo: otimizar custo, minimizar latência ou maximizar throughput. Daí o SageMaker AI assume em três estágios.
Estágio 1: filtra o espaço de configuração. Analisa arquitetura, tamanho e requisitos de memória do modelo pra identificar instâncias e estratégias de paralelismo viáveis. Você escolhe até 3 tipos de instância pra comparar.
Estágio 2: aplica otimizações alinhadas ao objetivo.
Estágio 3: benchmark e recomendações ranqueadas. Cada config otimizada roda em GPU real com NVIDIA AIPerf, medindo TTFT, inter-token latency, p50/p90/p99 de latência por request, throughput e custo. Sai uma lista ranqueada de configs prontas pra deploy.
Na prática, isso mata um dos trabalhos mais chatos de MLOps: decidir entre ml.p5en.48xlarge vs ml.g6.12xlarge sem saber qual vai dar SLA no modelo que você quer subir. O SageMaker tá basicamente terceirizando o benchmark de infra.
Exemplo citado no post: GPT-OSS-20B numa ml.p5en.48xlarge (H100) com objetivo de maximizar throughput. O SageMaker identificou speculative decoding como técnica certa, treinou um draft model EAGLE 3.0 e rodou benchmark do baseline vs otimizado.
Resultado: a mesma instância passou a servir 2x mais tokens no mesmo 1.000ms de latência. Na prática, 2x mais usuários no mesmo hardware, custo por token cortado pela metade.
A AWS contribuiu upstream pro AIPerf com:
Eliuth Triana, Developer Relations Manager da NVIDIA, comentou:
"Com a integração de componentes modulares do framework open source NVIDIA Dynamo direto no Amazon SageMaker AI, a AWS tá facilitando pra empresas subirem modelos generativos com confiança. A AWS foi instrumental no avanço do AIPerf através de colaboração profunda e contribuições técnicas."
Não tem custo adicional pra gerar as recomendações. Você paga o compute padrão dos jobs de otimização e dos endpoints provisionados durante o benchmark. Quem tem ML Reservations (Flexible Training Plans) pode rodar benchmark na capacidade reservada sem custo extra, pagando só o job de otimização.
Já liberado em 7 regiões AWS: US East (N. Virginia), US West (Oregon), US East (Ohio), Asia Pacific (Tokyo), Europe (Ireland), Asia Pacific (Singapore) e Europe (Frankfurt).
Nenhuma região sa-east-1 na lista. Quem roda SageMaker em São Paulo e quer essa feature vai ter que esperar ou cross-region, com o custo de latência que isso traz.
Acesso via APIs do SageMaker AI. Notebooks de exemplo disponíveis no GitHub e na documentação do SageMaker.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0