A AWS publicou um guia pra quem quer fugir do custo de ASR gerenciado: roda o NVIDIA Parakeet-TDT-0.6B-v3 em AWS Batch com GPU, dispara via S3 + EventBridge e usa Spot pra cortar até 90%. Pipeline event-driven escala do zero, cobre 25 idiomas europeus (português incluso) e sai por frações de centavo por hora de áudio.
Parakeet-TDT é PT europeu, não PT-BR. Antes de trocar Transcribe por isso em call center brasileiro, roda benchmark com áudio real de cliente. Economia de 99% no compute some rápido se WER subir pra 20%.
A AWS soltou um post técnico mostrando como montar pipeline de transcrição de áudio self-hosted que sai por frações de centavo por hora processada. A ideia ataca um problema concreto: quem tem biblioteca grande de mídia, gravação de call center ou vídeo on-demand pra legendar sente o custo de ASR (Automatic Speech Recognition) gerenciado virar o principal limitador de escala.
A receita: NVIDIA Parakeet-TDT-0.6B-v3 rodando em AWS Batch com GPU, disparado por upload no S3 via EventBridge.
Parakeet-TDT-0.6B-v3 saiu em agosto de 2025. Open-source, licença CC-BY-4.0, multilíngue em 25 idiomas europeus com detecção automática. Números publicados pela NVIDIA: 6,34% de WER (Word Error Rate) em condição limpa e 11,66% WER a 0 dB SNR. Suporta até 3 horas de áudio usando modo de atenção local.
Os 25 idiomas incluem português, espanhol, francês, alemão, italiano, holandês, russo, ucraniano e mais outros 17. Aqui fica o aviso pra leitor BR: é português europeu no treino, não PT-BR. Vale testar antes de assumir que serve pra call center brasileiro.
Requer GPU com 4 GB de VRAM mínimo (8 GB recomendado). Instâncias G6 (NVIDIA L4) entregam a melhor relação custo/performance segundo os testes da AWS. Roda também em G5 (A10G), G4dn (T4) e, pra throughput máximo, P5 (H100) ou P4 (A100).
O fluxo é event-driven clássico:
A imagem Docker usa Amazon Linux 2023, Python 3.12 e cacheia o modelo durante o build pra matar latência de download em runtime.
Pra apertar o preço, a AWS mostra como trocar o compute environment pra Spot com alocação SPOT_PRICE_CAPACITY_OPTIMIZED, diversificando entre g6.xlarge, g6.2xlarge e g5.xlarge. Desconto de até 90% sobre on-demand.
Como jobs de ASR são stateless e idempotentes, encaixam bem em Spot. Se a instância for recuperada, o Batch tenta de novo (configurado pra 2 retries).
O consumo de memória do Parakeet-TDT escala linearmente com a duração do áudio. Com atenção cheia, dá pra processar até 24 minutos em 80 GB de VRAM.
Duas saídas:
rel_pos_local_attn e sobe o limite pra 3 horas num A100 de 80 GB. Pode ter leve perda de acurácia.A AWS rodou teste com 1.000 arquivos de áudio idênticos de 50 minutos (coletiva pré-voo da NASA) distribuídos em 100 instâncias g6.xlarge.
Resultado em g6.xlarge com áudio de 3h25min (205 minutos):
Custo em us-east-1:
| Modelo | Custo/hora (g6.xlarge) | Custo por minuto de áudio |
|---|---|---|
| On-Demand | ~US$ 0,805 | US$ 0,00011 |
| Spot | ~US$ 0,374 | US$ 0,00005 |
Em Spot, processar 1.000 horas de áudio sai por uns US$ 3. Comparando com Amazon Transcribe (gerenciado), que cobra a partir de US$ 0,024 por minuto em tier alto, a diferença é de 3 ordens de grandeza. O trade-off óbvio: você herda a operação de Batch, ECR, monitoramento de GPU e os retries de Spot.
Código de exemplo tá no repositório GitHub da AWS Samples. Vale pra quem tem volume alto e constante de áudio, time que já mexe com AWS Batch ou tolera a curva, e cenário onde português europeu + 24 outros idiomas cobre o caso. Pra quem só precisa transcrever ocasionalmente, Transcribe ou API gerenciada continua mais barato em tempo de engenheiro.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0