FERRAMENTAS · AWS · 22 ABR 2026

Transcrição multilíngue barata em escala: Parakeet-TDT rodando no AWS Batch

A AWS publicou um guia pra quem quer fugir do custo de ASR gerenciado: roda o NVIDIA Parakeet-TDT-0.6B-v3 em AWS Batch com GPU, dispara via S3 + EventBridge e usa Spot pra cortar até 90%. Pipeline event-driven escala do zero, cobre 25 idiomas europeus (português incluso) e sai por frações de centavo por hora de áudio.

Mateus Veloso4 min de leiturade olho#voice#aws#open_source

Transcrição multilíngue barata em escala: Parakeet-TDT rodando no AWS Batch foi anunciado em 22 de abril às 21:05, horário de Brasília. fonte original →

00:00 / 06:19

voz sintética · pt-br

por que importa

Parakeet-TDT é PT europeu, não PT-BR. Antes de trocar Transcribe por isso em call center brasileiro, roda benchmark com áudio real de cliente. Economia de 99% no compute some rápido se WER subir pra 20%.

A AWS soltou um post técnico mostrando como montar pipeline de transcrição de áudio self-hosted que sai por frações de centavo por hora processada. A ideia ataca um problema concreto: quem tem biblioteca grande de mídia, gravação de call center ou vídeo on-demand pra legendar sente o custo de ASR (Automatic Speech Recognition) gerenciado virar o principal limitador de escala.

A receita: NVIDIA Parakeet-TDT-0.6B-v3 rodando em AWS Batch com GPU, disparado por upload no S3 via EventBridge.

O modelo

Parakeet-TDT-0.6B-v3 saiu em agosto de 2025. Open-source, licença CC-BY-4.0, multilíngue em 25 idiomas europeus com detecção automática. Números publicados pela NVIDIA: 6,34% de WER (Word Error Rate) em condição limpa e 11,66% WER a 0 dB SNR. Suporta até 3 horas de áudio usando modo de atenção local.

Os 25 idiomas incluem português, espanhol, francês, alemão, italiano, holandês, russo, ucraniano e mais outros 17. Aqui fica o aviso pra leitor BR: é português europeu no treino, não PT-BR. Vale testar antes de assumir que serve pra call center brasileiro.

Requer GPU com 4 GB de VRAM mínimo (8 GB recomendado). Instâncias G6 (NVIDIA L4) entregam a melhor relação custo/performance segundo os testes da AWS. Roda também em G5 (A10G), G4dn (T4) e, pra throughput máximo, P5 (H100) ou P4 (A100).

Arquitetura da solução

O fluxo é event-driven clássico:

Upload de áudio num bucket S3
Regra do EventBridge dispara job no AWS Batch
Batch provisiona instância GPU, puxa imagem do Amazon ECR com modelo pré-cacheado
Script de inferência baixa o áudio, processa, sobe JSON com timestamps no bucket de saída
Ambiente escala pra zero quando ocioso

A imagem Docker usa Amazon Linux 2023, Python 3.12 e cacheia o modelo durante o build pra matar latência de download em runtime.

Spot Instances pra cortar custo

Pra apertar o preço, a AWS mostra como trocar o compute environment pra Spot com alocação SPOT_PRICE_CAPACITY_OPTIMIZED, diversificando entre g6.xlarge, g6.2xlarge e g5.xlarge. Desconto de até 90% sobre on-demand.

Como jobs de ASR são stateless e idempotentes, encaixam bem em Spot. Se a instância for recuperada, o Batch tenta de novo (configurado pra 2 retries).

Áudio longo: atenção local e streaming com buffer

O consumo de memória do Parakeet-TDT escala linearmente com a duração do áudio. Com atenção cheia, dá pra processar até 24 minutos em 80 GB de VRAM.

Duas saídas:

Atenção local: habilita modo rel_pos_local_attn e sobe o limite pra 3 horas num A100 de 80 GB. Pode ter leve perda de acurácia.
Streaming com buffer: processa em chunks sobrepostos (20s de chunk, 5s de contexto esquerdo, 3s de contexto direito). Desacopla VRAM do tamanho total do áudio. Uma g6.xlarge processa arquivo de 10 horas com o mesmo footprint de memória de um de 10 minutos.

Benchmark e custo

A AWS rodou teste com 1.000 arquivos de áudio idênticos de 50 minutos (coletiva pré-voo da NASA) distribuídos em 100 instâncias g6.xlarge.

Resultado em g6.xlarge com áudio de 3h25min (205 minutos):

Tempo total do job: 100 segundos
Velocidade efetiva: 0,49 segundos por minuto de áudio
Velocidade bruta de inferência do modelo: 0,24 s/min

Custo em us-east-1:

Modelo	Custo/hora (g6.xlarge)	Custo por minuto de áudio
On-Demand	~US$ 0,805	US$ 0,00011
Spot	~US$ 0,374	US$ 0,00005

Em Spot, processar 1.000 horas de áudio sai por uns US$ 3. Comparando com Amazon Transcribe (gerenciado), que cobra a partir de US$ 0,024 por minuto em tier alto, a diferença é de 3 ordens de grandeza. O trade-off óbvio: você herda a operação de Batch, ECR, monitoramento de GPU e os retries de Spot.

Pra quem faz sentido

Código de exemplo tá no repositório GitHub da AWS Samples. Vale pra quem tem volume alto e constante de áudio, time que já mexe com AWS Batch ou tolera a curva, e cenário onde português europeu + 24 outros idiomas cobre o caso. Pra quem só precisa transcrever ocasionalmente, Transcribe ou API gerenciada continua mais barato em tempo de engenheiro.

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.