AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo
A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.
Destilação é receita de bolo pra tarefas de roteamento repetitivas, e a AWS entregou o notebook pronto. Pra quem já tá no Bedrock e roda pipeline com roteador LLM, vale testar — 95% de corte de custo com qualidade equivalente é difícil de ignorar.
A AWS soltou a parte 2 da série sobre busca semântica multimodal de vídeo no Bedrock. O foco agora é otimizar a camada de roteamento de intenção, que na parte 1 rodava em Claude Haiku e respondia por 75% da latência end-to-end (2-4 segundos por query).
A solução: destilar o comportamento de roteamento do Amazon Nova Premier (modelo grande, teacher) pro Amazon Nova Micro (modelo pequeno, student) usando Model Distillation no Bedrock. Ganho reportado: 95%+ de redução de custo de inferência e 50% menos latência, mantendo a qualidade de roteamento.
O problema real
Quem opera busca de vídeo em escala enterprise vive o trade-off clássico: modelo pequeno é rápido mas burro pra roteamento, modelo grande acerta mas custa caro e trava latência. O exemplo da AWS usa só 5 atributos (título, legenda, pessoas, gênero, timestamp), mas clientes reais precisam lidar com ângulo de câmera, mood, licenciamento, taxonomias de domínio. Prompt mais denso, resposta mais cara e mais lenta.
Na prática, destilação resolve o dilema quando a tarefa é bem definida e repetitiva — roteamento cai exatamente nesse perfil.
Como roda a pipeline
Tudo num Jupyter notebook, com 4 etapas:
- Prepara training data: 10.000 exemplos sintéticos rotulados gerados pelo Nova Premier, subidos pro S3 no formato
bedrock-conversation-2024. - Dispara job de destilação: configura teacher e student, submete via
create_model_customization_job. Bedrock orquestra tudo — sem cluster, sem hyperparameter tuning. - Deploy do modelo destilado: via on-demand inference (pay-per-use, sem compromisso), ou Provisioned Throughput pra workload previsível.
- Avalia: compara contra Nova Micro base e Claude Haiku original usando Amazon Bedrock Model Evaluation.
Um detalhe importante: diferente de supervised fine-tuning (SFT), destilação não exige dataset totalmente rotulado. Você manda só os prompts, o Bedrock invoca o teacher pra gerar as respostas, e aplica data augmentation pra gerar até 15.000 pares prompt-resposta. Rótulo é opcional se você quiser mais controle.
Código do job
teacher_model = "us.amazon.nova-premier-v1:0"
student_model = "amazon.nova-micro-v1:0:128k"
response = bedrock_client.create_model_customization_job(
jobName=job_name,
customModelName=model_name,
roleArn=distillation_role_arn,
baseModelIdentifier=student_model,
customizationType="DISTILLATION",
trainingDataConfig={"s3Uri": training_s3_uri},
outputDataConfig={"s3Uri": output_s3_uri},
customizationConfig={
"distillationConfig": {
"teacherModelConfig": {
"teacherModelIdentifier": teacher_model,
"maxResponseLengthForInference": 1000
}
}
}
)
Pra 10k exemplos com Nova Micro, o job completa em algumas horas.
Resultados do benchmark
Avaliação em held-out set de 100 exemplos rotulados pelo Nova Premier, com rubrica customizada OverallQuality (Claude Sonnet como juiz) pontuando acurácia dos pesos e qualidade do reasoning:
| Métrica | Nova Micro destilado | Claude 4.5 Haiku |
|---|---|---|
| LLM-as-judge score | 4.0 / 5 | 4.0 / 5 |
| Latência média | 833ms | 1.741ms |
| Custo input | $0.000035 / 1K tokens | $0.80-$1.00 / 1K |
| Custo output | $0.000140 / 1K tokens | $4.00-$5.00 / 1K |
| Formato output | JSON consistente | Inconsistente |
Comparação adicional entre Nova Micro base e destilado mostra que o base não segue o formato direito, retorna JSON incompleto e texto livre. O destilado sempre devolve JSON bem-formado com 4 pesos numéricos somando 1.0.
Diferença de custo de input de $0.000035 pra $0.80-$1.00 por 1K tokens é quase 4 ordens de grandeza. Pra quem roda roteamento em milhões de queries/mês, é a diferença entre operação viável e inviável.
Disponibilidade
Notebook completo, script de geração de training data e utilitários de avaliação no repositório no GitHub. Model Distillation no Bedrock já tá GA, e o Nova Micro destilado roda em on-demand inference nos preços padrão da família Nova.
☕ comentários · 0