cafecomtech
Assinar
FERRAMENTAS · AWS · 17 ABR 2026

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo
AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo foi anunciado em 17 de abril às 19:43, horário de Brasília. fonte original →
por que importa

Destilação é receita de bolo pra tarefas de roteamento repetitivas, e a AWS entregou o notebook pronto. Pra quem já tá no Bedrock e roda pipeline com roteador LLM, vale testar — 95% de corte de custo com qualidade equivalente é difícil de ignorar.

A AWS soltou a parte 2 da série sobre busca semântica multimodal de vídeo no Bedrock. O foco agora é otimizar a camada de roteamento de intenção, que na parte 1 rodava em Claude Haiku e respondia por 75% da latência end-to-end (2-4 segundos por query).

A solução: destilar o comportamento de roteamento do Amazon Nova Premier (modelo grande, teacher) pro Amazon Nova Micro (modelo pequeno, student) usando Model Distillation no Bedrock. Ganho reportado: 95%+ de redução de custo de inferência e 50% menos latência, mantendo a qualidade de roteamento.

O problema real

Quem opera busca de vídeo em escala enterprise vive o trade-off clássico: modelo pequeno é rápido mas burro pra roteamento, modelo grande acerta mas custa caro e trava latência. O exemplo da AWS usa só 5 atributos (título, legenda, pessoas, gênero, timestamp), mas clientes reais precisam lidar com ângulo de câmera, mood, licenciamento, taxonomias de domínio. Prompt mais denso, resposta mais cara e mais lenta.

Na prática, destilação resolve o dilema quando a tarefa é bem definida e repetitiva — roteamento cai exatamente nesse perfil.

Como roda a pipeline

Tudo num Jupyter notebook, com 4 etapas:

  1. Prepara training data: 10.000 exemplos sintéticos rotulados gerados pelo Nova Premier, subidos pro S3 no formato bedrock-conversation-2024.
  2. Dispara job de destilação: configura teacher e student, submete via create_model_customization_job. Bedrock orquestra tudo — sem cluster, sem hyperparameter tuning.
  3. Deploy do modelo destilado: via on-demand inference (pay-per-use, sem compromisso), ou Provisioned Throughput pra workload previsível.
  4. Avalia: compara contra Nova Micro base e Claude Haiku original usando Amazon Bedrock Model Evaluation.

Um detalhe importante: diferente de supervised fine-tuning (SFT), destilação não exige dataset totalmente rotulado. Você manda só os prompts, o Bedrock invoca o teacher pra gerar as respostas, e aplica data augmentation pra gerar até 15.000 pares prompt-resposta. Rótulo é opcional se você quiser mais controle.

Código do job

teacher_model = "us.amazon.nova-premier-v1:0"
student_model = "amazon.nova-micro-v1:0:128k"

response = bedrock_client.create_model_customization_job(
    jobName=job_name,
    customModelName=model_name,
    roleArn=distillation_role_arn,
    baseModelIdentifier=student_model,
    customizationType="DISTILLATION",
    trainingDataConfig={"s3Uri": training_s3_uri},
    outputDataConfig={"s3Uri": output_s3_uri},
    customizationConfig={
        "distillationConfig": {
            "teacherModelConfig": {
                "teacherModelIdentifier": teacher_model,
                "maxResponseLengthForInference": 1000
            }
        }
    }
)

Pra 10k exemplos com Nova Micro, o job completa em algumas horas.

Resultados do benchmark

Avaliação em held-out set de 100 exemplos rotulados pelo Nova Premier, com rubrica customizada OverallQuality (Claude Sonnet como juiz) pontuando acurácia dos pesos e qualidade do reasoning:

Métrica Nova Micro destilado Claude 4.5 Haiku
LLM-as-judge score 4.0 / 5 4.0 / 5
Latência média 833ms 1.741ms
Custo input $0.000035 / 1K tokens $0.80-$1.00 / 1K
Custo output $0.000140 / 1K tokens $4.00-$5.00 / 1K
Formato output JSON consistente Inconsistente

Comparação adicional entre Nova Micro base e destilado mostra que o base não segue o formato direito, retorna JSON incompleto e texto livre. O destilado sempre devolve JSON bem-formado com 4 pesos numéricos somando 1.0.

Diferença de custo de input de $0.000035 pra $0.80-$1.00 por 1K tokens é quase 4 ordens de grandeza. Pra quem roda roteamento em milhões de queries/mês, é a diferença entre operação viável e inviável.

Disponibilidade

Notebook completo, script de geração de training data e utilitários de avaliação no repositório no GitHub. Model Distillation no Bedrock já tá GA, e o Nova Micro destilado roda em on-demand inference nos preços padrão da família Nova.

0

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.
Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.