busca

O que você procura?

modo

palavras-chave intenção

entende o que você quer. use frases inteiras tipo "quando sai o próximo modelo open source?"

destaquetudo só breaking

empresatodasAnthropicOpenAIGoogleAWSMicrosoftNVIDIAHugging Face

tipotudomodelosprodutopesquisasafetyenterpriseopinião

dataqualquerúltimos 7 diasúltimos 30 dias

1 resultado para "trainium"

relevância ↓

FERRAMENTAS

AWS

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

A AWS publicou benchmarks mostrando que speculative decoding no Trainium2 com vLLM acelera geração de token em até 3x pra workloads decode-heavy. O combo testado: Qwen3-32B como target, Qwen3-1.7B como draft, num_speculative_tokens=7. Resultado depende muito do tipo de prompt: estruturado ganha até 3x, prompt aberto praticamente empata com baseline.

há 7 dias · 2 min#llm

0