Buscar · cafecomtech

4 resultados para "fine_tuning"

relevância ↓

PRODUTO

Microsoft

Microsoft Foundry Fine-Tuning em abril de 2026: Global Training pro o4-mini, novos graders GPT-4.1 e guia de RFT

Microsoft empurrou três atualizações de Reinforcement Fine-Tuning no Foundry: Global Training pro o4-mini em 13+ regiões Azure com preço menor por token, GPT-4.1/mini/nano liberados como model graders e um guia consolidado de boas práticas. Foco claro em baratear RFT e dar mais flexibilidade pra quem avalia saídas open-ended.

há 6 dias · 2 min#llm

Microsoft Foundry Fine-Tuning em abril de 2026: Global Training pro o4-mini, novos graders GPT-4.1 e guia de RFT

FERRAMENTAS

NVIDIA

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).

há 1 dia · 2 min#llm

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

FERRAMENTAS

AWS

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.

há 5 dias · 2 min#llm

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

PESQUISA

Hugging Face

Ecom-RLVE: ambientes verificáveis e adaptativos pra treinar agentes conversacionais de e-commerce

Pesquisadores estenderam o framework RLVE de puzzles single-turn pra conversas multi-turn com ferramentas em e-commerce. O EcomRLVE-GYM traz 8 ambientes verificáveis (descoberta de produto, substituição, carrinho, devolução, tracking, QA de política, bundle e jornada multi-intent), cada um com geração procedural, currículo de dificuldade de 12 eixos e rewards checados por código. Treinaram Qwen 3 8B com DAPO em 300 steps.

há 6 dias · 2 min#agents

O que você procura?

4 resultados para "fine_tuning"

Microsoft Foundry Fine-Tuning em abril de 2026: Global Training pro o4-mini, novos graders GPT-4.1 e guia de RFT

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

Ecom-RLVE: ambientes verificáveis e adaptativos pra treinar agentes conversacionais de e-commerce