Buscar · cafecomtech

4 resultados para "inference"

relevância ↓

FERRAMENTAS

NVIDIA

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.

há 5 dias · 2 min#agents

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

PRODUTO

AWS

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

A AWS anunciou o Claude Cowork no Amazon Bedrock: agora dá pra rodar o Cowork e o Claude Code Desktop via Bedrock, direto ou por um LLM gateway. A ideia é estender o Claude além do time de dev e levar pra qualquer knowledge worker da organização, mantendo dados no ambiente AWS do cliente. Billing consumption-based, sem licença por seat da Anthropic.

há cerca de 14 horas · 2 min#llm

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

FERRAMENTAS

AWS

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

A AWS publicou benchmarks mostrando que speculative decoding no Trainium2 com vLLM acelera geração de token em até 3x pra workloads decode-heavy. O combo testado: Qwen3-32B como target, Qwen3-1.7B como draft, num_speculative_tokens=7. Resultado depende muito do tipo de prompt: estruturado ganha até 3x, prompt aberto praticamente empata com baseline.

há 7 dias · 2 min#llm

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

FERRAMENTAS

AWS

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.

há 5 dias · 2 min#llm

O que você procura?

4 resultados para "inference"

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo