Buscar · cafecomtech

17 resultados para "llm"

relevância ↓

PRODUTO

AWS

Como os checks de Automated Reasoning no Amazon Bedrock mudam o jogo de compliance em IA generativa

A AWS detalhou como os checks de Automated Reasoning no Amazon Bedrock Guardrails trocam validação probabilística por verificação matemática formal. A ideia: em vez de rodar um LLM-como-juiz avaliando outro LLM, o sistema prova logicamente se a saída bate com as regras definidas. Casos citados vão de Amazon Logistics (revisão de 8h pra minutos) a Lucid Motors com PwC (forecast de semanas pra menos de 1 minuto) e FETG com redução de 80% no setup de regras.

há 6 dias · 2 min#safety

Como os checks de Automated Reasoning no Amazon Bedrock mudam o jogo de compliance em IA generativa

FERRAMENTAS

AWS

ToolSimulator: AWS lança framework pra testar agentes de IA sem chamar API real

A AWS soltou o ToolSimulator, framework dentro do Strands Evals que usa LLM pra simular tool calls de agentes. Em vez de bater em API real (com risco de vazar PII, disparar ações indevidas ou lidar com rate limit), o simulator gera respostas adaptativas, mantém estado entre chamadas e valida schema Pydantic. Disponível hoje via `pip install strands-evals`.

há 1 dia · 2 min#agents

ToolSimulator: AWS lança framework pra testar agentes de IA sem chamar API real

FERRAMENTAS

AWS

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

A AWS publicou benchmarks mostrando que speculative decoding no Trainium2 com vLLM acelera geração de token em até 3x pra workloads decode-heavy. O combo testado: Qwen3-32B como target, Qwen3-1.7B como draft, num_speculative_tokens=7. Resultado depende muito do tipo de prompt: estruturado ganha até 3x, prompt aberto praticamente empata com baseline.

há 7 dias · 2 min#llm

AWS acelera inferência de LLM em até 3x com speculative decoding no Trainium2 e vLLM

PRODUTO

NVIDIA

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.

há 1 dia · 2 min#jetson

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

PESQUISA

Hugging Face

Ecom-RLVE: ambientes verificáveis e adaptativos pra treinar agentes conversacionais de e-commerce

Pesquisadores estenderam o framework RLVE de puzzles single-turn pra conversas multi-turn com ferramentas em e-commerce. O EcomRLVE-GYM traz 8 ambientes verificáveis (descoberta de produto, substituição, carrinho, devolução, tracking, QA de política, bundle e jornada multi-intent), cada um com geração procedural, currículo de dificuldade de 12 eixos e rewards checados por código. Treinaram Qwen 3 8B com DAPO em 300 steps.

há 6 dias · 2 min#agents

Ecom-RLVE: ambientes verificáveis e adaptativos pra treinar agentes conversacionais de e-commerce

PRODUTO

AWS

AWS libera atribuição granular de custo no Bedrock: agora dá pra ver quem gastou o quê

A AWS anunciou atribuição granular de custo pra inferência no Amazon Bedrock. Agora cada chamada é atrelada ao IAM principal que a fez (user, role, identidade federada), e os custos aparecem no AWS Billing, Cost Explorer e CUR 2.0 sem nada pra gerenciar. Com tags opcionais, dá pra agregar gasto por time, projeto ou tenant. Disponível em todas as regiões comerciais, sem custo adicional.

há 4 dias · 2 min#bedrock

AWS libera atribuição granular de custo no Bedrock: agora dá pra ver quem gastou o quê

PRODUTO

AWS

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

A AWS anunciou o Claude Cowork no Amazon Bedrock: agora dá pra rodar o Cowork e o Claude Code Desktop via Bedrock, direto ou por um LLM gateway. A ideia é estender o Claude além do time de dev e levar pra qualquer knowledge worker da organização, mantendo dados no ambiente AWS do cliente. Billing consumption-based, sem licença por seat da Anthropic.

há cerca de 14 horas · 2 min#llm

AWS lança Claude Cowork no Amazon Bedrock pra levar Claude Desktop pra toda a empresa

TECH

Hugging Face

O PR que você teria aberto sozinho: Hugging Face lança Skill pra portar modelos de transformers pro mlx-lm

A Hugging Face publicou uma Skill do Claude Code mais um test harness pra ajudar a portar modelos da biblioteca transformers pro mlx-lm quase na hora em que saem. O post é menos sobre a ferramenta e mais sobre um problema real: agentes de código viraram fábrica de PRs de baixa qualidade em projetos open source grandes, e os mantenedores tão afogados.

há 6 dias · 2 min#open_source

O PR que você teria aberto sozinho: Hugging Face lança Skill pra portar modelos de transformers pro mlx-lm

FERRAMENTAS

NVIDIA

NVIDIA Dynamo vira agent-native: otimização full-stack pra inferência de agentes de código

A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.

há 4 dias · 2 min#agents

NVIDIA Dynamo vira agent-native: otimização full-stack pra inferência de agentes de código

FERRAMENTAS

AWS

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.

há 5 dias · 2 min#llm

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

FERRAMENTAS

NVIDIA

NVIDIA NVbandwidth: ferramenta pra medir performance de interconexão e memória em GPU

A NVIDIA publicou um guia do NVbandwidth, ferramenta CUDA que mede banda e latência de transferência de memória em sistemas com GPU. Suporta testes unidirecionais, bidirecionais, multi-GPU e multi-node, com métodos via copy engine ou kernel SM. Funciona em topologias NVLINK, NVLink C2C e PCIe, e serve pra otimização, validação de hardware e troubleshooting em aplicações CUDA.

há 8 dias · 2 min#coding

NVIDIA NVbandwidth: ferramenta pra medir performance de interconexão e memória em GPU

TECH

Hugging Face

IA e o futuro da cibersegurança: por que abertura importa

Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.

há 1 dia · 2 min#safety

IA e o futuro da cibersegurança: por que abertura importa

PESQUISA

Hugging Face

Por dentro do VAKRA: raciocínio, uso de ferramentas e modos de falha de agentes

IBM Research soltou o VAKRA, benchmark executável com 8.000+ APIs locais em 62 domínios pra medir se agentes de IA dão conta de workflows multi-step de verdade. Spoiler: dão mal. O post abre os 4 tipos de tarefa, o pipeline de avaliação em cascata e análise detalhada de onde modelos como GPT-OSS-120B, Gemini-3-flash-preview e Claude-Sonnet-4-5 quebram.

há 7 dias · 2 min#agents

FERRAMENTAS

AWS

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.

há 1 dia · 2 min#aws

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

PRODUTO

AWS

AWS lança deploys otimizados por caso de uso no SageMaker JumpStart

A AWS liberou os optimized deployments no SageMaker JumpStart: configurações pré-definidas de deploy pra casos de uso específicos como geração de conteúdo, resumo e Q&A. Em vez de só escolher número de usuários simultâneos, agora dá pra otimizar por custo, throughput ou latência. Disponível pra Llama, Mistral, Qwen, Gemma e outros modelos open.

há 8 dias · 2 min#sagemaker

AWS lança deploys otimizados por caso de uso no SageMaker JumpStart

PRODUTO

AWS

Text-to-SQL customizado barato: fine-tune de Nova Micro no Bedrock com inferência on-demand

AWS mostra dois caminhos pra fine-tunar o Amazon Nova Micro em dialeto SQL próprio, com deploy serverless no Bedrock e cobrança por token. No exemplo, 22 mil queries/mês saíram por US$ 0,80 — bem abaixo de rodar um modelo customizado em infra dedicada. Um caminho passa pelo Bedrock gerenciado, outro pelo SageMaker AI com controle fino de hiperparâmetros.

há 6 dias · 2 min#llm

Text-to-SQL customizado barato: fine-tune de Nova Micro no Bedrock com inferência on-demand

FERRAMENTAS

NVIDIA

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.

há 5 dias · 2 min#agents

O que você procura?

17 resultados para "llm"