Buscar · cafecomtech

10 resultados para "modelo que roda em 1 GPU"

relevância ↓

FERRAMENTAS

AWS

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.

há 1 dia · 2 min#aws

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

FERRAMENTAS

NVIDIA

NVIDIA Dynamo vira agent-native: otimização full-stack pra inferência de agentes de código

A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.

há 4 dias · 2 min#agents

FERRAMENTAS

NVIDIA

NVIDIA lança ALCHEMI Toolkit pra montar simulações atomísticas customizadas em GPU

A NVIDIA apresentou o ALCHEMI Toolkit, conjunto de blocos GPU-native pra simulação atomística em química e ciência dos materiais. Roda PyTorch, integra com MACE, TensorNet e AIMNet2, e deixa montar workflows batched de dinâmica molecular e relaxação geométrica. Parceiros como Orbital, MatGL e Matlantis já tão adotando, com speedups de até 33x em sistemas pequenos batched.

há 8 dias · 2 min#open_source

FERRAMENTAS

NVIDIA

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).

há 1 dia · 2 min#llm

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

PRODUTO

AWS

Text-to-SQL customizado barato: fine-tune de Nova Micro no Bedrock com inferência on-demand

AWS mostra dois caminhos pra fine-tunar o Amazon Nova Micro em dialeto SQL próprio, com deploy serverless no Bedrock e cobrança por token. No exemplo, 22 mil queries/mês saíram por US$ 0,80 — bem abaixo de rodar um modelo customizado em infra dedicada. Um caminho passa pelo Bedrock gerenciado, outro pelo SageMaker AI com controle fino de hiperparâmetros.

há 6 dias · 2 min#llm

Text-to-SQL customizado barato: fine-tune de Nova Micro no Bedrock com inferência on-demand

FERRAMENTAS

NVIDIA

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.

há 5 dias · 2 min#agents

FERRAMENTAS

NVIDIA

NVIDIA NVbandwidth: ferramenta pra medir performance de interconexão e memória em GPU

A NVIDIA publicou um guia do NVbandwidth, ferramenta CUDA que mede banda e latência de transferência de memória em sistemas com GPU. Suporta testes unidirecionais, bidirecionais, multi-GPU e multi-node, com métodos via copy engine ou kernel SM. Funciona em topologias NVLINK, NVLink C2C e PCIe, e serve pra otimização, validação de hardware e troubleshooting em aplicações CUDA.

há 8 dias · 2 min#coding

MODELOS

NVIDIA

NVIDIA lança Ising, primeira família de modelos abertos de IA pra construir computadores quânticos tolerantes a falhas

A NVIDIA jogou o Ising, primeira família aberta de modelos de IA pra processadores quânticos. Vem em dois domínios: Ising Calibration (VLM de 35B parâmetros pra calibrar QPU) e Ising Decoding (CNNs 3D pra correção de erro em tempo real). O modelo de calibração bate Gemini 3.1 Pro, Claude Opus 4.6 e GPT 5.4 no novo benchmark QCalEval. Pesos, datasets e framework de treino abertos no Hugging Face.

há 8 dias · 2 min#llm

PRODUTO

NVIDIA

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.

há 1 dia · 2 min#jetson

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

FERRAMENTAS

Hugging Face

Como treinar e fazer finetuning de embeddings multimodais e rerankers com Sentence Transformers

Tom Aarsen publicou um guia prático mostrando como fazer finetuning de modelos multimodais de embedding no Sentence Transformers. O exemplo usa Qwen3-VL-Embedding-2B pra Visual Document Retrieval e chega a NDCG@10 de 0.947 contra 0.888 do modelo base, batendo até o Qwen3-VL-Embedding-8B (4x maior). Receita completa: dataset, loss, training args, evaluator e trainer.

há 6 dias · 2 min#multimodal

O que você procura?

10 resultados para "modelo que roda em 1 GPU"