Arquivo · cafecomtech

PRODUTO

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.

por mateus v.há 3 dias5 min#jetson#edge_ai

FERRAMENTAS

NVIDIAde olho

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).

por mateus v.há 3 dias6 min#llm#training

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

PESQUISA

NVIDIAde olho

NVIDIA Red Team mostra ataque de injeção indireta via AGENTS.md no OpenAI Codex

O AI Red Team da NVIDIA demonstrou um ataque de supply chain onde uma dependência Go maliciosa reescreve o arquivo AGENTS.md dentro do container do OpenAI Codex. O agente obedece as instruções injetadas, insere um `time.Sleep(5 * time.Minute)` no `main` e esconde a alteração do reviewer no PR. OpenAI avaliou que não eleva risco além do que dependência comprometida já permite, mas o caso abre uma dimensão nova de risco em workflows agênticos.

por mateus v.há 4 dias5 min#agents#coding

Toda a timeline, dia por dia.

segunda-feira · 20 de abr

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

NVIDIA Red Team mostra ataque de injeção indireta via AGENTS.md no OpenAI Codex