Arquivo · cafecomtech

PRODUTO

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

A NVIDIA publicou um guia prático pra rodar LLMs e VLMs grandes nos Jetson Orin Nano, Orin NX e Thor sem estourar a RAM unificada. O texto mapeia 5 camadas de otimização — do BSP até quantização — com ganhos medidos de até 10–12 GB. Inclui caso real do Reachy Mini rodando pipeline multimodal completo em 8 GB.

por mateus v.há 3 dias5 min#jetson#edge_ai

FERRAMENTAS

NVIDIAde olho

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

A NVIDIA detalhou uma receita de FP8 ponta a ponta no NeMo RL que acelera treino de RL (Reinforcement Learning) com GRPO em 15-25% nas camadas lineares e até ~48% quando estende pra KV cache e atenção. Testado em Llama 3.1 8B Instruct e Qwen3-30B, bate a acurácia do baseline BF16 usando importance sampling pra fechar o gap numérico entre vLLM (geração) e Megatron Core (treino).

por mateus v.há 3 dias6 min#llm#training

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

FERRAMENTAS

AWSde olhodestaque

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

A AWS anunciou a disponibilidade das instâncias G7e no Amazon SageMaker AI, equipadas com GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Cada GPU tem 96 GB de GDDR7, dá pra rodar modelos de 35B num único node (g7e.2xlarge) e chegar a 300B num 8-GPU. Benchmark com Qwen3-32B mostra custo de US$ 0,79 por milhão de tokens de saída, 2,6x mais barato que G6e. Com EAGLE speculative decoding, cai pra US$ 0,41.

por mateus v.há 3 dias6 min#aws#infrastructure

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

FERRAMENTAS

AWSde olho

ToolSimulator: AWS lança framework pra testar agentes de IA sem chamar API real

A AWS soltou o ToolSimulator, framework dentro do Strands Evals que usa LLM pra simular tool calls de agentes. Em vez de bater em API real (com risco de vazar PII, disparar ações indevidas ou lidar com rate limit), o simulator gera respostas adaptativas, mantém estado entre chamadas e valida schema Pydantic. Disponível hoje via `pip install strands-evals`.

por mateus v.há 3 dias4 min#agents#tool_testing

ToolSimulator: AWS lança framework pra testar agentes de IA sem chamar API real

PESQUISA

NVIDIAde olho

NVIDIA Red Team mostra ataque de injeção indireta via AGENTS.md no OpenAI Codex

O AI Red Team da NVIDIA demonstrou um ataque de supply chain onde uma dependência Go maliciosa reescreve o arquivo AGENTS.md dentro do container do OpenAI Codex. O agente obedece as instruções injetadas, insere um `time.Sleep(5 * time.Minute)` no `main` e esconde a alteração do reviewer no PR. OpenAI avaliou que não eleva risco além do que dependência comprometida já permite, mas o caso abre uma dimensão nova de risco em workflows agênticos.

por mateus v.há 3 dias5 min#agents#coding

NVIDIA Red Team mostra ataque de injeção indireta via AGENTS.md no OpenAI Codex

FERRAMENTAS

AWS

AWS mostra como montar pedido por voz omnichannel com Bedrock AgentCore e Nova 2 Sonic

A AWS publicou um guia completo pra montar sistema de pedidos por voz multi-canal usando Bedrock AgentCore (plataforma pra rodar agentes de IA com isolamento em microVM) e Nova 2 Sonic, o modelo speech-to-speech da casa. Tem código no GitHub, deploy via CDK e arquitetura separada em frontend, agente e backend. Voz conversa com Lambda, DynamoDB e Location Services via MCP.

por mateus v.há 4 dias3 min#agents#bedrock

AWS mostra como montar pedido por voz omnichannel com Bedrock AgentCore e Nova 2 Sonic

NEGÓCIOS

OpenAIteatro

Hyatt rola ChatGPT Enterprise pra todo mundo da empresa, com GPT-5.4 e Codex

A Hyatt liberou ChatGPT Enterprise pra força de trabalho global, usando GPT-5.4 e Codex. A OpenAI posiciona o caso como ganho em produtividade, operação interna e experiência de hóspede. Mais um contrato grande de rede hoteleira entrando no catálogo Enterprise da OpenAI, sem número de licença divulgado.

há 4 dias2 min#llm#enterprise

Hyatt rola ChatGPT Enterprise pra todo mundo da empresa, com GPT-5.4 e Codex

PESQUISA

apple

O que seus logits sabem? (A resposta pode te surpreender)

Pesquisa da Apple mostra que probing (sondagem) nos internos de modelos de visão-linguagem vaza informação que o dono do modelo achava inacessível. Em alguns casos, os top-k logits finais entregam tanto quanto projeções diretas do residual stream completo. Implicação prática: mesmo quem só expõe logits via API pode estar liberando dados irrelevantes pra tarefa que estavam na query original.

há 4 dias2 min#vision#safety

Toda a timeline, dia por dia.

segunda-feira · 20 de abr

Como espremer memória no NVIDIA Jetson pra rodar modelos maiores na borda

NVIDIA NeMo RL agora roda treino de Reinforcement Learning com FP8 ponta a ponta

AWS libera G7e no SageMaker AI com GPU Blackwell RTX PRO 6000 e corta custo de inferência em até 2,6x

ToolSimulator: AWS lança framework pra testar agentes de IA sem chamar API real

NVIDIA Red Team mostra ataque de injeção indireta via AGENTS.md no OpenAI Codex

AWS mostra como montar pedido por voz omnichannel com Bedrock AgentCore e Nova 2 Sonic

Hyatt rola ChatGPT Enterprise pra todo mundo da empresa, com GPT-5.4 e Codex

O que seus logits sabem? (A resposta pode te surpreender)