Arquivo · cafecomtech

FERRAMENTAS

NVIDIA Dynamo vira agent-native: otimização full-stack pra inferência de agentes de código

A NVIDIA detalhou como o Dynamo tá atacando o gargalo de KV cache em workloads agênticos: padrão write-once-read-many com 85-97% de cache hit em Claude Code, 11.7x de razão leitura/escrita. O post cobre as 3 camadas (frontend multi-protocolo, router KV-aware com priority scheduling, e gerenciamento de cache em 4 tiers) pra fechar a lacuna entre APIs gerenciadas e quem roda modelo open-source em GPU própria.

por mateus v.há 6 dias10 min#agents

PRODUTO

AWSde olho

AWS libera atribuição granular de custo no Bedrock: agora dá pra ver quem gastou o quê

A AWS anunciou atribuição granular de custo pra inferência no Amazon Bedrock. Agora cada chamada é atrelada ao IAM principal que a fez (user, role, identidade federada), e os custos aparecem no AWS Billing, Cost Explorer e CUR 2.0 sem nada pra gerenciar. Com tags opcionais, dá pra agregar gasto por time, projeto ou tenant. Disponível em todas as regiões comerciais, sem custo adicional.

por mateus v.há 6 dias5 min#bedrock#pricing

AWS libera atribuição granular de custo no Bedrock: agora dá pra ver quem gastou o quê

FERRAMENTAS

AWSde olho

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

A AWS publicou um guia mostrando como usar Model Distillation no Amazon Bedrock pra transferir inteligência de roteamento do Nova Premier (teacher) pro Nova Micro (student) numa pipeline de busca semântica de vídeo. Resultado: 95% menos custo de inferência, metade da latência e qualidade de roteamento equivalente ao Claude 4.5 Haiku.

por mateus v.há 6 dias3 min#llm#bedrock

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

PRODUTO

AWS

AWS mostra como montar busca semântica em vídeo com Nova Multimodal Embeddings no Bedrock

A AWS publicou um guia arquitetural pra busca semântica em vídeo usando Nova Multimodal Embeddings no Bedrock. A solução gera embeddings separados pra visual, áudio e transcrição, combina com metadados via busca híbrida e roteia queries por intenção usando Claude Haiku. No benchmark interno, Recall@5 saltou de 51% pra 90% contra o modo combinado padrão.

por mateus v.há 6 dias6 min#embeddings#multimodal

AWS mostra como montar busca semântica em vídeo com Nova Multimodal Embeddings no Bedrock

FERRAMENTAS

NVIDIAde olho

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

A NVIDIA soltou o NemoClaw, stack open-source que orquestra o OpenClaw (gateway self-hosted) e o OpenShell (runtime de segurança) pra rodar agentes autônomos localmente no DGX Spark. Usa Nemotron 3 Super 120B via Ollama, com isolamento de rede e filesystem, aprovação de policy em tempo real e integração com Telegram. Zero dado sai do device.

por mateus v.há 6 dias4 min#agents#open_source

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

NEGÓCIOS

AWS

Como AWS Marketing cortou montagem de página de 4h pra 10min com agente em Amazon Bedrock

O time TAA (Technology, AI, and Analytics) da AWS Marketing trabalhou com a Gradial pra montar uma solução agentic em cima do Amazon Bedrock. Resultado: montagem de página caiu de até 4 horas pra ~10 minutos (redução de 95%). Validação de SEO, acessibilidade e brand passou a rodar durante a criação, via servidor MCP, em vez de depois.

há 6 dias4 min#agents#aws

Como AWS Marketing cortou montagem de página de 4h pra 10min com agente em Amazon Bedrock

FERRAMENTAS

NVIDIA

NVIDIA mostra como acelerar design de reatores nucleares modulares com IA física via PhysicsNeMo

A NVIDIA publicou um guia técnico pra engenheiros nucleares usarem o PhysicsNeMo (framework de AI Physics) no design de reatores modulares pequenos (SMRs) e de Geração IV. A ideia: treinar modelos surrogate baseados em Fourier Neural Operators que preveem o campo de fluxo de nêutrons e a seção de choque macroscópica diretamente da geometria da pin cell, pulando a simulação Monte Carlo cara. Resultado: R² de 0.97 contra 0.80 do baseline de regressão.

por mateus v.há 7 dias4 min#ai_physics#nvidia

NVIDIA mostra como acelerar design de reatores nucleares modulares com IA física via PhysicsNeMo

TECH

Google

7 formas de viajar melhor neste verão com ajuda do Google

O Google juntou num único post as ferramentas que quer empurrar pra temporada de viagem: AI Mode com Canvas montando roteiro, rastreamento de preço de hotel individual, reserva de restaurante via agente, Ask Maps pra explorar destino e Google Wallet com ID digital em aeroporto. Maioria das features é US-only, algumas expandem pra UK, Canadá, Índia e Austrália.

há 7 dias3 min#google_products

7 formas de viajar melhor neste verão com ajuda do Google

PRODUTO

xaide olho

xAI libera APIs standalone de Speech-to-Text e Text-to-Speech do Grok

A xAI anunciou duas APIs de áudio avulsas: Grok Speech to Text (STT) e Grok Text to Speech (TTS). Rodam no mesmo stack que sustenta o Grok Voice, os veículos Tesla e o atendimento ao cliente da Starlink. A jogada abre pra devs o motor de áudio que antes ficava trancado dentro dos produtos do ecossistema Musk.

há 7 dias2 min#voice#api

xAI libera APIs standalone de Speech-to-Text e Text-to-Speech do Grok

FERRAMENTAS

Anthropicde olho

Anthropic lança Claude Design pra criar protótipos, slides e mockups direto no chat

A Anthropic anunciou o Claude Design, novo produto do Anthropic Labs que transforma conversa em design polido: protótipos interativos, wireframes, decks e landing pages. Roda no Claude Opus 4.7, exporta pra Canva, PDF, PPTX ou HTML, e faz handoff direto pro Claude Code. Disponível em research preview pros planos Pro, Max, Team e Enterprise.

por mateus v.há 7 dias4 min#design#tools

Anthropic lança Claude Design pra criar protótipos, slides e mockups direto no chat

PESQUISA

applede olho🇧🇷 BR

Apple leva pesquisa ao ICLR 2026 no Rio: MLX local no M5 Max, MANZANO multimodal e 40+ papers

A Apple desembarca no Rio de Janeiro pra edição 2026 do ICLR (International Conference on Learning Representations), de 23 a 27 de abril, com mais de 40 papers na conferência principal, workshops e duas demos técnicas no estande 204: inferência de LLM local num MacBook Pro M5 Max rodando MLX dentro do Xcode, e o SHARP gerando nuvem de pontos 3D num iPad Pro M5.

por mateus v.há 7 dias4 min#research#deep_learning

Toda a timeline, dia por dia.

sexta-feira · 17 de abr

NVIDIA Dynamo vira agent-native: otimização full-stack pra inferência de agentes de código

AWS libera atribuição granular de custo no Bedrock: agora dá pra ver quem gastou o quê

AWS mostra como destilar Nova Premier em Nova Micro pra cortar 95% do custo de roteamento em busca de vídeo

AWS mostra como montar busca semântica em vídeo com Nova Multimodal Embeddings no Bedrock

NVIDIA lança NemoClaw e OpenClaw pra rodar agente de IA local e sandboxed no DGX Spark

Como AWS Marketing cortou montagem de página de 4h pra 10min com agente em Amazon Bedrock

NVIDIA mostra como acelerar design de reatores nucleares modulares com IA física via PhysicsNeMo

7 formas de viajar melhor neste verão com ajuda do Google

xAI libera APIs standalone de Speech-to-Text e Text-to-Speech do Grok

Anthropic lança Claude Design pra criar protótipos, slides e mockups direto no chat

Apple leva pesquisa ao ICLR 2026 no Rio: MLX local no M5 Max, MANZANO multimodal e 40+ papers