Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
Asier Arranz (NVIDIA) publicou no Hugging Face um tutorial de VLA (Vision-Language-Action) rodando 100% local num Jetson Orin Nano Super de 8 GB. Stack: Parakeet STT → Gemma 4 → webcam (se precisar) → Kokoro TTS. O modelo decide sozinho quando olhar pela câmera pra responder, sem keyword trigger nem lógica hardcoded. Tudo em um script Python só.
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
Tom Aarsen publicou um guia prático mostrando como fazer finetuning de modelos multimodais de embedding no Sentence Transformers. O exemplo usa Qwen3-VL-Embedding-2B pra Visual Document Retrieval e chega a NDCG@10 de 0.947 contra 0.888 do modelo base, batendo até o Qwen3-VL-Embedding-8B (4x maior). Receita completa: dataset, loss, training args, evaluator e trainer.
IBM Research soltou o VAKRA, benchmark executável com 8.000+ APIs locais em 62 domínios pra medir se agentes de IA dão conta de workflows multi-step de verdade. Spoiler: dão mal. O post abre os 4 tipos de tarefa, o pipeline de avaliação em cascata e análise detalhada de onde modelos como GPT-OSS-120B, Gemini-3-flash-preview e Claude-Sonnet-4-5 quebram.
Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.
Pesquisadores estenderam o framework RLVE de puzzles single-turn pra conversas multi-turn com ferramentas em e-commerce. O EcomRLVE-GYM traz 8 ambientes verificáveis (descoberta de produto, substituição, carrinho, devolução, tracking, QA de política, bundle e jornada multi-intent), cada um com geração procedural, currículo de dificuldade de 12 eixos e rewards checados por código. Treinaram Qwen 3 8B com DAPO em 300 steps.
A Hugging Face publicou uma Skill do Claude Code mais um test harness pra ajudar a portar modelos da biblioteca transformers pro mlx-lm quase na hora em que saem. O post é menos sobre a ferramenta e mais sobre um problema real: agentes de código viraram fábrica de PRs de baixa qualidade em projetos open source grandes, e os mantenedores tão afogados.
A HCompany soltou o HoloTab, extensão gratuita do Chrome que roda em cima do Holo3, o modelo de computer-use da casa lançado em 31 de março. Você descreve a tarefa e o agente navega, clica e preenche campos como se fosse um humano. Tem também o modo Routines: grava uma vez o que você faz, e depois o HoloTab repete sozinho ou em horário agendado.