Navega pelo calendário ou filtra por período / empresa. A gente nunca apaga.
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
Hugging Face publica artigo assinado por Margaret Mitchell, Yacine Jernite e Clem Delangue discutindo o impacto do Mythos e do Project Glasswing na cibersegurança. A tese: não é o modelo sozinho que encontra e corrige vulnerabilidades, é o sistema inteiro em volta dele. E ecossistemas abertos têm vantagem estrutural contra atacantes.