FERRAMENTAS
Hugging Face
QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe
A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.