Arquivo · cafecomtech

FERRAMENTAS

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.

por mateus v.há 3 dias5 min#open_source

Toda a timeline, dia por dia.

terça-feira · 21 de abr

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

IA e o futuro da cibersegurança: por que abertura importa