A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.
Metodologia "valida o benchmark antes do modelo" devia virar default em qualquer idioma, não só árabe. Pra quem monta eval em PT-BR, vale copiar o pipeline: dois LLMs + revisão humana nos casos divergentes pega muita coisa que se ignora.
A equipe da TII (Technology Innovation Institute, dos Emirados) publicou o QIMMA قِمّة ("cume" em árabe), um leaderboard de LLMs focado em árabe que faz algo que quase ninguém faz: auditar o benchmark antes de avaliar o modelo.
A premissa é direta. O número de benchmarks e leaderboards em árabe cresce rápido, só que ninguém para pra perguntar se eles realmente medem o que prometem. O QIMMA aplicou um pipeline de validação de qualidade em cada amostra, de cada benchmark, antes de rodar qualquer modelo. O resultado foi incômodo: até benchmarks amplamente usados têm problemas sistemáticos que corrompem silenciosamente os scores.
São mais de 400 milhões de falantes, com dialetos e contextos culturais bem distintos, e mesmo assim o cenário de avaliação segue fragmentado. Os autores listam quatro dores:
O QIMMA se posiciona como o único a combinar cinco propriedades de uma vez: open source, conteúdo majoritariamente nativo em árabe, validação sistemática de qualidade, avaliação de código e outputs por amostra publicados.
O leaderboard consolida 109 subsets de 14 benchmarks, totalizando mais de 52 mil amostras em 7 domínios:
Dois pontos notáveis: 99% do conteúdo é árabe nativo (a exceção é código, que é agnóstico de linguagem) e é o primeiro leaderboard árabe com avaliação de código, usando versões adaptadas do HumanEval+ e MBPP+ com enunciado em árabe.
Esse é o coração metodológico do QIMMA, e onde vale prestar atenção.
Stage 1 — avaliação automática multi-modelo. Cada amostra foi pontuada independentemente por dois LLMs fortes em árabe mas com composições de treino diferentes: Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B. Rubrica de 10 pontos, score binário por critério. Se qualquer um dos dois dá nota abaixo de 7/10, a amostra é sinalizada. Se ambos concordam em eliminar, sai direto. Se só um sinaliza, vai pra revisão humana.
Stage 2 — revisão humana. Falantes nativos com familiaridade cultural e dialetal revisam os casos sinalizados. Decisões finais sobre contexto cultural, nuance dialetal, interpretação subjetiva e problemas sutis que o automático perde. Pra conteúdo culturalmente sensível, múltiplas perspectivas são consideradas, porque "correto" varia legitimamente entre regiões árabes.
Esse é o tipo de trabalho chato e caro que ninguém quer fazer, e exatamente por isso a maior parte dos leaderboards publica ranking com benchmark sujo.
A taxa de descarte por benchmark (amostras eliminadas por falha de qualidade):
Os problemas caíram em quatro categorias: qualidade da resposta (gold index errado, resposta factualmente errada), texto e formatação (corrupção, erro ortográfico, duplicata), sensibilidade cultural (reforço de estereótipo, generalização monolítica) e compliance do gold answer com o protocolo de avaliação.
Pros benchmarks de código, em vez de descartar, a equipe refinou os enunciados em árabe do 3LM HumanEval+ e MBPP+, mantendo identificadores, soluções de referência e test suites intactos. As taxas de modificação são o destaque real:
Um benchmark com 88% dos enunciados precisando de retrabalho linguístico não é um benchmark pronto — é draft. E isso vinha sendo usado pra ranquear modelos.
As modificações caíram em refinamento linguístico (árabe padrão moderno), clareza de instruções, normalização de consistência, correções estruturais (aspas triplas quebradas, indentação) e refinamentos semânticos (ex: se range é inclusivo ou exclusivo).
Framework: LightEval, EvalPlus e FannOrFlop, escolhidos por consistência, adoção multilíngue e reprodutibilidade.
Métricas por tipo de tarefa:
Prompts padronizados em seis templates, todos em árabe.
Top 10 em abril de 2026 (média geral):
Três leituras dos autores:
Outras observações no conjunto completo de 46 modelos: correlação tamanho-performance existe mas não é perfeita; modelos instruction-tuned batem os base (exceto Qwen3); alguns especialistas árabes pequenos (Fanar-1-9B, ALLaM-7B) superam multilíngues muito maiores em domínios específicos.
☕ gostou dessa?
Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.
☕ comentários · 0