FERRAMENTAS · HUGGING FACE · 21 ABR 2026

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe

A TII (Technology Innovation Institute, de Abu Dhabi) lançou o QIMMA قِمّة, leaderboard de LLMs em árabe que inverte a lógica: valida a qualidade do benchmark ANTES de rodar os modelos. São 109 subsets, 52 mil amostras, 7 domínios e uma descoberta desconfortável — até benchmarks consagrados de árabe têm erros sistemáticos que contaminam ranking.

Mateus Veloso5 min de leituraraiz#open_source#leaderboard#llm

QIMMA: o leaderboard que valida benchmarks antes de avaliar LLMs em árabe foi anunciado em 21 de abril às 10:09, horário de Brasília. fonte original →

por que importa

Metodologia "valida o benchmark antes do modelo" devia virar default em qualquer idioma, não só árabe. Pra quem monta eval em PT-BR, vale copiar o pipeline: dois LLMs + revisão humana nos casos divergentes pega muita coisa que se ignora.

A equipe da TII (Technology Innovation Institute, dos Emirados) publicou o QIMMA قِمّة ("cume" em árabe), um leaderboard de LLMs focado em árabe que faz algo que quase ninguém faz: auditar o benchmark antes de avaliar o modelo.

A premissa é direta. O número de benchmarks e leaderboards em árabe cresce rápido, só que ninguém para pra perguntar se eles realmente medem o que prometem. O QIMMA aplicou um pipeline de validação de qualidade em cada amostra, de cada benchmark, antes de rodar qualquer modelo. O resultado foi incômodo: até benchmarks amplamente usados têm problemas sistemáticos que corrompem silenciosamente os scores.

O problema da avaliação em árabe

São mais de 400 milhões de falantes, com dialetos e contextos culturais bem distintos, e mesmo assim o cenário de avaliação segue fragmentado. Os autores listam quatro dores:

Tradução: muitos benchmarks árabes são traduções do inglês. Pergunta que soa natural em inglês fica esquisita ou culturalmente deslocada em árabe.
Zero validação de qualidade: mesmo benchmarks nativos saem sem checagem rigorosa. Inconsistência de anotação, gold answer errada, erro de encoding, viés cultural nos labels — tudo documentado em recursos consagrados.
Falta de reprodutibilidade: scripts de avaliação e outputs por amostra raramente são públicos.
Cobertura fragmentada: cada leaderboard pega uma fatia isolada.

O QIMMA se posiciona como o único a combinar cinco propriedades de uma vez: open source, conteúdo majoritariamente nativo em árabe, validação sistemática de qualidade, avaliação de código e outputs por amostra publicados.

O que tem dentro

O leaderboard consolida 109 subsets de 14 benchmarks, totalizando mais de 52 mil amostras em 7 domínios:

Cultural: AraDiCE-Culture, ArabCulture, PalmX (MCQ — múltipla escolha)
STEM: ArabicMMLU, GAT, 3LM STEM (MCQ)
Jurídico: ArabLegalQA, MizanQA (MCQ, QA)
Médico: MedArabiQ, MedAraBench (MCQ, QA)
Safety: AraTrust (MCQ)
Poesia e literatura: FannOrFlop (QA)
Coding: 3LM HumanEval+, 3LM MBPP+ (code)

Dois pontos notáveis: 99% do conteúdo é árabe nativo (a exceção é código, que é agnóstico de linguagem) e é o primeiro leaderboard árabe com avaliação de código, usando versões adaptadas do HumanEval+ e MBPP+ com enunciado em árabe.

O pipeline de validação

Esse é o coração metodológico do QIMMA, e onde vale prestar atenção.

Stage 1 — avaliação automática multi-modelo. Cada amostra foi pontuada independentemente por dois LLMs fortes em árabe mas com composições de treino diferentes: Qwen3-235B-A22B-Instruct e DeepSeek-V3-671B. Rubrica de 10 pontos, score binário por critério. Se qualquer um dos dois dá nota abaixo de 7/10, a amostra é sinalizada. Se ambos concordam em eliminar, sai direto. Se só um sinaliza, vai pra revisão humana.

Stage 2 — revisão humana. Falantes nativos com familiaridade cultural e dialetal revisam os casos sinalizados. Decisões finais sobre contexto cultural, nuance dialetal, interpretação subjetiva e problemas sutis que o automático perde. Pra conteúdo culturalmente sensível, múltiplas perspectivas são consideradas, porque "correto" varia legitimamente entre regiões árabes.

Esse é o tipo de trabalho chato e caro que ninguém quer fazer, e exatamente por isso a maior parte dos leaderboards publica ranking com benchmark sujo.

Os números do descarte

A taxa de descarte por benchmark (amostras eliminadas por falha de qualidade):

ArabicMMLU: 436 de 14.163 (3,1%)
MizanQA: 41 de 1.769 (2,3%)
PalmX: 25 de 3.001 (0,8%)
MedAraBench: 33 de 4.960 (0,7%)
FannOrFlop: 43 de 6.984 (0,6%)
ArabCulture: 7 de 3.482 (0,2%)
MedArabiQ: 1 de 499 (0,2%)
GAT, 3LM STEM: ~0%
AraDiCE-Culture, ArabLegalQA, AraTrust: 0%

Os problemas caíram em quatro categorias: qualidade da resposta (gold index errado, resposta factualmente errada), texto e formatação (corrupção, erro ortográfico, duplicata), sensibilidade cultural (reforço de estereótipo, generalização monolítica) e compliance do gold answer com o protocolo de avaliação.

Código: intervenção diferente

Pros benchmarks de código, em vez de descartar, a equipe refinou os enunciados em árabe do 3LM HumanEval+ e MBPP+, mantendo identificadores, soluções de referência e test suites intactos. As taxas de modificação são o destaque real:

3LM HumanEval+: 145 de 164 prompts modificados (88%)
3LM MBPP+: 308 de 378 prompts modificados (81%)

Um benchmark com 88% dos enunciados precisando de retrabalho linguístico não é um benchmark pronto — é draft. E isso vinha sendo usado pra ranquear modelos.

As modificações caíram em refinamento linguístico (árabe padrão moderno), clareza de instruções, normalização de consistência, correções estruturais (aspas triplas quebradas, indentação) e refinamentos semânticos (ex: se range é inclusivo ou exclusivo).

Setup de avaliação

Framework: LightEval, EvalPlus e FannOrFlop, escolhidos por consistência, adoção multilíngue e reprodutibilidade.

Métricas por tipo de tarefa:

MCQ: normalized log-likelihood accuracy
MCQ multi-select: probability mass on gold choices
QA generativa: F1 BERTScore (AraBERT v02)
Code: Pass@1

Prompts padronizados em seis templates, todos em árabe.

Os resultados

Top 10 em abril de 2026 (média geral):

Qwen3.5-397B-A17B-FP8 — 68,06
Karnak (Applied-Innovation-Center) — 66,20
Jais-2-70B-Chat (inceptionai) — 65,81
Qwen2.5-72B-Instruct — 65,75
AIC-1 — 65,37
Qwen3.5-122B-A10B — 64,84
Ultiima-72B — 64,49
Llama-3.3-70B-Instruct — 63,96
Qwen2.5-32B-Instruct — 63,26
AceGPT-v2-32B-Chat — 61,14

Três leituras dos autores:

Tamanho não garante melhor performance. O top 10 vai de 32B a 397B de parâmetros, com modelos médios batendo modelos maiores em domínios específicos.
Modelos especializados em árabe lideram em tarefas culturais e linguísticas. Jais-2-70B-Chat ficou em 1º em ArabicMMLU e ArabCulture; Karnak liderou 3LM STEM e ArabLegalQA.
Código ainda é o ponto fraco dos especialistas em árabe. Os melhores scores em HumanEval+ e MBPP+ vieram de modelos multilíngues, com Qwen3.5-397B liderando os dois.

Outras observações no conjunto completo de 46 modelos: correlação tamanho-performance existe mas não é perfeita; modelos instruction-tuned batem os base (exceto Qwen3); alguns especialistas árabes pequenos (Fanar-1-9B, ALLaM-7B) superam multilíngues muito maiores em domínios específicos.

Recursos

🏆 Leaderboard QIMMA (Hugging Face)
💻 GitHub
📄 Paper (arXiv 2604.03395)

☕ gostou dessa?

Salva pra ler de novo — inclusive offline.

Matérias favoritadas ficam no seu /favoritos e, se você tem o cafecomtech instalado, disponíveis offline — no metrô, no avião, na fila do café.

Offlineguardada no app pra leitura sem internet

Arquivo seunão some quando atualizamos a matéria

Revisitede qualquer dispositivo logado

também pelo 🔖 no header

☕ comentários · 0

Entra pra deixar um comentário. Magic link, sem senha.

Sem comentários ainda. Seja o primeiro.

Mateus Veloso

Tech lead. Mantém o cafecomtech quando não tá debugando sistema em produção.