Benchmarks🔗

Introdução🔗

Os modelos do SerproLLM foram submetidos a avaliações de benchmarking cujo objetivo é atestar a capacidade do modelo em fornecer respostas em um conjunto de tarefas com prompts e perguntas relevantes para os projetos do Serpro. As avaliações de benchmarking conduzidas até o presente momento contemplam temas que abordam contexto brasileiro (conhecimentos gerais, legislação, proposições e hipóteses em português) e tarefas de programação. Os benchmarks especializados em português brasileiro (PT-BR) foram executados utilizando a ferramenta lm-eval-harness-pt, já o benchmark especializado em escrita de código foram executados com a ferramenta lm-eval-harness.

Resumo dos Resultados🔗

As tabelas a seguir mostra um comparativo dos modelos quanto às tarefas executadas e suas métricas. Algumas tarefas possuem duas métricas. Os detalhes sobre os resultados para cada tarefa estão descritos mais adiante nesta página.

Benchmarks especializados no idioma PT-BR🔗

Modelo	Enem	BlueX	HateBR		TweetSentBR		ASSIN2 STS		ASSIN2 RTE		OAB
Modelo	Acurácia	Acurácia	F1 Macro	Acurácia	F1 Macro	Acurácia	Pearson	EMQ	F1 Macro	Acurácia	Acurácia
DeepSeek R1 Distill Qwen 14B	0.8614	0.8122	0.3819	0.2692	0.6053	0.5796	0.7426	0.6177	0.8373	0.7875	0.5325
Devstrall Small	0.8117	0.7371	0.8399	0.8428	0.7234	0.7552	0.7883	0.5255	0.9350	0.9350	0.6888
Gemma 3 4B	0.6333	0.5215	0.8413	0.8428	0.6672	0.7169	0.7175	0.6660	0.9022	0.9023	0.4405
Gemma 3 12B	0.7634	0.6620	0.8626	0.8642	0.7380	0.7636	0.8329	0.3661	0.9390	0.9391	0.5644
Gemma 3n E4B	0.7291	0.6008	0.7702	0.7800	0.7329	0.7567	0.8208	0.4733	0.9272	0.9272	0.5234
GPT OSS 120B	0.9202	0.8817	0.8420	0.8071	0.7236	0.7582	0.7843	0.5821	0.9431	0.9424	0.6246
LLaMa 3.1 8B	0.7067	0.5883	0.8638	0.8642	0.6309	0.7064	0.7682	0.5121	0.9260	0.9260	0.5179
Magistral Small	0.8124	0.7301	0.8967	0.8971	0.7298	0.7507	0.7540	0.5672	0.9303	0.9305	0.6592
Mistral Small 3.2	0.8222	0.7552	0.8769	0.8778	0.7030	0.7452	0.7673	0.6157	0.9316	0.9317	0.6984
Pixtral 12B	0.7438	0.6425	0.8893	0.89	0.6755	0.7203	0.7611	0.5881	0.9284	0.9285	0.5330
Qwen 3 32B	0.9349	0.9082	0.9018	0.9021	0.7238	0.7562	0.7781	0.5624	0.9350	0.9350	0.6241

Benchmarks especializados em codificação🔗

Modelo	HumanEval
Modelo	Pass@1
DeepSeek R1 Distill Qwen 14B	0.7865
Devstrall Small	0.8170
Gemma 3 4B	0.6524
Gemma 3 12B	0.8353
Gemma 3n E4B	0.7439
GPT OSS 120B	0.71 *
LLaMa 3.1 8B	0.7073
Magistral Small	0.8414
Mistral Small 3.2	0.8719
Pixtral 12B	0.7012
Qwen 3 32B	0.8658

* Valor apurado em um estudo de benchmarking (em inglês) do modelo GPT-OSS conduzido por terceiros.

Métricas avaliadas:

Acurácia: Consiste em comparar a exatidão dos resultados previstos com os resultados reais. Valores entre 0,0 e 1,0 (Melhor = Maior);
F1 Macro: Pontuação que combina quantos casos ele acertou e errou (precisão) e quantos casos relevantes ele encontrou (cobertura). Valores entre 0,0 e 1,0 (Melhor = Maior);
Pearson: Coeficiente de correlação linear entre duas séries de dados. Valores entre 0,0 e 1,0 (Melhor = Maior);
Erro Médio Quadrático (EMQ) | Média aritimética dos erros numéricos das previsões elevados ao quadrado. Valores acima de 0,0 (Melhor = Menor);
Pass@1: Coeficiente que mede a probabilidade de que a primeira recomendação ou resultado seja correto ou relevante. Valores entre 0,0 e 1,0 (Melhor = Maior);

Descrição dos benchmarks🔗

Benchmarks especializados no idioma PT-BR🔗

Enem: Avaliação de conhecimentos gerais do modelo sobre conhecimentos gerais através de perguntas do Exame Nacional do Ensino Médio (ENEM) em um formato de múltipla escolha (A, B, C, D ou E). Este benchmark foi criado para fomentar e avaliar o desenvolvimento de técnicas de IA que se saiam bem em tarefas cognitivas complexas não projetadas especificamente para sistemas de IA, como compreensão de texto, raciocínio de senso comum e pensamento matemático. O objetivo é que um "aluno digital" seja aceito em uma universidade brasileira.
BlueX: Avaliação de interpretação e extração de informação de textos em português , usando as principais provas de vestibular do Brasil: Fuvest (USP) e Comvest (Unicamp), de 2018 a 2024. O conjunto de dados consiste em 1260 questões, sendo 724 somente de texto, preenchendo uma lacuna de recursos abertos para avaliação de LLMs em português.
HateBR: Verifica a capacidade do LLM em detectar discurso de ódio e linguagem ofensiva em comentários do Instagram em português brasileiro. O benchmark é composto por 7.000 comentários, com anotações de especialistas em três camadas: classificação binária (ofensivo vs. não ofensivo), nível de ofensividade (alto, moderado e baixo) e alvos do discurso de ódio. O objetivo é fomentar a pesquisa na área de processamento de linguagem natural no Brasil.
TweetSentBR: Análise de sentimento de postagens em português brasileiro no X (antigo Twitter). O conjunto de dados foi rotulado por especialistas em três categorias: positiva, negativa ou neutra, de acordo com a reação ou avaliação do usuário em relação ao tópico principal do tweet. Ele foi criado seguindo metodologias da literatura para garantir alta confiabilidade na tarefa.
ASSIN2_rte: Avaliação da capacidade do modelo de linguagem em reconhecer vínculo textual entre premissas e hipóteses. Este benchmark está baseado no conjunto de dados ASSIN2, composto por 7.000 pares de sentenças em português do Brasil, neste benchmark anotados para inferência. As classes de inferência para o reconhecimento de vínculo (entailment) são entailment e none.
ASSIN2_sts: Avaliação de similaridade textual e semântica entre frases em português brasileiro, com objetivo de avaliar a capacidade do modelo de determinar a equivalência semântica entre elas. Está baseado no conjunto de dados ASSIN2, composto por 7.000 pares de sentenças em português brasileiro, neste benchmark anotados para similaridade semântica. As classes de similaridade vão de 1 a 5.
OAB: Avaliação da capacidade do modelo de linguagem em responder a perguntas no contexto jurídico tiradas de provas do exame da ordem de advogados do Brasil. O conjunto de dados utilizado contém perguntas de múltipla escolha e o benchmark avalia o conhecimento geral e o raciocínio do modelo.

Benchmark especialiado em codificação🔗

HumanEval: Conjunto de 164 problemas de programação em Python com enunciado e testes automatizados para verificar a correção do código gerado. O objetivo é medir a habilidade do modelo em compreender requisitos, gerar código funcional e aplicar lógica de programação. Este benchmark é um padrão para avaliar modelos em programação assistida por IA, cobrindo desde estruturas básicas até algoritmos complexos.