Modelos de Linguagem🔗

Em breve o Serpro LLM ofertará novos modelos em seu catálogo, permitindo que sejam explorados os pontos fortes de cada um deles, conforme a necessidade dos projetos interessados.

Idioma Inglês

É importante ressaltar que, apesar de alguns modelos apresentarem boas respostas em Português quando solicitados, é comum esbarrar em textos gerados em inglês, já que grande parte dos textos utilizados nesses treinamentos ocorre neste idioma.

Complexidade vs Velocidade dos Modelos

Modelos maiores, treinados com uma maior quantidade de parâmetros, captam mais nuances da linguagem e por isso se mostram mais precisos para algumas atividades. Porém eles são mais lentos!

Para uma requisição isolada isso pode não fazer a diferença, mas em processamento em lote periódico de milhões de documentos, ou até mesmo em um assistente virtual com alta volume de acessos online, um tempo de resposta muito alto pode ser muito desinteressante.

Avalie sempre se um modelo menor e mais rápido já não oferece um resultado suficiente para sua necessidade!

DeepSeek R1 Distill Qwen 14B Produção Experimentação🔗

O DeepSeek-R1 Distill Qwen 14B é uma variante reduzida do modelo original DeepSeek R1, desenvolvido pela empresa chinesa de mesmo nome, que oferece um equilíbrio entre desempenho e viabilidade operacional. Esta versão é devivada dos modelos da série Qwen2.5-14B, originalmente licenciados sob a licença Apache 2.0, tendo sido ajustada com 800 mil amostras curadas com DeepSeek-R1.

Uma de suas características diferenciais é a capacidade de explicar o raciocínio por trás de suas respostas, fornecendo insights sobre como chegou à determinada conclusão, o que permite oferecer respostas mais claras e abrangentes para problemas complexos. Ele possui uma janela de contexto de 128 mil tokens e é composto por 14 bilhões de parâmetros.

Esta versão utiliza a licença Apache 2.0. Para mais detalhes (em inglês), consulte os links: HuggingFace, e GitHub.

Devstral Small Experimentação🔗

O Devstral é um LLM agêntico para tarefas de engenharia de software, desenvolvido em uma colaboração entre a Mistral AI e a All Hands AI. O Devstral se destaca no uso de ferramentas para explorar bases de código, editar múltiplos arquivos e potencializar agentes de engenharia de software.

Ele passou por um ajuste fino a partir do Mistral-Small-3.1, portanto, possui uma longa janela de contexto de até 64k tokens, devido a limitações do ambiente de experimentação. Como um agente de codificação, o Devstral é exclusivamente de texto e, antes do ajuste fino a partir do Mistral-Small-3.1, o codificador de visão foi removido.

O Devstral Small é uma versão reduzida do Devstral, com 1 bilhão de parâmetros e uma janela de contexto de 8K tokens. Ele é treinado em múltiplos idiomas, incluindo inglês, espanhol, francês, alemão, italiano, português e outros.

A licença de uso do Devstral Small é a Apache 2.0. Mais informações [em inglês] no HuggingFace e na página da Mistral.

Gemma 3 4B Experimentação🔗

O Gemma 3 4B é um modelo de linguagem da família Gemma, desenvolvida pela Google, que introduz capacidade multimodal de processar imagens e textos na entrada, gerando saída textual. O Gemma 3-4B possui 4 bilhões de parâmetros, garantindo um equilíbrio entre poder de processamento e eficiência de recursos. Também possui uma janela de contexto de 128K tokens e processa conteúdo em até 140 idiomas.

A licença de uso de modelos abertos da Google é fornecida pela própria Google. Mais informações sobre o modelo, incluindo detalhes técnicos, podem ser encontrados na ficha técnica de dados do modelo na Google e no Hugging Face (em inglês).

Gemma 3 12B Produção🔗

O Gemma 3 12B é um modelo de linguagem da família Gemma, desenvolvida pela Google, que introduz capacidade multimodal de processar imagens e textos na entrada, gerando saída textual. O Gemma 3-12B possui 12 bilhões de parâmetros, garantindo um equilíbrio entre poder de processamento e eficiência de recursos. Também possui uma janela de contexto de 128K tokens e processa conteúdo em até 140 idiomas.

A licença de uso de modelos abertos da Google é fornecida pela própria Google. Mais informações sobre o modelo, incluindo detalhes técnicos, podem ser encontrados na ficha técnica de dados do modelo na Google e no Hugging Face (em inglês).

GPT-OSS 120B Produção Experimentação🔗

O GPT-OSS 120B é um modelo de linguagem de código aberto projetado para ser altamente personalizável e eficiente. Com 120 bilhões de parâmetros, ele oferece capacidades avançadas de raciocínio e funcionalidades agênticas, como chamada de função e execução de código. Uma de suas principais características é a licença permissiva Apache 2.0, que permite seu uso irrestrito em ambientes comerciais e de pesquisa. O modelo também é otimizado para rodar em hardware acessível, graças à quantização MXFP4, e fornece transparência total em seu processo de tomada de decisão através da cadeia de pensamento completa.

Principais características:

Licença permissiva Apache 2.0: Construa livremente sem restrições de copyleft ou risco de patente — ideal para experimentação, personalização e implantação comercial.
Esforço de raciocínio configurável: Ajuste facilmente o esforço de raciocínio (baixo, médio, alto) com base no seu caso de uso específico e nas necessidades de latência.
Cadeia de pensamento completa: Obtenha acesso completo ao processo de raciocínio do modelo, facilitando a depuração e aumentando a confiança nas saídas. Não se destina a ser mostrado aos usuários finais.
Ajustável (Fine-tunable): Personalize totalmente os modelos para o seu caso de uso específico por meio de ajuste fino de parâmetros.
Capacidades agênticas: Use as capacidades nativas dos modelos para chamada de função, navegação na web, execução de código Python e saídas estruturadas.
Quantização MXFP4: Os modelos foram pós-treinados com quantização MXFP4 dos pesos MoE, fazendo com que o gpt-oss-120b funcione em uma única GPU de 80GB (como NVIDIA H100 ou AMD MI300X) e o modelo gpt-oss-20b funcione com 16GB de memória. Todas as avaliações foram realizadas com a mesma quantização MXFP4.

LLaMa 3.1 8B Experimentação🔗

O Meta-Llama-3.1-8B é um modelo de linguagem com uma janela de contexto de 8K tokens, permitindo a análise de textos extensos. Ele possui 8 bilhões de parâmetros, oferecendo um bom equilíbrio entre desempenho e eficiência. A base de treinamento consiste em cerca de 2 trilhões de tokens, abrangendo uma vasta quantidade de dados textuais. O modelo é treinado em múltiplos idiomas, incluindo inglês e outros idiomas amplamente utilizados.

A licença para o Meta-Llama-3.1-8B é da própria Meta, permitindo seu uso e adaptação em diversas aplicações, dependendo dos termos específicos estipulados pela Meta. Mais informações [em inglês] no HuggingFace.

Magistral Small Experimentação🔗

Construído a partir do Mistral Small 3.1 (2503), com capacidades de raciocínio adicionadas, submetido a SFT (Ajuste Fino Supervisionado) a partir de traços do Magistral Medium e RL (Aprendizado por Reforço) adicional, é um modelo de raciocínio pequeno e eficiente com 24B de parâmetros.

Principais Características:

Raciocínio: Capaz de longas cadeias de traços de raciocínio antes de fornecer uma resposta.
Multilíngue: Suporta dezenas de idiomas, incluindo inglês, francês, alemão, grego, hindi, indonésio, italiano, japonês, coreano, malaio, nepalês, polonês, português, romeno, russo, sérvio, espanhol, turco, ucraniano, vietnamita, árabe, bengali, chinês e farsi.
Licença Apache 2.0: Licença aberta que permite o uso e modificação para fins comerciais e não comerciais.
Janela de Contexto: Uma janela de contexto de 64k, mas o desempenho pode degradar após 40k. Portanto, recomendamos definir o comprimento máximo do modelo para 40k.

Mistral Small 3.2 24B Instruct Produção Experimentação🔗

Construído a partir do Mistral Small 3.1, o Mistral Small 3.2 adiciona compreensão de visão de última geração e aprimora as capacidades de contexto longo de até 64k tokens, devido a limitações do ambiente de experimentação, sem comprometer o desempenho de texto. Com 24 bilhões de parâmetros, este modelo alcança capacidades de ponta tanto em tarefas de texto quanto de visão.

Este modelo é uma pequena atualização do Mistral-Small-3.1-24B-Instruct-2503.

Principais Características:

Visão: As capacidades de visão permitem que o modelo analise imagens e forneça insights com base no conteúdo visual, além do texto.
Multilíngue: Suporta dezenas de idiomas, incluindo inglês, francês, alemão, grego, hindi, indonésio, italiano, japonês, coreano, malaio, nepalês, polonês, português, romeno, russo, sérvio, espanhol, sueco, turco, ucraniano, vietnamita, árabe, bengali, chinês e farsi.
Foco em Agente: Oferece as melhores capacidades agênticas da categoria, com chamada de função nativa e saída em JSON.
Raciocínio Avançado: Capacidades de conversação e raciocínio de última geração.
Licença Apache 2.0: Licença aberta que permite o uso e a modificação para fins comerciais e não comerciais.
Janela de Contexto: Uma janela de contexto de 128k.
Prompt de Sistema: Mantém forte aderência e suporte para prompts de sistema.
Tokenizador: Utiliza um tokenizador Tekken com um vocabulário de 131k.

Pixtral 12B Experimentação🔗

O Pixtral 12B, desenvolvido pela Mistral AI, é um modelo multimodal capacitado para processar arquivos de imagem. O pixtral 12B processa imagens e texto na entrada, porém a saída é apenas textual. Possui uma janela de contexto aproximada de 72K tokens e conta com 12 bilhões de parâmetros. Conta com um codificiador de visão computacional com 400 milhões de parâmetros.

O treinamento foi realizado em vários idiomas e sua licença de uso é a Apache 2.0. Mais informações [em inglês] na página da Mistral e no HuggingFace.

Limitação

O modelo Pixtral-12B suporta arquivos de imagem de até 1 Mpixel (1024x1024 pixels).

Qwen3 32B Experimentação🔗

O Qwen3 32B, desenvolvido pela Qwen AI, é um modelo multimodal capacitado para processar arquivos de imagem. O Qwen3 32B processa imagens e texto na entrada, porém a saída é apenas textual. Possui uma janela de contexto aproximada de 128K tokens e conta com 32 bilhões de parâmetros. Conta com um codificiador de visão computacional com 800 milhões de parâmetros.

O treinamento foi realizado em vários idiomas e sua licença de uso é a Apache 2.0. Mais informações [em inglês] na página da Qwen e no HuggingFace.

Comparativo entre os modelos🔗

A decisão de qual modelo utilizar vai depender da aplicação desejada, pois cada modelo possui sua especialidade. Também devem ser considerados os requisitos não funcionais, como consumo de recursos, segurança, exatidão e generalização dos resultados.

A tabela a seguir mostra um comparativo entre os modelos quando aos recursos ofertados. Informações mais detalhadas podem ser visualizadas nos cards dos modelos nas suas respectivas páginas no HuggingFace, incluídas na tabela.

Carregando dados...