Modelos de Embedding🔗
O Serpro LLM avalia constantemente novos modelos de embedding em seu catálogo, à medida que haja demanda em projetos e necessidades específicas. Esta documentação será atualizada conforme novos modelos forem disponibilizados.
Modelos de LLM embedding utilizam representações vetoriais de palavras ou frases (embeddings) para capturar significados semânticos em um espaço de alta dimensão. Modelos embeddings são treinados em grandes quantidades de texto, permitindo que o modelo compreenda contextos e relações entre palavras. Tarefas em que são utilizados incluem tradução automática, análise de sentimentos e recuperação de informações.
sentence-transformers/all-MiniLM-L6-v2 Produção🔗
Os modelos sentence-transformers realizam mapeamento de textos em um hiperespaço de 384 dimensões de forma densa, a partir de textos de até 256 tokens na entrada. O modelo foi testado em tarefas como agrupamento de textos ou busca semântica como codificador de frases e parágrafos curtos. O idioma utilizado no treinamento do modelo é o inglês, com aproximadamente 1B de frases. Mais informações (em inglês) na publicação no Hugging Face.
BAAI/bge-m3 Produção🔗
O modelo BAAI/bge-m3 é um modelo de embeddings desenvolvido pelo Beijing Academy of Artificial Intelligence. Ele suporta uma quantidade de até 8192 tokens na entrada e gera uma saída com vetores de 1024 dimensões. O modelo bge-m3 tem aplicações em várias áreas para fins diversos, podendo extrair funcionalidades dos vetores de embedding de forma densa, esparsa e multivetor. Este modelo é treinado em múltiplos idiomas, proporcionando robustez em tarefas de processamento de linguagem natural em diferentes línguas. Mais informações no Hugging Face.
BAAI/bge-large-en Produção🔗
O modelo bge-large-en, desenvolvido pela BAAI (Beijing Academy of Artificial Intelligence), treinado especificamente no idioma inglês, suporta até 512 tokens na entrada, contendo uma saída de 1024 dimensões. O preenchimento na saída é denso, com todas as posições no vetor de saída são preenchidas com valores contínuos. O modelo ainda conta com uma distribuição de similaridade mais satisfatória, o que garante que as pontuações de similaridade entre os vetores de embeddings sejam bem calibradas e carreguem significados mais abrangentes. Mais informações no Hugging Face.
mixedbread-ai/mxbai-embed-large-v1 Produção🔗
O modelo mxbai-embed-large-v1 é um modelo de embeddings projetado para tarefas de processamento de linguagem natural, desenvolvido pela MixedBread. Ele suporta até 512 tokens de entrada, permitindo o processamento de textos relativamente longos, codificando representações de saída em 1024 dimensões, o que proporciona uma rica captura de significados semânticos.. O modelo é treinado especificamente para o idioma inglês, tornando-o eficaz para aplicações em tarefas de NLP nesse idioma. Mais informações na página do Hugging Face e na página da Mixedbread.
intfloat/multilingual-e5-large Produção🔗
O modelo intfloat/multilingual-e5-large é um modelo de embeddings projetado para processamento de linguagem natural em vários idiomas. Ele suporta até 512 tokens de entrada, e uma dimensão das representações de saída de 1024 valores, oferecendo uma representação semântica detalhada. O treinamento desse modelo foi realizado com uma variedade de fontes (mais de 1B de sentenças, notícias, Wikipedia, foruns no Reddit, etc.), com um ajuste fino posterior em uma variedade de idiomas, proporcionando flexibilidade e robustez em tarefas de NLP multilingues. Mais informações em Hugging Face.
Resumo comparativo entre os modelos🔗
A tabela a seguir mostra as características principais dos modelos, em relação ao tamanho máximo de tokens de entrada, dimensão da saída, idioma treinado, tempo médio de resposta.
| Modelo | Tokens de entrada | Dimensão de saída | Idioma treinado | Tempo médio de resposta (ms)1 |
|---|---|---|---|---|
| sentence-transformers/all-MiniLM-L6-v2 | 256 | 384 | Inglês | 111,68 |
| BAAI/bge-large-en | 512 | 1024 | Inglês | 174,42 |
| BAAI/bge-m3 | 8192 | 1024 | Multilíngue | 190,79 |
| mixedbread-ai/mxbai-embed-large-v1 | 512 | 1024 | Inglês | 173,48 |
| intfloat/multilingual-e5-large | 512 | 1024 | Multilíngue | 148,70 |
-
Determinado por testes RNF realizados pela equipe do SerproLLM. ↩