Modelos de Reclassificação🔗
Modelos de reclassificação (reranking) são fundamentais para impulsionar resultados de pesquisa, especialmente para consultas complexas e específicas de domínio, oferecendo resultados mais relevantes e precisos.
Esses modelos podem ser perfeitamente integrados em sistemas de pesquisa existentes, tanto tradicionais baseados em palavras-chave (keywords) como semânticos baseados em representações vetoriais de palavras ou frases (embeddings).
A reclassificação é aplicada após uma primeira etapa de recuperação de informação. Sistemas de pesquisa como Elasticsearch podem ser usados para recuperar os 100 ou mais candidatos principais e, então, os modelos de reclassificação podem ser aplicados no último estágio para colocar os candidatos mais relevantes no topo, aumentando a precisão e a utilidade em aplicações como chatbots e sistemas de recomendação.
BAAI/bge-reranker-v2-m3 Produção🔗
O modelo BAAI/bge-reranker-v2-m3 é um modelo de reclassificação desenvolvido pelo Beijing Academy of Artificial Intelligence (BAAI). Este modelo é treinado em múltiplos idiomas, proporcionando grande precisão e desempenho em tarefas de pesquisa semântica em diferentes línguas. Ele suporta uma quantidade de até 8192 tokens na entrada, mas recomenda-se usar até 1024 tokens devido ao processo de ajuste fino realizado após o treinamento do modelo. Mais informações no Hugging Face.
mixedbread-ai/mxbai-rerank-large-v1 Produção🔗
O modelo mixedbread-ai/mxbai-rerank-large-v1 é um modelo de reclassificação desenvolvido pela Mixedbread. Este modelo é treinado especificamente no idioma inglês, oferecendo grande precisão e desempenho em tarefas de pesquisa semântica para o idioma inglês. Ele suporta uma quantidade de até 512 tokens na entrada. Mais informações na página do HuggingFace e na página da Mixedbread.
Resumo comparativo entre os modelos🔗
A tabela a seguir mostra as características principais dos modelos, em relação ao tamanho máximo de tokens de entrada, idioma treinado e tempo médio de resposta.
| Modelo | Tokens de entrada | Idioma treinado | Tempo médio de resposta (ms)1 |
|---|---|---|---|
| BAAI/bge-reranker-v2-m3 | 8192 | Multilíngue | a definir |
| mixedbread-ai/mxbai-rerank-large-v1 | 512 | Inglês | a definir |
-
Determinado por testes RNF realizados pela equipe do SerproLLM. ↩