Ir para o conteúdo

Modelos de Reclassificação🔗

Modelos de reclassificação (reranking) são fundamentais para impulsionar resultados de pesquisa, especialmente para consultas complexas e específicas de domínio, oferecendo resultados mais relevantes e precisos.

Esses modelos podem ser perfeitamente integrados em sistemas de pesquisa existentes, tanto tradicionais baseados em palavras-chave (keywords) como semânticos baseados em representações vetoriais de palavras ou frases (embeddings).

A reclassificação é aplicada após uma primeira etapa de recuperação de informação. Sistemas de pesquisa como Elasticsearch podem ser usados ​​para recuperar os 100 ou mais candidatos principais e, então, os modelos de reclassificação podem ser aplicados no último estágio para colocar os candidatos mais relevantes no topo, aumentando a precisão e a utilidade em aplicações como chatbots e sistemas de recomendação.

BAAI/bge-reranker-v2-m3 Produção🔗

O modelo BAAI/bge-reranker-v2-m3 é um modelo de reclassificação desenvolvido pelo Beijing Academy of Artificial Intelligence (BAAI). Este modelo é treinado em múltiplos idiomas, proporcionando grande precisão e desempenho em tarefas de pesquisa semântica em diferentes línguas. Ele suporta uma quantidade de até 8192 tokens na entrada, mas recomenda-se usar até 1024 tokens devido ao processo de ajuste fino realizado após o treinamento do modelo. Mais informações no Hugging Face.

mixedbread-ai/mxbai-rerank-large-v1 Produção🔗

O modelo mixedbread-ai/mxbai-rerank-large-v1 é um modelo de reclassificação desenvolvido pela Mixedbread. Este modelo é treinado especificamente no idioma inglês, oferecendo grande precisão e desempenho em tarefas de pesquisa semântica para o idioma inglês. Ele suporta uma quantidade de até 512 tokens na entrada. Mais informações na página do HuggingFace e na página da Mixedbread.

Resumo comparativo entre os modelos🔗

A tabela a seguir mostra as características principais dos modelos, em relação ao tamanho máximo de tokens de entrada, idioma treinado e tempo médio de resposta.

Modelo Tokens de entrada Idioma treinado Tempo médio de resposta (ms)1
BAAI/bge-reranker-v2-m3 8192 Multilíngue a definir
mixedbread-ai/mxbai-rerank-large-v1 512 Inglês a definir

  1. Determinado por testes RNF realizados pela equipe do SerproLLM.