Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


A geração aumentada de recuperação (RAG) tornou-se um método popular para fundamentar grandes modelos de linguagem (LLMs) em conhecimento externo. Os sistemas RAG normalmente usam um modelo de incorporação para codificar documentos em um corpus de conhecimento e selecionar aqueles que são mais relevantes para a consulta do usuário.

No entanto, os métodos de recuperação padrão muitas vezes não levam em conta detalhes específicos do contexto que podem fazer uma grande diferença em conjuntos de dados específicos de aplicativos. Em um novo artigo, pesquisadores da Universidade Cornell apresentar “incorporações contextuais de documentos”, uma técnica que melhora o desempenho da incorporação de modelos, tornando-os conscientes do contexto em que os documentos são recuperados.

As limitações dos bi-codificadores

A abordagem mais comum para recuperação de documentos em RAG é usar “bi-codificadores”, onde um modelo de incorporação cria uma representação fixa de cada documento e a armazena em um banco de dados vetorial. Durante a inferência, a incorporação da consulta é calculada e comparada com as incorporações armazenadas para encontrar os documentos mais relevantes.

Os bi-codificadores tornaram-se uma escolha popular para recuperação de documentos em sistemas RAG devido à sua eficiência e escalabilidade. No entanto, os bi-codificadores muitas vezes enfrentam conjuntos de dados diferenciados e específicos de aplicativos porque são treinados em dados genéricos. Na verdade, quando se trata de corpora de conhecimento especializado, eles podem ficar aquém dos métodos estatísticos clássicos, como BM25 em determinadas tarefas.

“Nosso projeto começou com o estudo do BM25, um algoritmo tradicional para recuperação de texto”, disse John (Jack) Morris, estudante de doutorado na Cornell Tech e coautor do artigo, ao VentureBeat. “Realizamos uma pequena análise e vimos que quanto mais fora de domínio o conjunto de dados estiver, mais o BM25 supera as redes neurais.”

O BM25 consegue sua flexibilidade calculando o peso de cada palavra no contexto do corpus que está indexando. Por exemplo, se uma palavra aparecer em muitos documentos do corpus de conhecimento, seu peso será reduzido, mesmo que seja uma palavra-chave importante em outros contextos. Isso permite que o BM25 se adapte às características específicas de diferentes conjuntos de dados.

“Os modelos tradicionais de recuperação densa baseados em redes neurais não podem fazer isso porque apenas definem os pesos uma vez, com base nos dados de treinamento”, disse Morris. “Tentamos projetar uma abordagem que pudesse resolver isso.”

Incorporações de documentos contextuais

Incorporações de documentos contextuais Crédito: arXiv

Os pesquisadores da Cornell propõem dois métodos complementares para melhorar o desempenho dos bi-codificadores, adicionando a noção de contexto aos embeddings de documentos.

“Se você pensar na recuperação como uma ‘competição’ entre documentos para ver qual é mais relevante para uma determinada consulta de pesquisa, usamos ‘contexto’ para informar o codificador sobre os outros documentos que estarão na competição”, disse Morris.

O primeiro método modifica o processo de treinamento do modelo de incorporação. Os pesquisadores usam uma técnica que agrupa documentos semelhantes antes de treinar o modelo de incorporação. Eles então usam o aprendizado contrastivo para treinar o codificador na distinção de documentos dentro de cada cluster.

A aprendizagem contrastiva é uma técnica não supervisionada em que o modelo é treinado para diferenciar entre exemplos positivos e negativos. Ao ser forçado a distinguir entre documentos semelhantes, o modelo torna-se mais sensível a diferenças subtis que são importantes em contextos específicos.

O segundo método modifica a arquitetura do bi-codificador. Os pesquisadores complementam o codificador com um mecanismo que lhe dá acesso ao corpus durante o processo de incorporação. Isso permite que o codificador leve em consideração o contexto do documento ao gerar sua incorporação.

A arquitetura aumentada funciona em duas etapas. Primeiro, calcula uma incorporação compartilhada para o cluster ao qual o documento pertence. Em seguida, combina essa incorporação compartilhada com os recursos exclusivos do documento para criar uma incorporação contextualizada.

Essa abordagem permite que o modelo capture tanto o contexto geral do agrupamento do documento quanto os detalhes específicos que o tornam único. A saída ainda é uma incorporação do mesmo tamanho de um bi-codificador normal, portanto, não requer nenhuma alteração no processo de recuperação.

O impacto das incorporações contextuais de documentos

Os pesquisadores avaliaram seu método em vários benchmarks e descobriram que ele superou consistentemente os bi-codificadores padrão de tamanhos semelhantes, especialmente em configurações fora do domínio, onde os conjuntos de dados de treinamento e teste são significativamente diferentes.

“Nosso modelo deve ser útil para qualquer domínio que seja materialmente diferente dos dados de treinamento e pode ser considerado um substituto barato para o ajuste fino de modelos de incorporação específicos de domínio”, disse Morris.

As incorporações contextuais podem ser usadas para melhorar o desempenho de sistemas RAG em diferentes domínios. Por exemplo, se todos os seus documentos compartilham uma estrutura ou contexto, um modelo de incorporação normal desperdiçaria espaço em seus embeddings armazenando essa estrutura ou informação redundante.

“As incorporações contextuais, por outro lado, podem ver a partir do contexto circundante que esta informação compartilhada não é útil e jogá-la fora antes de decidir exatamente o que armazenar na incorporação”, disse Morris.

Os pesquisadores lançaram uma pequena versão de seu modelo de incorporação de documentos contextuais (cde-small-v1). Ele pode ser usado como um substituto imediato para ferramentas populares de código aberto, como HuggingFace e SentenceTransformers, para criar embeddings personalizados para diferentes aplicativos.

Morris diz que as incorporações contextuais não se limitam a modelos baseados em texto e podem ser estendidas a outras modalidades, como arquiteturas de texto para imagem. Também há espaço para melhorá-los com algoritmos de agrupamento mais avançados e avaliar a eficácia da técnica em escalas maiores.