Pesquisa semântica com vetores

Se você acompanha as últimas notícias em busca, provavelmente já ouviu falar sobre busca vetorial . A pesquisa de vetores é difícil, mas entender não precisa ser. E entender que a pesquisa vetorial não é o futuro, a pesquisa híbrida é – isso é tão importante quanto.

O que são vetores?

Quando falamos de vetores no contexto de aprendizado de máquina, queremos dizer isso: Vetores são grupos de números que representam algo. Essa coisa pode ser uma imagem, uma palavra ou quase qualquer coisa.

As questões, claro, são por que esses vetores são úteis e como eles são criados. Vejamos primeiro de onde vêm esses vetores. A resposta curta: aprendizado de máquina. Os modelos de aprendizado de máquina inserem itens e tentam descobrir as melhores fórmulas para prever outra coisa.

Por exemplo, você pode ter um modelo que aceita a palavra “abelha” e está tentando descobrir as melhores fórmulas que irão prever com precisão que “abelha” é vista em contextos semelhantes como “insetos” e “vespas”.

Uma vez que o modelo tenha a melhor fórmula, ele pode transformar a palavra “abelha” em um grupo de números que por acaso são semelhantes ao grupo de números para “insetos” e “vespas”.

Por que os vetores são poderosos

Os vetores são realmente poderosos por esse motivo: modelos de linguagem grandes como o Generative Pre-trained Transformer 3 (GPT-3) ou os do Google levam em conta bilhões de palavras e frases, para que possam começar a fazer essas conexões e se tornar realmente inteligentes.

É fácil entender por que as pessoas estão tão empolgadas em aplicar essa inteligência à pesquisa. Alguns estão até dizendo que a pesquisa vetorial substituirá a pesquisa por palavra-chave que conhecemos e amamos há décadas.

A questão é, porém, que a pesquisa de vetores não está substituindo a pesquisa por palavras-chave de pano inteiro. Pensar que a pesquisa de palavras-chave não reterá imenso valor coloca muito otimismo no novo e brilhante. A pesquisa de vetor e as pesquisas de palavras-chave têm seus próprios pontos fortes e funcionam melhor quando trabalham juntas.

Pesquisa de vetor para consultas de cauda longa

Se você trabalha em pesquisa, provavelmente está intimamente familiarizado com a cauda longa das consultas. Esse conceito, popularizado por Chris Anderson para descrever o conteúdo digital, diz que existem alguns itens (para consultas de pesquisa) que são muito mais populares do que todo o resto, mas que existem muitos itens individuais que ainda são desejados por alguém.

Assim é com a pesquisa. Algumas consultas são muito pesquisadas, mas a grande maioria das consultas é pesquisada muito pouco – talvez apenas uma única vez. Os números diferem de site para site, mas em um site médio, cerca de um terço do total de pesquisas pode vir de apenas algumas dezenas de consultas, enquanto quase metade do volume de pesquisa vem de consultas que estão fora das 1.000 mais populares.

As consultas de cauda longa tendem a ser mais longas e podem até ser consultas de linguagem natural. No entanto, eles nem sempre são longos, eles podem ser apenas obscuros. Para um site de moda feminina, “vestido malva” pode ser uma consulta de cauda longa porque as pessoas não pedem essa cor com muita frequência. “Wristlet” também pode ser uma consulta raramente vista, mesmo que o site tenha pulseiras à venda.

A pesquisa vetorial geralmente funciona muito bem para consultas de cauda longa. Ele pode entender que as pulseiras são semelhantes às pulseiras, e as pulseiras aparecem mesmo sem sinônimos configurados. Pode mostrar vestidos rosa ou roxo quando alguém procura algo em malva.

A pesquisa vetorial pode até funcionar bem para essas consultas longas ou em linguagem natural. “Algo para manter minhas bebidas geladas” trará geladeiras em uma pesquisa vetorial bem ajustada, enquanto, com a pesquisa por palavra-chave, é melhor esperar que o texto esteja em algum lugar na descrição do produto.

Em outras palavras, a pesquisa de vetores aumenta a recuperação dos resultados da pesquisa ou quantos resultados são encontrados.

Como funciona a pesquisa de vetores

A pesquisa vetorial faz isso pegando os grupos de números que descrevemos acima e fazendo com que o mecanismo de pesquisa de vetores pergunte: “Se eu fosse representar graficamente esses grupos de números como linhas, quais seriam os mais próximos?”

Uma maneira fácil de conceituar isso é pensar em grupos que têm apenas dois números. O grupo [1,2] vai estar mais próximo do grupo [2,2] do que estaria do grupo [2.500].

Essa abordagem para determinar a semelhança é poderosa porque os vetores que representam palavras como “médico” e “medicina” serão “grafados” muito mais semelhantes do que as palavras “médico” e “pedra”.

Desvantagens da pesquisa de vetores

No entanto, existem desvantagens na pesquisa vetorial. Primeiro é o custo. Todo esse aprendizado de máquina que discutimos acima? Tem custos.

Armazenar os vetores é mais caro do que armazenar um índice de pesquisa baseado em palavras-chave, por exemplo. A pesquisa nesses vetores também é mais lenta do que uma pesquisa por palavra-chave na maioria dos casos.

Agora, o hash pode mitigar esses dois problemas. Sim, estamos introduzindo mais conceitos técnicos, mas este é outro que é bastante simples de entender o básico. O hashing executa uma série de etapas para transformar alguma informação (como uma string ou um número) em um número, que ocupa menos memória do que a informação original.

Acontece que também podemos usar o hash para reduzir os tamanhos dos vetores, mantendo o que torna os vetores úteis: sua capacidade de combinar itens conceitualmente semelhantes.

Com o uso de hash, podemos fazer pesquisas de vetores muito mais rápidas e fazer com que os vetores usem menos espaço no geral. Os detalhes são altamente técnicos, mas o importante é entender que é possível.

A utilidade contínua da pesquisa de palavras-chave

Isso não significa que a pesquisa de palavras-chave ainda não seja útil! A pesquisa por palavra-chave é geralmente mais rápida que a pesquisa vetorial. Além disso, é mais fácil entender por que os resultados são classificados da maneira como são .

Veja o exemplo da consulta “texas” e “tejano” e “estado” como possíveis correspondências de palavras. Claramente, “tejano” está mais próximo se olharmos para a comparação de uma perspectiva de pesquisa de palavras-chave pura. Não é tão fácil dizer, no entanto, o que estaria mais próximo de uma abordagem de busca vetorial.

A pesquisa baseada em palavras-chave entende “texas” como sendo mais semelhante a “tejano” porque usa uma abordagem baseada em texto para encontrar registros.

Se os registros contiverem palavras exatamente iguais às da consulta (ou dentro de um certo nível de diferença para considerar erros de digitação), o registro será considerado relevante e retornará nos conjuntos de resultados.

Em outras palavras, a pesquisa por palavra-chave se concentra na precisão dos resultados da pesquisa ou na garantia de que os registros retornados sejam relevantes, mesmo que haja menos deles.

Pesquisa de palavras-chave como benéfica para consultas principais

Por esse motivo, a pesquisa por palavra-chave funciona muito bem para consultas principais: as consultas mais populares.

As consultas principais tendem a ser mais curtas e também mais fáceis de otimizar. Isso significa que, se, por qualquer motivo, uma palavra-chave não corresponder ao texto correto dentro de um registro, ela geralmente é detectada por meio de análises e você pode adicionar um sinônimo .

Como a pesquisa por palavra-chave funciona melhor para consultas de cabeça e a pesquisa de vetor funciona melhor para consultas de cauda longa, as duas funcionam melhor em conjunto. Isso é conhecido como pesquisa híbrida.

A pesquisa híbrida é quando um mecanismo de pesquisa usa a pesquisa por palavra-chave e vetorial para uma única consulta e classifica os registros corretamente, independentemente da abordagem de pesquisa que os gerou.

Registros de classificação em fontes de pesquisa

Classificar registros que vêm de duas fontes diferentes não é fácil. As duas abordagens têm, pela sua própria natureza, formas diferentes de pontuar recordes.

A pesquisa vetorial retornará uma pontuação, enquanto alguns mecanismos baseados em palavras-chave não retornarão. Mesmo que os mecanismos baseados em palavras-chave retornem uma pontuação, não há garantia de que as duas pontuações sejam equivalentes.

Se as pontuações não forem equivalentes, você não pode dizer que uma pontuação de 0,8 do mecanismo de palavras-chave é mais relevante do que uma pontuação de 0,79 do mecanismo de vetor.

Outra alternativa seria executar todos os resultados por meio da pontuação do mecanismo de vetor ou do mecanismo de palavras-chave.

Isso tem a vantagem de obter o recall extra do mecanismo vetorial, mas também tem algumas desvantagens. Esses resultados extras de recall provenientes do mecanismo de vetor não serão classificados como relevantes a partir de uma pontuação de palavra-chave, caso contrário, eles já teriam aparecido no conjunto de resultados.

Você pode, alternativamente, executar todos os resultados – palavra-chave ou não – através da pontuação vetorial, mas isso é lento e caro.

Pesquisa de vetores como alternativa

É por isso que alguns mecanismos de pesquisa nem tentam misturar os dois, mas sempre exibem os resultados das palavras-chave primeiro e depois os resultados do vetor. O pensamento aqui é que, se uma pesquisa retornar zero ou poucos resultados, você poderá retornar aos resultados do vetor.

Lembre-se, a pesquisa de vetor é voltada para melhorar a recuperação ou encontrar mais resultados e, portanto, pode encontrar resultados relevantes que a pesquisa por palavra-chave não encontrou. Este é um paliativo decente, mas não é o futuro da verdadeira pesquisa híbrida.

A pesquisa híbrida verdadeira classificará várias origens de pesquisa diferentes no mesmo conjunto de resultados, criando uma pontuação comparável em diferentes origens. Há muita pesquisa sobre essa abordagem, mas poucos estão fazendo isso bem e fornecendo seu mecanismo publicamente. Então, o que isso significa para você?

No momento, a melhor coisa que você pode fazer é provavelmente ficar quieto e atualizado com o que está acontecendo no setor. A pesquisa híbrida baseada em vetor e palavra-chave está chegando nos próximos anos e estará disponível para pessoas sem equipes de ciência de dados.

Enquanto isso, a pesquisa por palavra-chave ainda é valiosa e só será aprimorada quando a pesquisa de vetor for introduzida posteriormente.

Matéria completa: https://l.blackrat.pro/IF4kZ

Ensino pessoas comuns a venderem on-line sem mostrar o rosto