{"id":737,"date":"2023-02-09T08:36:08","date_gmt":"2023-02-09T11:36:08","guid":{"rendered":"https:\/\/blackrat.pro\/blog\/?p=737"},"modified":"2023-02-09T08:36:08","modified_gmt":"2023-02-09T11:36:08","slug":"pesquisa-semantica-com-vetores","status":"publish","type":"post","link":"https:\/\/blackrat.pro\/blog\/pesquisa-semantica-com-vetores\/","title":{"rendered":"Pesquisa sem\u00e2ntica com vetores"},"content":{"rendered":"<p>Se voc\u00ea acompanha as \u00faltimas not\u00edcias em busca, provavelmente j\u00e1 ouviu falar sobre busca vetorial . A pesquisa de vetores \u00e9 dif\u00edcil, mas entender n\u00e3o precisa ser. E entender que a pesquisa vetorial n\u00e3o \u00e9 o futuro, a pesquisa h\u00edbrida \u00e9 \u2013 isso \u00e9 t\u00e3o importante quanto.<\/p>\n<h2><strong>O que s\u00e3o vetores?<\/strong><\/h2>\n<p>Quando falamos de vetores no contexto de aprendizado de m\u00e1quina, queremos dizer isso: Vetores s\u00e3o grupos de n\u00fameros que representam algo. Essa coisa pode ser uma imagem, uma palavra ou quase qualquer coisa.<\/p>\n<p>As quest\u00f5es, claro, s\u00e3o por que esses vetores s\u00e3o \u00fateis e como eles s\u00e3o criados. Vejamos primeiro de onde v\u00eam esses vetores. A resposta curta: aprendizado de m\u00e1quina. Os modelos de aprendizado de m\u00e1quina inserem itens e tentam descobrir as melhores f\u00f3rmulas para prever outra coisa.<\/p>\n<p>Por exemplo, voc\u00ea pode ter um modelo que aceita a palavra \u201cabelha\u201d e est\u00e1 tentando descobrir as melhores f\u00f3rmulas que ir\u00e3o prever com precis\u00e3o que \u201cabelha\u201d \u00e9 vista em contextos semelhantes como \u201cinsetos\u201d e \u201cvespas\u201d.<\/p>\n<p>Uma vez que o modelo tenha a melhor f\u00f3rmula, ele pode transformar a palavra \u201cabelha\u201d em um grupo de n\u00fameros que por acaso s\u00e3o semelhantes ao grupo de n\u00fameros para \u201cinsetos\u201d e \u201cvespas\u201d.<\/p>\n<h2><strong>Por que os vetores s\u00e3o poderosos<\/strong><\/h2>\n<p>Os vetores s\u00e3o realmente poderosos por esse motivo: modelos de linguagem grandes como o Generative Pre-trained Transformer 3 (GPT-3) ou os do Google levam em conta bilh\u00f5es de palavras e frases, para que possam come\u00e7ar a fazer essas conex\u00f5es e se tornar realmente inteligentes.<\/p>\n<p>\u00c9 f\u00e1cil entender por que as pessoas est\u00e3o t\u00e3o empolgadas em aplicar essa intelig\u00eancia \u00e0 pesquisa. Alguns est\u00e3o at\u00e9 dizendo que a pesquisa vetorial substituir\u00e1 a pesquisa por palavra-chave que conhecemos e amamos h\u00e1 d\u00e9cadas.<\/p>\n<p>A quest\u00e3o \u00e9, por\u00e9m, que a pesquisa de vetores n\u00e3o est\u00e1 substituindo a pesquisa por palavras-chave de pano inteiro. Pensar que a pesquisa de palavras-chave n\u00e3o reter\u00e1 imenso valor coloca muito otimismo no novo e brilhante. A pesquisa de vetor e as pesquisas de palavras-chave t\u00eam seus pr\u00f3prios pontos fortes e funcionam melhor quando trabalham juntas.<\/p>\n<h2><strong>Pesquisa de vetor para consultas de cauda longa<\/strong><\/h2>\n<p>Se voc\u00ea trabalha em pesquisa, provavelmente est\u00e1 intimamente familiarizado com a cauda longa das consultas. Esse conceito, popularizado por Chris Anderson para descrever o conte\u00fado digital, diz que existem alguns itens (para consultas de pesquisa) que s\u00e3o muito mais populares do que todo o resto, mas que existem muitos itens individuais que ainda s\u00e3o desejados por algu\u00e9m.<\/p>\n<p>Assim \u00e9 com a pesquisa. Algumas consultas s\u00e3o muito pesquisadas, mas a grande maioria das consultas \u00e9 pesquisada muito pouco \u2013 talvez apenas uma \u00fanica vez. Os n\u00fameros diferem de site para site, mas em um site m\u00e9dio, cerca de um ter\u00e7o do total de pesquisas pode vir de apenas algumas dezenas de consultas, enquanto quase metade do volume de pesquisa vem de consultas que est\u00e3o fora das 1.000 mais populares.<\/p>\n<p>As consultas de cauda longa tendem a ser mais longas e podem at\u00e9 ser consultas de linguagem natural. No entanto, eles nem sempre s\u00e3o longos, eles podem ser apenas obscuros. Para um site de moda feminina, \u201cvestido malva\u201d pode ser uma consulta de cauda longa porque as pessoas n\u00e3o pedem essa cor com muita frequ\u00eancia. \u201cWristlet\u201d tamb\u00e9m pode ser uma consulta raramente vista, mesmo que o site tenha pulseiras \u00e0 venda.<\/p>\n<p>A pesquisa vetorial geralmente funciona muito bem para consultas de cauda longa. Ele pode entender que as pulseiras s\u00e3o semelhantes \u00e0s pulseiras, e as pulseiras aparecem mesmo sem sin\u00f4nimos configurados. Pode mostrar vestidos rosa ou roxo quando algu\u00e9m procura algo em malva.<\/p>\n<p>A pesquisa vetorial pode at\u00e9 funcionar bem para essas consultas longas ou em linguagem natural. \u201cAlgo para manter minhas bebidas geladas\u201d trar\u00e1 geladeiras em uma pesquisa vetorial bem ajustada, enquanto, com a pesquisa por palavra-chave, \u00e9 melhor esperar que o texto esteja em algum lugar na descri\u00e7\u00e3o do produto.<\/p>\n<p>Em outras palavras, a pesquisa de vetores aumenta a recupera\u00e7\u00e3o dos resultados da pesquisa ou quantos resultados s\u00e3o encontrados.<\/p>\n<h2><strong>Como funciona a pesquisa de vetores<\/strong><\/h2>\n<p>A pesquisa vetorial faz isso pegando os grupos de n\u00fameros que descrevemos acima e fazendo com que o mecanismo de pesquisa de vetores pergunte: &#8220;Se eu fosse representar graficamente esses grupos de n\u00fameros como linhas, quais seriam os mais pr\u00f3ximos?&#8221;<\/p>\n<p>Uma maneira f\u00e1cil de conceituar isso \u00e9 pensar em grupos que t\u00eam apenas dois n\u00fameros. O grupo [1,2] vai estar mais pr\u00f3ximo do grupo [2,2] do que estaria do grupo [2.500].<\/p>\n<p>Essa abordagem para determinar a semelhan\u00e7a \u00e9 poderosa porque os vetores que representam palavras como \u201cm\u00e9dico\u201d e \u201cmedicina\u201d ser\u00e3o \u201cgrafados\u201d muito mais semelhantes do que as palavras \u201cm\u00e9dico\u201d e \u201cpedra\u201d.<\/p>\n<h2><strong>Desvantagens da pesquisa de vetores<\/strong><\/h2>\n<p>No entanto, existem desvantagens na pesquisa vetorial. Primeiro \u00e9 o custo. Todo esse aprendizado de m\u00e1quina que discutimos acima? Tem custos.<\/p>\n<p>Armazenar os vetores \u00e9 mais caro do que armazenar um \u00edndice de pesquisa baseado em palavras-chave, por exemplo. A pesquisa nesses vetores tamb\u00e9m \u00e9 mais lenta do que uma pesquisa por palavra-chave na maioria dos casos.<\/p>\n<p>Agora, o hash pode mitigar esses dois problemas. Sim, estamos introduzindo mais conceitos t\u00e9cnicos, mas este \u00e9 outro que \u00e9 bastante simples de entender o b\u00e1sico. O hashing executa uma s\u00e9rie de etapas para transformar alguma informa\u00e7\u00e3o (como uma string ou um n\u00famero) em um n\u00famero, que ocupa menos mem\u00f3ria do que a informa\u00e7\u00e3o original.<\/p>\n<p>Acontece que tamb\u00e9m podemos usar o hash para reduzir os tamanhos dos vetores, mantendo o que torna os vetores \u00fateis: sua capacidade de combinar itens conceitualmente semelhantes.<\/p>\n<p>Com o uso de hash, podemos fazer pesquisas de vetores muito mais r\u00e1pidas e fazer com que os vetores usem menos espa\u00e7o no geral. Os detalhes s\u00e3o altamente t\u00e9cnicos, mas o importante \u00e9 entender que \u00e9 poss\u00edvel.<\/p>\n<h2><strong>A utilidade cont\u00ednua da pesquisa de palavras-chave<\/strong><\/h2>\n<p>Isso n\u00e3o significa que a pesquisa de palavras-chave ainda n\u00e3o seja \u00fatil! A pesquisa por palavra-chave \u00e9 geralmente mais r\u00e1pida que a pesquisa vetorial. Al\u00e9m disso, \u00e9 mais f\u00e1cil entender por que os resultados s\u00e3o classificados da maneira como s\u00e3o .<\/p>\n<p>Veja o exemplo da consulta \u201ctexas\u201d e \u201ctejano\u201d e \u201cestado\u201d como poss\u00edveis correspond\u00eancias de palavras. Claramente, \u201ctejano\u201d est\u00e1 mais pr\u00f3ximo se olharmos para a compara\u00e7\u00e3o de uma perspectiva de pesquisa de palavras-chave pura. N\u00e3o \u00e9 t\u00e3o f\u00e1cil dizer, no entanto, o que estaria mais pr\u00f3ximo de uma abordagem de busca vetorial.<\/p>\n<p>A pesquisa baseada em palavras-chave entende \u201ctexas\u201d como sendo mais semelhante a \u201ctejano\u201d porque usa uma abordagem baseada em texto para encontrar registros.<\/p>\n<p>Se os registros contiverem palavras exatamente iguais \u00e0s da consulta (ou dentro de um certo n\u00edvel de diferen\u00e7a para considerar erros de digita\u00e7\u00e3o), o registro ser\u00e1 considerado relevante e retornar\u00e1 nos conjuntos de resultados.<\/p>\n<p>Em outras palavras, a pesquisa por palavra-chave se concentra na precis\u00e3o dos resultados da pesquisa ou na garantia de que os registros retornados sejam relevantes, mesmo que haja menos deles.<\/p>\n<h2><strong>Pesquisa de palavras-chave como ben\u00e9fica para consultas principais<\/strong><\/h2>\n<p>Por esse motivo, a pesquisa por palavra-chave funciona muito bem para consultas principais: as consultas mais populares.<\/p>\n<p>As consultas principais tendem a ser mais curtas e tamb\u00e9m mais f\u00e1ceis de otimizar. Isso significa que, se, por qualquer motivo, uma palavra-chave n\u00e3o corresponder ao texto correto dentro de um registro, ela geralmente \u00e9 detectada por meio de an\u00e1lises e voc\u00ea pode adicionar um sin\u00f4nimo .<\/p>\n<p>Como a pesquisa por palavra-chave funciona melhor para consultas de cabe\u00e7a e a pesquisa de vetor funciona melhor para consultas de cauda longa, as duas funcionam melhor em conjunto. Isso \u00e9 conhecido como pesquisa h\u00edbrida.<\/p>\n<p>A pesquisa h\u00edbrida \u00e9 quando um mecanismo de pesquisa usa a pesquisa por palavra-chave e vetorial para uma \u00fanica consulta e classifica os registros corretamente, independentemente da abordagem de pesquisa que os gerou.<\/p>\n<h2><strong>Registros de classifica\u00e7\u00e3o em fontes de pesquisa<\/strong><\/h2>\n<p>Classificar registros que v\u00eam de duas fontes diferentes n\u00e3o \u00e9 f\u00e1cil. As duas abordagens t\u00eam, pela sua pr\u00f3pria natureza, formas diferentes de pontuar recordes.<\/p>\n<p>A pesquisa vetorial retornar\u00e1 uma pontua\u00e7\u00e3o, enquanto alguns mecanismos baseados em palavras-chave n\u00e3o retornar\u00e3o. Mesmo que os mecanismos baseados em palavras-chave retornem uma pontua\u00e7\u00e3o, n\u00e3o h\u00e1 garantia de que as duas pontua\u00e7\u00f5es sejam equivalentes.<\/p>\n<p>Se as pontua\u00e7\u00f5es n\u00e3o forem equivalentes, voc\u00ea n\u00e3o pode dizer que uma pontua\u00e7\u00e3o de 0,8 do mecanismo de palavras-chave \u00e9 mais relevante do que uma pontua\u00e7\u00e3o de 0,79 do mecanismo de vetor.<\/p>\n<p>Outra alternativa seria executar todos os resultados por meio da pontua\u00e7\u00e3o do mecanismo de vetor ou do mecanismo de palavras-chave.<\/p>\n<p>Isso tem a vantagem de obter o recall extra do mecanismo vetorial, mas tamb\u00e9m tem algumas desvantagens. Esses resultados extras de recall provenientes do mecanismo de vetor n\u00e3o ser\u00e3o classificados como relevantes a partir de uma pontua\u00e7\u00e3o de palavra-chave, caso contr\u00e1rio, eles j\u00e1 teriam aparecido no conjunto de resultados.<\/p>\n<p>Voc\u00ea pode, alternativamente, executar todos os resultados \u2013 palavra-chave ou n\u00e3o \u2013 atrav\u00e9s da pontua\u00e7\u00e3o vetorial, mas isso \u00e9 lento e caro.<\/p>\n<h2><strong>Pesquisa de vetores como alternativa<\/strong><\/h2>\n<p>\u00c9 por isso que alguns mecanismos de pesquisa nem tentam misturar os dois, mas sempre exibem os resultados das palavras-chave primeiro e depois os resultados do vetor. O pensamento aqui \u00e9 que, se uma pesquisa retornar zero ou poucos resultados, voc\u00ea poder\u00e1 retornar aos resultados do vetor.<\/p>\n<p>Lembre-se, a pesquisa de vetor \u00e9 voltada para melhorar a recupera\u00e7\u00e3o ou encontrar mais resultados e, portanto, pode encontrar resultados relevantes que a pesquisa por palavra-chave n\u00e3o encontrou. Este \u00e9 um paliativo decente, mas n\u00e3o \u00e9 o futuro da verdadeira pesquisa h\u00edbrida.<\/p>\n<p>A pesquisa h\u00edbrida verdadeira classificar\u00e1 v\u00e1rias origens de pesquisa diferentes no mesmo conjunto de resultados, criando uma pontua\u00e7\u00e3o compar\u00e1vel em diferentes origens. H\u00e1 muita pesquisa sobre essa abordagem, mas poucos est\u00e3o fazendo isso bem e fornecendo seu mecanismo publicamente. Ent\u00e3o, o que isso significa para voc\u00ea?<\/p>\n<p>No momento, a melhor coisa que voc\u00ea pode fazer \u00e9 provavelmente ficar quieto e atualizado com o que est\u00e1 acontecendo no setor. A pesquisa h\u00edbrida baseada em vetor e palavra-chave est\u00e1 chegando nos pr\u00f3ximos anos e estar\u00e1 dispon\u00edvel para pessoas sem equipes de ci\u00eancia de dados.<\/p>\n<p>Enquanto isso, a pesquisa por palavra-chave ainda \u00e9 valiosa e s\u00f3 ser\u00e1 aprimorada quando a pesquisa de vetor for introduzida posteriormente.<\/p>\n<p>Mat\u00e9ria completa:\u00a0<a href=\"https:\/\/l.blackrat.pro\/IF4kZ\" target=\"_blank\" rel=\"external nofollow noopener\">https:\/\/l.blackrat.pro\/IF4kZ<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Se voc\u00ea acompanha as \u00faltimas not\u00edcias em busca, provavelmente j\u00e1 ouviu falar sobre busca vetorial . A pesquisa de vetores \u00e9 dif\u00edcil, mas entender n\u00e3o precisa ser. E entender que a pesquisa vetorial n\u00e3o \u00e9 o futuro, a pesquisa h\u00edbrida \u00e9 \u2013 isso \u00e9 t\u00e3o importante quanto. O que s\u00e3o vetores? Quando falamos de vetores [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":738,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[148,149],"class_list":{"0":"post-737","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-sem-categoria","8":"tag-pesquisa-semantica","9":"tag-vetores"},"_links":{"self":[{"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/posts\/737","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/comments?post=737"}],"version-history":[{"count":1,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/posts\/737\/revisions"}],"predecessor-version":[{"id":739,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/posts\/737\/revisions\/739"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/media\/738"}],"wp:attachment":[{"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/media?parent=737"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/categories?post=737"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blackrat.pro\/blog\/wp-json\/wp\/v2\/tags?post=737"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}