Como impedir que o ChatGPT use o conteúdo do seu site

Há uma preocupação com a falta de uma maneira fácil de optar por não ter o conteúdo usado para treinar modelos de linguagem grandes (LLMs) como o ChatGPT. Existe uma maneira de fazer isso, mas não é direto nem garantido que funcione.

Como as IAs aprendem com seu conteúdo

Os Large Language Models (LLMs) são treinados em dados originários de várias fontes. Muitos desses conjuntos de dados são de código aberto e são usados ​​livremente para IAs de treinamento.

Algumas das fontes utilizadas são:

  • Wikipédia
  • Registros do tribunal do governo
  • livros
  • E-mails
  • Sites rastreados

Na verdade, existem portais, sites que oferecem conjuntos de dados, que fornecem grandes quantidades de informações.

Um dos portais é hospedado pela Amazon, oferecendo milhares de conjuntos de dados no Registro de Dados Abertos na AWS.

O portal da Amazon com milhares de conjuntos de dados é apenas um portal entre muitos outros que contêm mais conjuntos de dados.

Conjuntos de dados de conteúdo da Web

OpenWebText

Um conjunto de dados popular de conteúdo da web é chamado OpenWebText. O OpenWebText consiste em URLs encontradas em postagens do Reddit que tiveram pelo menos três votos positivos.

A ideia é que essas URLs sejam confiáveis ​​e contenham conteúdo de qualidade. No entanto, sabemos que, se o seu site estiver vinculado ao Reddit com pelo menos três votos positivos, há uma boa chance de que seu site esteja no conjunto de dados OpenWebText.

Rastreamento Comum

Um dos conjuntos de dados mais usados ​​para conteúdo da Internet é oferecido por uma organização sem fins lucrativos chamada Common Crawl .

Os dados do Common Crawl vêm de um bot que rastreia toda a Internet. Os dados são baixados por organizações que desejam usar os dados e, em seguida, limpos de sites com spam, etc. O nome do bot Common Crawl é CCBot.

O CCBot obedece ao protocolo robots.txt, então é possível bloquear o Common Crawl com Robots.txt e evitar que os dados do seu site entrem em outro conjunto de dados. No entanto, se seu site já foi rastreado, provavelmente já está incluído em vários conjuntos de dados.

Porém, ao bloquear o Common Crawl, é possível impedir que o conteúdo do seu site seja incluído em novos conjuntos de dados provenientes de dados mais recentes do Common Crawl.

A string CCBot User-Agent é: CCBot/2.0

Adicione o seguinte ao seu arquivo robots.txt para bloquear o bot Common Crawl:

  • Agente do usuário: CCBot
  • Não permitir: /

Uma maneira adicional de confirmar se um agente de usuário CCBot é legítimo é rastreá-lo a partir de endereços IP da Amazon AWS. O CCBot também obedece às diretivas da meta tag nofollow robots.

Use isso em sua meta tag de robôs: <meta name=”robots” content=”nofollow”>

Bloqueando a IA de usar seu conteúdo

Os mecanismos de pesquisa permitem que os sites optem por não serem rastreados. Rastreamento comum também permite a desativação. Mas atualmente não há como remover o conteúdo do site de conjuntos de dados existentes.

Além disso, os cientistas de pesquisa não parecem oferecer aos editores de sites uma maneira de optar por não serem rastreados.

Matéria completa:https://l.blackrat.pro/867Ts 

Ensino pessoas comuns a venderem on-line sem mostrar o rosto