Google: não use respostas de erro 403/404 para limitar a taxa do Googlebot

O Google publicou orientações sobre como reduzir adequadamente a taxa de rastreamento do Googlebot devido a um aumento no uso incorreto de códigos de resposta 403/404, o que pode ter um impacto negativo nos sites.

A orientação mencionou que o uso indevido dos códigos de resposta estava aumentando o número de editores da web e redes de distribuição de conteúdo.

Googlebot de limitação de taxa

O Googlebot é o software automatizado do Google que visita (rastreia) sites e baixa o conteúdo.

A limitação da taxa do Googlebot significa diminuir a velocidade com que o Google rastreia um site.

A frase, taxa de rastreamento do Google, refere-se a quantas solicitações de páginas da web por segundo o Googlebot faz.

Há momentos em que um editor pode querer desacelerar o Googlebot, por exemplo, se estiver causando muita carga no servidor.

O Google recomenda várias maneiras de limitar a taxa de rastreamento do Googlebot, sendo a principal delas o uso do Google Search Console.

A limitação de taxa por meio do console de pesquisa diminuirá a taxa de rastreamento por um período de 90 dias.

Outra forma de afetar a taxa de rastreamento do Google é por meio do uso de Robots.txt para impedir que o Googlebot rastreie páginas individuais, diretórios (categorias) ou o site inteiro.

Uma coisa boa sobre o Robots.txt é que ele está apenas pedindo ao Google para se abster de rastrear e não pedindo ao Google para remover um site do índice.

No entanto, usar o robots.txt pode resultar em “efeitos de longo prazo” nos padrões de rastreamento do Google.

Talvez por isso a solução ideal seja usar o Search Console.

Google: pare a limitação de taxa com 403/404

O Google publicou orientações em seu blog da Central de Pesquisa aconselhando os editores a não usarem códigos de resposta 4XX (exceto para o código de resposta 429).

A postagem do blog mencionou especificamente o uso indevido dos códigos de resposta de erro 403 e 404 para limitação de taxa, mas a orientação se aplica a todos os códigos de resposta 4XX, exceto a resposta 429.

A recomendação é necessária porque eles observaram um aumento no número de editores usando esses códigos de resposta de erro com o objetivo de limitar a taxa de rastreamento do Google.

O código de resposta 403 significa que o visitante (neste caso, o Googlebot) está proibido de visitar a página da web.

O código de resposta 404 informa ao Googlebot que a página da Web desapareceu completamente.

O código de resposta de erro do servidor 429 significa “excesso de solicitações” e essa é uma resposta de erro válida.

Com o tempo, o Google pode acabar removendo páginas da web de seu índice de pesquisa se continuar usando esses dois códigos de resposta de erro.

Isso significa que as páginas não serão consideradas para classificação nos resultados da pesquisa.

Google escreveu:

“Nos últimos meses, notamos um aumento nos proprietários de sites e algumas redes de entrega de conteúdo (CDNs) tentando usar 404 e outros erros de cliente 4xx (mas não 429) para tentar reduzir a taxa de rastreamento do Googlebot. A versão curta desta postagem no blog é: por favor, não faça isso…”

Por fim, o Google recomenda usar os códigos de resposta de erro 500, 503 ou 429.

O código de resposta 500 significa que houve um erro interno do servidor. A resposta 503 significa que o servidor não pode lidar com a solicitação de uma página da web.

O Google trata esses dois tipos de respostas como erros temporários. Então, ele voltará mais tarde para verificar se as páginas estão disponíveis novamente.

Uma resposta de erro 429 informa ao bot que está fazendo muitas solicitações e também pode solicitar que aguarde um determinado período de tempo antes de rastrear novamente.

O Google recomenda consultar a página do desenvolvedor sobre a limitação de taxa do Googlebot .

Matéria completa: https://l.blackrat.pro/u6bHy 

Ensino pessoas comuns a venderem on-line sem mostrar o rosto