O que é robots.txt? Como configurar o rastreamento pelo Google? | Guia

ArtigosCategoria
Tempo de leitura:6 min
Rafael Queiroz Bastos

Se você tem um site ou mesmo se quer desenvolver um, precisa entender o que é robots.txt, um arquivo essencial para ajudar a rankear seu site nos buscadores de forma estratégica.

É necessário ter atenção aos detalhes do seu projeto, pois, por mais que as diretrizes técnicas de SEO sejam similares, cada canal digital deve contar com táticas particulares, suprindo suas próprias necessidades. Afinal, cada empresa tem seu próprio cenário, público e outras especificidades.

Então, vamos falar sobre conteúdo robots.txt personalizado? O que é isso? Como ele funciona? Vamos te mostrar como indexar e desindexar páginas dos principais motores de busca e a importância dessa iniciativa.

O que é robots.txt?

Respondendo à sua dúvida sobre o que é robots.txt, precisamos primeiro compreender que, para decidir qual a ordem do rankeamento dos conteúdos, os buscadores utilizam robôs que fazem a leitura de cada site.

O robots.txt nada mais é do que um arquivo em .txt — como o nome já diz — que usa o formato do Protocolo de Exclusão de Robôs padrão. 

Nele, está listado um conjunto de comandos que são usados pelos robôs que citamos para identificar diretórios e páginas de seu site, a fim de saber se devem ou não ser acessados ou mesmo indexados.

Fica claro, então, que você tem total autonomia para decidir o que pode ser lido pelos mecanismos de busca. Basta liberar ou restringir o acesso dos robôs de leitura e seus conteúdos estarão dispostos de forma estratégica.

Para que serve o robots.txt?

O objetivo por trás do robots.txt é orientar os robôs dos motores de buscas no rastreamento das páginas de um site. Ele informa esses algoritmos dos buscadores, como o Google, quais URLS de um site estão prontas para serem acessadas e são interessantes para a estratégia de tráfego orgânico do domínio.

Dessa forma, algumas páginas podem ser selecionadas para que os bots do Google, Yahoo, Bing e outros buscadores não indexem páginas irrelevantes para o tráfego do site.

A ideia é que somente as páginas mais estratégicas e relevantes para os usuários sejam bem posicionadas nas primeiras posições de pesquisa. 

O robots.txt também é importante para aprimorar a performance do site, uma vez que a filtragem das páginas garante que os algoritmos dos buscadores não percam tempo considerável para rastrear e avaliar o SEO dos conteúdos.

Por que optar por não rankear algumas páginas?

Como falamos no início, é preciso pensar de forma particular. Muitas vezes, o que funciona para outros sites pode não funcionar para o seu. Esse cuidado vale até para projetos do mesmo segmento.

Um exemplo de que você precisa “esconder” algo dos robôs é: imagine que vai disponibilizar um material rico como imagens ou um infográfico. 

Ele poderia ser facilmente indexado no diretório de mídia do Google ou outros mecanismos, fazendo com que quem pesquisa, não precise necessariamente acessar a página e consumir todo o conteúdo. 

Portanto, se este arquivo for “restrito”, as pessoas acessarão o site e o encontrarão lá dentro.

Outra possibilidade é a de você apenas ter uma categoria, artigo ou qualquer outro link que é parte da sua estratégia de campanhas, mas não necessariamente importante para rankear em termos de SEO. Assim, o caminho mais indicado é ocultá-la nos buscadores.

Conteúdo Robots.txt personalizado: o que é? 

Entendido o que é robots.txt? Pois vamos falar agora sobre os comandos que devem ser utilizados no arquivo de texto para orientar a indexação dos motores de busca. 

Primeiramente, vamos falar sobre um conteúdo Robots.txt personalizado. O que é isso? Ele nada mais é que um documento customizado com as configurações de acordo com as necessidades específicas do seu site.

Essa personalização consiste na orientação de como os robôs e algoritmos devem lidar com conteúdo de cada página e diretório do seu site. 

E como configurar robots.txt? Caso tenha algumas páginas ou diretórios do seu site que você não deseja indexar aos motores de busca, você precisa conhecer as diretivas disallow robots.txt e allow robots.txt.

O que é Disallow Robots.txt?

Vamos começar a aprender como configurar Robots.txt com o comando Disallow Robots.txt. Ele deve ser inserido para definir quais páginas não ficarão disponíveis para a indexação. O código é o seguinte:

User-agent: Googlebot

Disallow: /admin/

Portanto, a diretiva acima aponta que o Googlebot não deverá ter acesso às páginas do site que contenham /admin/ logo no início, pois ela possui conteúdo privado dos proprietários do site.

O que é Allow Robots.txt?

Por sua vez, o comando Allow Robots.txt é quem cria exceções para que os robôs dos buscadores tenham acessos a pastas específicas de seções bloqueadas. Por exemplo, se você deseja liberar uma subseção de /admin/ para os bots, basta destacá-la na diretiva abaixo:

User-agent: Googlebot

Disallow: /admin/

Allow: /admin/public/

Portanto, cada um desses comandos serve para autorizar ou desautorizar a indexação de alguma região específica do seu site. Isso otimiza o ranqueamento, pois só rastrea para as pesquisas no Google aquilo que é de fato estratégico e deve ser disponibilizado para o público.

Gostou de entender mais sobre o que é robots.txt? Aproveite e leia outros artigos do blog da GoDaddy e aprofunde seus conhecimentos na área!

E caso você esteja pensando em criar um site ou blog para sua marca, você vai precisar de um bom plano de hospedagem. 

Conheça as opções de Hospedagem Wordpress da GoDaddy e hospede seu site em servidor que ofereça estabilidade, velocidade e segurança para o domínio da sua marca!

Até a próxima!

Produtos Utilizados

SEOSaiba mais