Entenda o robots.txt e sua importância para os buscadores

Curiosidades | em | por Matheus Pereira

Neste tópico iremos entender um pouco mais sobre os robôs que navegam pelas páginas da internet, buscando os conteúdos relevantes a ser indexados e exibidos nos resultados em sites de buscas (Google, Bing, Yahoo! Search, etc). Porém, com o arquivo "robots.txt" você pode configurar e optar as páginas que vão ou não ser exibidas e indexadas.

É muito importante para não permitir a indexição de páginas como:

  • Páginas de acesso e administração;
  • Páginas de conteúdo duplicado;
  • Relatórios e páginas de impressão;

ROBOTS.TXT

Como o próprio nome diz, o arquivo "robots.txt" é um arquivo de texto simples que deve ser localizado na raiz do seu projeto (www.projeto.com.br/robots.txt), sua função é configurar o acesso aos robôs dos buscadores as páginas do seu projeto, permitir, bloquear e definir a localização do sitemap.xml.

 

CONFIGURAÇÕES

USER-AGENT

O termo "User-agent" é utilizado para configurar quais robôs deverão seguis as regras defininas no arquivo robots.txt. Digamos que você deseja apenas que o Bing utilize as regras definitas, pasta adicionar o parâmetro User-agent: Bingbot. As principais opções são:

  • Todos: User-agent: *
  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot

ALLOW E DISALLOW

Essas regras não contém segredo, são usadas para permitir (allow) e bloquear (disallow) a navegação dos robôs e definindo quais páginas podem ou não serem exibidas nos resultados de buscas.

  • Allow: / (permite todas as páginas serem indexadas)
  • Disallow: /admin (orienta aos robots a não indexarem pastas ou arquivos que comecem com "admin")
  • Disallow: /admin/ (orienta aos robots a não indexarem todo o conteúdo da pasta "admin")
  • Allow: /admin/acessar (orienta aos robots que a página pode ser indexada, mesmo com a pasta /admin/ bloqueada)
  • Disallow: /pasta/arquivo.html (orienta aos robots a não indexarem a página definida)

SITEMAP

É muito importante e relevante que o site tenha o sitemap, um arquivo em XML, tenha seu caminho definido, e o mesmo pode ser feito no arquivo robots.txt, mas não deixe de utilizar o Google Webmaster.

  • Sitemap: http://seusite.com.br/sitemap.xml
  • Sitemap: http://seusite.com.br/sitemap_blog.xml

EXEMPLO

Um pequeno exemplo de um robots.txt simples, que permite com que todos navegadores sigam as regras específicas, além de bloquear a indexação da pasta /admin/, exceto do acesso ao mesmo. Claro, definindo a URL do sitemap.xml do projeto!

User-agent: *
Allow: /
Disallow: /admin/
Allow: /admin/entrar
Sitemap: http://seusite.com.br/sitemap.xml

 

SITEMAPS REAIS

Confira exemplos online de arquivos robots.txt, para fazer isso, basta nevegar pela internet um pouco e insetir /robots.txt logo após a URL base do site. Veja alguns exemplos:

Matheus Pereira

28 anos, paulistano, desenvolvedor back-end e graduado em tecnologia da informação. Adoro músicas, jogos eletrónicos e sou completamente apaixonado pelo mundo digital.

Posts Relacionados

Instalando Nginx + PHP 8.0 em seu servidor Ubuntu 18.04 Tutoriais  l 

Entenda como realizar a intalção e configuração do seu Nginx com PHP 8 em seu servidor Ubuntu 18.04

Momento Netflix: Assistam Explicando Código de Programação Notícias  l 

Assista um episódio do documentário "Explicando" da Netflix para conhecer mais sobre Código de Programação e o mundo binário da computação

Fã de Dota que o Bradesco respondeu entrega prêmio ao banco no FBRC 2015 Notícias  l 

Jogador de Dota que o Bradesco respondeu entregou o prêmio de melhor comunicação com o cliente em 2015 ao superintendente executivo do Banco Bradesco

CARREGANDO