Neste tópico iremos entender um pouco mais sobre os robôs que navegam pelas páginas da internet, buscando os conteúdos relevantes a ser indexados e exibidos nos resultados em sites de buscas (Google, Bing, Yahoo! Search, etc). Porém, com o arquivo "robots.txt" você pode configurar e optar as páginas que vão ou não ser exibidas e indexadas.
É muito importante para não permitir a indexição de páginas como:
- Páginas de acesso e administração;
- Páginas de conteúdo duplicado;
- Relatórios e páginas de impressão;
ROBOTS.TXT
Como o próprio nome diz, o arquivo "robots.txt" é um arquivo de texto simples que deve ser localizado na raiz do seu projeto (www.projeto.com.br/robots.txt), sua função é configurar o acesso aos robôs dos buscadores as páginas do seu projeto, permitir, bloquear e definir a localização do sitemap.xml.
CONFIGURAÇÕES
USER-AGENT
O termo "User-agent" é utilizado para configurar quais robôs deverão seguis as regras defininas no arquivo robots.txt. Digamos que você deseja apenas que o Bing utilize as regras definitas, pasta adicionar o parâmetro User-agent: Bingbot. As principais opções são:
- Todos: User-agent: *
- Google: User-agent: Googlebot
- Google Imagens: User-agent: Googlebot-images
- Google Adwords: User-agent: Adsbot-Google
- Google Adsense: User-agent: Mediapartners-Google
- Yahoo: User-agent: Slurp
- Bing: User-agent: Bingbot
ALLOW E DISALLOW
Essas regras não contém segredo, são usadas para permitir (allow) e bloquear (disallow) a navegação dos robôs e definindo quais páginas podem ou não serem exibidas nos resultados de buscas.
- Allow: / (permite todas as páginas serem indexadas)
- Disallow: /admin (orienta aos robots a não indexarem pastas ou arquivos que comecem com "admin")
- Disallow: /admin/ (orienta aos robots a não indexarem todo o conteúdo da pasta "admin")
- Allow: /admin/acessar (orienta aos robots que a página pode ser indexada, mesmo com a pasta /admin/ bloqueada)
- Disallow: /pasta/arquivo.html (orienta aos robots a não indexarem a página definida)
SITEMAP
É muito importante e relevante que o site tenha o sitemap, um arquivo em XML, tenha seu caminho definido, e o mesmo pode ser feito no arquivo robots.txt, mas não deixe de utilizar o Google Webmaster.
- Sitemap: http://seusite.com.br/sitemap.xml
- Sitemap: http://seusite.com.br/sitemap_blog.xml
EXEMPLO
Um pequeno exemplo de um robots.txt simples, que permite com que todos navegadores sigam as regras específicas, além de bloquear a indexação da pasta /admin/, exceto do acesso ao mesmo. Claro, definindo a URL do sitemap.xml do projeto!
User-agent: *
Allow: /
Disallow: /admin/
Allow: /admin/entrar
Sitemap: http://seusite.com.br/sitemap.xml
SITEMAPS REAIS
Confira exemplos online de arquivos robots.txt, para fazer isso, basta nevegar pela internet um pouco e insetir /robots.txt logo após a URL base do site. Veja alguns exemplos:
- Google - www.google.com.br/robots.txt
- Facebook - www.facebook.com/robots.txt
- Abradi - www.abradi.com.br/robots.txt (WordPress)
Matheus Pereira
28 anos, paulistano, desenvolvedor back-end e graduado em tecnologia da informação. Adoro músicas, jogos eletrónicos e sou completamente apaixonado pelo mundo digital.Posts Relacionados
Entenda como realizar a intalção e configuração do seu Nginx com PHP 8 em seu servidor Ubuntu 18.04
Assista um episódio do documentário "Explicando" da Netflix para conhecer mais sobre Código de Programação e o mundo binário da computação
Jogador de Dota que o Bradesco respondeu entregou o prêmio de melhor comunicação com o cliente em 2015 ao superintendente executivo do Banco Bradesco