robots.txt

Pelas páginas da internet circulam robots (conhecidos como Web Wanderers, Crawlers, Spiders) com variadissimos objectivos. O google usa-os para indexar sites no seu motor de busca, os spammers usam-nos para encontrar endereços de email, www.archive.org usa-os para saber como estão as páginas numa dada data, etc.

Felizmente os webmasters podem controlar os acessos dos robots a certas àreas do seu site, por exemplo não quererá que o google index a sua página de administração. O controlo é feito pelo ficheiro robots.txt, conhecido como 'The Robots Exclusion Protocol'.
Este ficheiro, fica na base de cada dominio (ou seja www.dominio.com/robots.txt) e é constituido por duas palavras chave, User-agent (o nome do robot) e Disallow (não permite).

Exemplo:


User-agent: *
Dissallow: /admin/


Neste exemplo excluem-se todos os robots da pasta admin (ficheiros e sub-pastas).
Infelizmente este ficheiro está visivel a todos e portanto uma pessoa mal intencionada pode usá-lo para descubrir que pastas poderão ter informação essencial. Há também alguns robots mal programados e que o ignoram (ou simplesmente programados para o ignorar). Não existe também o comando Allow (permite) portanto há que ter cuidado ao escrever as regras.

Exemplo:


User-agent: *
Dissallow: /admin/

User-agent: MauRobot
Disallow: /

User-agent: Google
Disallow: /AntiGoogle1/
Disallow: /AntiGoogle2/index.php


Neste exemplo todos os robots estão impedidos de entrar na pasta admin, o MauRobot não poderá ver nenhum ficheiro, e o google além da pasta admin não poderá ver a pasta AntiGoogle1 e o ficheiro index.php na pasta AntiGoogle2. Não se esqueça que está num servidor baseado em unix pelo que a capitalização das letras conta.

Kas see vastus oli kasulik? 10 Kasutajad peavad seda kasulikuks (19 Hääled)