Robots.txt
Presentación del archivo robots.txtrobots.txt es un archivo que contiene comandos para los robots que indican motores de búsqueda y especifican qué páginas pueden o no pueden indexarse. Cuando un motor de búsqueda explora un sitio web lo primero que hace es buscar el archivo robots.txt en la raíz del sitio.
Formato del archivo robots.txtEl archivo robots.txt es un archivo ASCII localizado en la raíz del sitio. Puede contener los siguientes comandos:
•Usuario agente: se usa para especificar qué robot cumplirá las órdenes que siguen. El valor * significa "todos los motores de búsqueda".
•No permitir: se usa para identificar qué páginas se excluirán durante la indización. Cada página o ruta que se va a excluir debe estar en una línea separada y debe comenzar con /. El valor / sólo significa "todas las páginas del sitio web".
El archivo robots.txt no debe contener ninguna línea vacía.
Estos son algunos ejemplos de archivos robots.txt:
•Se excluyen todas las páginas:
Usuario agente: * No permitir: /•No se excluye ninguna página, que es lo mismo que no tener ningún archivo robots.txt, lo que significa que se visitan todas las páginas:
Usuario agente: * No permitir: •Sólo un robot está autorizado:
Usuario agente: Nombre del robot No permitir: Usuario agente: * No permitir: /•Se excluye un robot:
Usuario agente: Nombre del robot No permitir: / Usuario agente: * No permitir:•Se excluye una página:
Usuario agente: * No permitir: /directorio/ruta/página.html•Se excluyen todas las páginas de un directorio y sus subcarpetas:
Usuario agente: * No permitir: /directorio/
Ejemplos de usuarios agentes Estos son algunos ejemplos de usuarios agentes de los motores de búsqueda más populares
Nombre del motor de búsqueda Usuario agente: Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo