Archivo robots.txt, todo lo que no sabes y deberías de saber

Para crear un archivo robots.txt lo primero que necesitas es tener acceso a la raíz de tu dominio, ya que este fichero debe de ser alojado en el directorio raíz, sino sabes exactamente como hacer ésto ponte en contacto con tu proveedor de servicios web para preguntarle.

Se sabe que los robots rastrean toda la información online, y buscan todo lo que esté alojado en un determinado hosting, el problema viene cuando rastrean ficheros que realmente no tienen contenido útil para las búsquedas, ficheros de plantillas de wordpress, ficheros jquery… en este caso las arañas de los buscadores están haciendo un esfuerzo extra en indexar este contenido y no servirá de nada para posicionar mejor tu sitio web.

Entonces te estarás preguntando ¿y cómo hago para evitarles este trabajo extra? Pues muy fácil, creando un archivo robots.txt. Vamos a ello…

Qué es un fichero robots.txt y para qué sirve este tipo de ficheros

Realmente este fichero sólo es un archivo de texto donde establecerás unas recomendaciones de indexación, unas claves de comportamiento para los robots que tengan que indexar tu información.

Este fichero si existe en el directorio raíz de tu sitio web, será el primero que revisen, con lo que es bueno definir bien la forma en qué van a interactuar con tu información.

Los principales motivos para usarlo serían:

  • Su uso mejora el ranking del sitio, ya que facilitan a los bots la indexación del sitio web.
  • Impiden el consumo de banda innecesario indexando ficheros que realmente no tienen que ver con el contenido real del sitio.
  • Impiden que nuestro sitio indexe contenido duplicado en internet, me explico, imagínate que tienes un wordpress, si permites que los bots o robots de los buscadores indexen todas las carpetas de wordpress estarás indexando las carpetas de la propia plantilla, de definición del panel de control del wordpress, de plugins… y eso ya estará indexando por otros muchísimos sitios y puede considerarse duplicidad de contenido por los bots de google, por ejemplo.
  • Si usamos nuestro ftp para subir contenido de fotos, contenido personal… también podríamos usar el robots.txt para evitar el acceso a estos ficheros personales.
  • Uno de los motivos más interesantes es que puedes usarlo para indicar como acceder a tu mapa del sitio.
Tenemos que tener en cuenta dos cosas sobre el archivo robots.txt:
  1. Algunos robots maliciosos o malware podrían ignorar las instrucciones contenidas en el archivo robots.txt
  2. El archivo robots.txt es un archivo público, por lo que cualquiera podría acceder a su contenido sólo con teclear: https://www.monicasaavedra.com/robots.txt.

Por lo que si realmente estás pensando en utilizar el archivo robots.txt para esconder información personal o privada, realmente yo te diría que busques otra alternativa más segura y fiable, jeje.

Creando manualmente un archivo robots.txt para tu sitio web

Podríamos usar herramientas para la configuración y creación de este tipo de archivos de texto, pero sus reglas de creación son tan fáciles que podemos hacerlo nosotros mismos, de forma manual.

Como comentaba un archivo robots.txt es un archivo de texto, podrás crearlo o editarlo directamente desde cualquier herramienta de edición de texto, como por ejemplo un Notepad++, block de notas, el que tengas más a mano y utilices.

Pues bien, partamos de un fichero vacío, que nombraremos como robots.txt y que guardaremos, como ya he dicho en el raíz de nuestro sitio web.

Posteriormente, cuando ya lo tengas generado tendrás que usar un cliente FTP, como FileZilla o Cyberduck para subirlo a tu hosting.

El archivo robots.txt se crea utilizando las siguientes palabras clave:

User-Agents: Spider Name (que sería el nombre del robot buscador) ya que cada buscador puede tener distintas especificaciones. Si queremos que afecte a todos los buscadores se podrán un “*”.

Disallow: (ruta/directorio/) Ruta es el nombre del archivo o carpeta que no se quiere indexar, para prohibir todos los archivos de un directorio se tendría que incluir un “/” al final de la ruta.

Allow: (ruta/directorio/) Ruta es el nombre del archivo o carpeta que se quiere indexar

Algunos comandos menos usados serían:

Crawl-delay: (segundos) Que nos sirve para indicar el número de segundos que debe de esperar entre cada página. Puede ser útil para casos en los que se necesita reducir la carga de nuestro servidor.

Sitemap: (ruta/directorio/) Para indicar donde se encuentra nuestro sitemap.

Ejemplos:

  • Disallow: / prohíbe la entrada a todo el alojamiento.
  • Disallow: /img/ prohíbe la entrada al directorio img.
  • Disallow: /paginaconcreta.html prohíbe la entrada a la url de la página concreta que has especificado después de la barra
  • Disallow: /*.jpg prohíbe la entrada a todas la imágenes que tengan extensión .jpg
  • Allow: /directorio/subdirectorio/ permite la entrada concreta a un directorio y a un subdirectorio especificado de antemano
  • Sitemap: https://monicasaavedra.com/sitemap.xml permite especificar la ruta concreta de nuestro sitemap.
  • Disallow:/*.pdf$ Este caso es similar que el de las imágenes .jpg pero con el Dollar estamos indicando que lo haga con todos los archivos que tengan una terminación pdf.

Reglas principales

  • Hay que tener en cuenta que las directivas del archivo robots.txt atienden o distinguen las mayúsculas y minúsculas, con lo que cuando se hacen especificaciones de ficheros hay que tener en cuenta cómo es su nombre original y escribirlo igual.
  • Puedes crear comentarios la almohadilla (#) será el carácter que indique que todo lo escrito después es un comentario.
  • Cada grupo User-agent/Disallow debe de estar separado por una línea en blanco.
  • Y por supuesto, sólo se pueden usar los comandos permitidos.

Consejos al crear un archivo robots.txt:

El robot de Google tiene diferentes robots para realizar tareas distintas ten en cuenta los distintos bots para configurar tu archivo robots.txt.

  • Googlebot, rastrea páginas y contenido web.
  • Googlebot-Image, rastrea imágenes y fotos para Imágenes de Google.
  • Googlebot-Mobile, contenido para dispositivos móviles.
  • Mediapartners-Google, es el robot del servicio de AdSense.

Si usas diseño adaptable o responsive es mejor que no bloquees el acceso a tus hojas de estilo responsive, para que el robot vea en todo momento el contenido igual que el usuario.

Os dejo aquí para descargar unos ejemplos de archivo robots.txt

Otras formas de crear un archivo robots.txt

crear archivos robots.txt
Creación de archivo robots.txt automáticamente

Hay diversas herramientas online que nos facilitan el trabajo de la creación de un archivo robots.txt manualmente, yo he probado varias, pero sin duda me quedo con la siguiente: Generador de archivo robots.txt, es fácil y rápida y de una manera intuitiva, eso sí, si sabes inglés puedes ir incorporando las distintas acciones que necesitas especificar para tu fichero.

Deja un comentario

Uso de cookies

Este sitio web utiliza cookies, tanto propias como de terceros para recopilar información estadística sobre tu navegación. Si continuas navegando, consideramos que aceptas el uso de cookies. política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies