Robots.txt: ¿Qué es y cómo funciona?

crear robots txt wordpress

Mucho se habla acerca del archivo robots.txt, como se usa, que es, para que sirve, donde se ubica, que puede hacer referente al seo y muchas otras preguntas más. Si te has tropezado con una de ellas pues quédate hasta el final ya que este articulo intentará despejar todas las posibles dudas que tengas referente al tema.

Pero para entenderlo aun más fácil, primero hay que responder a la principal pregunta. ¿Qué es el archivo robots txt?.

Empecemos…

¿Qué es un archivo robots.txt?

Robots.txt es un archivo de texto breve que indica a los rastreadores web (por ejemplo, Googlebot) lo que pueden rastrear de tu sitio web.

Desde la perspectiva de SEO, robots.txt ayuda a rastrear primero las páginas más importantes y evita que los bots visiten páginas que no son importantes.

Así es como se ve robots.txt:

robots txt google

Dónde como encontrar robots.txt?

Encontrar el archivo robots.txt es bastante sencillo: basta con ir a la página de inicio de cualquier dominio y agregar «/robots.txt» al final del dominio.

Ahí mostrará un archivo robots.txt real que funciona, solamente para los bots de los buscadores.

https://midominio.com/robots.txt

El archivo Robots.txt es una carpeta pública que se puede consultar prácticamente en cualquier sitio web; incluso se puede encontrar en sitios como Amazon, Facebook o wikipedia.

¿Por qué es importante robots.txt?

El propósito del archivo robots.txt es decirle a los rastreadores a qué partes de tu sitio web pueden acceder y cómo deben interactuar con ellas páginas.

En términos generales, es importante que el contenido del sitio web se pueda rastrear e indexar primero: los motores de búsqueda deben encontrar sus páginas antes de que puedan aparecer como resultados de búsqueda.

Sin embargo, en algunos casos, es mejor prohibir que los rastreadores web visiten ciertas páginas (por ejemplo, páginas vacías, página de inicio de sesión para su sitio web, etc.).

Esto se puede lograr mediante el uso de un archivo robots.txt que los rastreadores siempre verifican antes de comenzar a rastrear el sitio web.

Además del propósito fundamental del archivo robots.txt, también hay algunos beneficios de SEO que pueden ser útiles en ciertas situaciones.

1. Optimizar el presupuesto de rastreo

El presupuesto de rastreo determina la cantidad de páginas que los rastreadores web como Googlebot rastrearán (o volverán a rastrear) dentro de un período determinado.

Te puede interesar:   ¿Cuántas palabras debe tener una publicación de blog?

Muchos sitios web más grandes generalmente contienen toneladas de páginas sin importancia que no necesitan ser rastreadas e indexadas con frecuencia (o no en absoluto).

El uso de robots.txt le dice a los motores de búsqueda qué páginas rastrear y cuáles evitar por completo , lo que optimiza la eficiencia y la frecuencia del rastreo.

2. Administrar contenido duplicado

Robots.txt puede ayudarte a evitar el rastreo de contenido similar o duplicado en tus páginas.

Muchos sitios web contienen algún tipo de contenido duplicado, ya sea que haya páginas con parámetros de URL, páginas con www o sin www, archivos PDF idénticos, etc.

Al señalar estas páginas a través de robots.txt, puede administrar contenido que no necesita ser rastreado y ayudar al motor de búsqueda a rastrear solo aquellas páginas que desea que aparezcan en la Búsqueda de Google.

3. Evita la sobrecarga del servidor

El uso de robots.txt podría ayudar a evitar que el servidor del sitio web se bloquee.

En términos generales, Googlebot (y otros rastreadores respetables) suelen ser buenos para determinar qué tan rápido deben rastrear su sitio web sin abrumar la capacidad de su servidor.

Sin embargo, es posible que desee bloquear el acceso a los rastreadores que visitan su sitio con demasiada frecuencia.

En estos casos, robots.txt puede decirles a los rastreadores en qué páginas en particular deben enfocarse, dejando otras partes del sitio web en paz y evitando así la sobrecarga del sitio.

Además, es posible que desee bloquear ciertos bots que están causando problemas en el sitio, ya sea que se trate de un bot «malo» que sobrecarga su sitio con solicitudes, o bloquea los raspadores que intentan copiar todo el contenido de su sitio web.

¿Cómo funciona el archivo robots.txt?

Los principios fundamentales de cómo funciona el archivo robots.txt son bastante sencillos: consta de 2 elementos básicos que dictan qué rastreador web debe hacer algo y qué debe ser exactamente:

  • User-agent: especifique qué rastreadores serán dirigidos para evitar (o rastrear) ciertas páginas
  • Directives: le dice a los agentes de usuario qué deben hacer con ciertas páginas.

Este es el ejemplo más simple de cómo puede verse el archivo robots.txt con estos 2 elementos:

User-agent: Googlebot
Disallow: /wp-admin/

Echemos un vistazo más de cerca a ambos.

Agentes de usuario(User-agent)

User-agent es el nombre de un rastreador específico que recibirá instrucciones sobre cómo rastrear su sitio web mediante directivas.

Por ejemplo, el User-agent para el rastreador general de Google es » Googlebot «, para el rastreador de Bing es » BingBot «, para Yahoo » Slurp «, etc.

Te puede interesar:   ¿Que es la Autoridad de Dominio (DA)? Te explico para que sirve y como Potenciarla con 5 estrategias

Para marcar todos los tipos de rastreadores web para una determinada directiva a la vez, puede usar el símbolo » * » (llamado comodín): representa todos los bots que «obedecen» el archivo robots.txt.

En el archivo robots.txt, se vería así:

User-agent: *
Disallow: /wp-admin/

Directivas (Directives)

Las directivas de Robots.txt son las reglas que seguirá el agente de usuario especificado.

De forma predeterminada, se indica a los rastreadores que rastreen todas las páginas web disponibles: robots.txt luego especifica qué páginas o secciones de su sitio web no deben rastrearse.

Hay 3 reglas más comunes que se utilizan:

  • “ Disallow ” : les dice a los rastreadores que no accedan a nada de lo que se especifica en esta directiva. Puede asignar múltiples instrucciones de rechazo a los agentes de usuario.
  • “ Permitir ” : les dice a los rastreadores que pueden acceder a algunas páginas desde la sección del sitio que ya no está permitida.
  • “ Mapa del sitio ” : si ha configurado un mapa del sitio XML, robots.txt puede indicar a los rastreadores web dónde pueden encontrar las páginas que desea rastrear al señalarlas en su mapa del sitio.

Aquí un ejemplo de cómo puede verse robots.txt con estas 3 directivas simples:

User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/random-content.php
Sitemap: https://www.example.com/sitemap.xml

Con la primera línea, hemos determinado que la directiva se aplica a un rastreador específico: Googlebot.

En la segunda línea (la directiva), le dijimos a Googlebot que no queremos que acceda a una determinada carpeta, en este caso, la página de inicio de sesión de un sitio de WordPress.

En la tercera línea, agregamos una excepción: aunque Googlebot no puede acceder a nada que esté debajo de la /wp-admin/ carpeta, puede visitar una dirección específica.

Con la cuarta línea, le indicamos a Googlebot dónde encontrarlo Sitemapcon una lista de URL que desea rastrear.

También hay algunas otras reglas útiles que se pueden aplicar a su archivo robots.txt, especialmente si su sitio contiene miles de páginas que deben administrarse.

* (comodín)

El comodín *es una directiva que indica una regla para patrones coincidentes.

La regla es especialmente útil para sitios web que contienen toneladas de contenido generado, páginas de productos filtradas, etc.

Por ejemplo, en lugar de rechazar cada página de producto en la /products/sección de forma individual (como en el ejemplo a continuación):

User-agent: *
Disallow: /products/shoes?
Disallow: /products/boots?
Disallow: /products/sneakers?

Podemos usar el comodín para no permitirlos todos a la vez:

User-agent: *
Disallow: /products/*?

En el ejemplo anterior, se le indica al agente de usuario que no rastree ninguna página debajo de la sección /products/ que contiene el signo de interrogación «?» (a menudo se usa para URL de categorías de productos parametrizados).

Te puede interesar:   Enlazatom Potencia tu sitio web con el enlazado interno automatizado

$

El $ símbolo se utiliza para indicar el final de una URL: se puede indicar a los rastreadores que no deben (o deberían) rastrear URL con un final determinado:

User-agent: *
Disallow: /*.gif$

El $signo » » les dice a los bots que deben ignorar todas las URL que terminan con » .gif».

#

El # letrero sirve solo como comentario o anotación para lectores humanos; no tiene impacto en ningún agente de usuario, ni sirve como directiva:

# We don't want any crawler to visit our login page!
User-agent: *
Disallow: /wp-admin/

Cómo crear un archivo robots.txt

Crear tu propio archivo robots.txt no es ciencia espacial.

Si estás utilizando WordPress para tu sitio, tendrás un archivo robots.txt básico ya creado, similar a los que se muestran arriba.

Sin embargo, si planeas realizar algunos cambios adicionales en el futuro, existen algunos plugins simples que pueden ayudarte a administrar el archivo robots.txt, como:

  • Yoast SEO
  • Rank Math
  • AONESEO PACK

Estos plugins facilitan el control de lo que deseas permitir y rechazar, sin tener que escribir ninguna sintaxis complicada usted mismo.

Alternativamente, también puede editar su archivo robots.txt a través de FTP; si confías en acceder y editarlo, entonces cargar un archivo de texto es bastante fácil.

Sin embargo, este método es mucho más complicado y puede introducir errores rápidamente.

Cómo comprobar un archivo robots.txt

Hay muchas maneras de verificar (o probar) su archivo robots.txt; en primer lugar, debe intentar encontrar robots.txt por su cuenta.

A menos que hayas indicado una URL específica, tu archivo se alojará en » https://midominio.com/robots.txt«; si estás utilizando otro creador de sitios web, la URL específica puede ser diferente.

Para verificar si los motores de búsqueda como Google realmente pueden encontrar y «obedecer» su archivo robots.txt, puede:

  • Utilizar, robots.txt Tester: una herramienta simple de Google que puede ayudarlo a averiguar si su archivo robots.txt funciona correctamente.
  • Verificar en Google Search Console: puede buscar cualquier error causado por robots.txt en la pestaña » Cobertura » de Google Search Console. Asegúrese de que no haya URL que informen mensajes » bloqueados por robots.txt » sin querer.

Mejores prácticas de Robots.txt

Los archivos Robots.txt pueden volverse complejos fácilmente, por lo que es mejor mantener las cosas lo más simples posible.

Aquí te dejo algunos consejos que pueden ayudarte a crear y actualizar tu propio archivo robots.txt:

Usa archivos separados para los subdominios : si tu sitio web tiene varios subdominios, debes tratarlos como sitios web separados. Crea siempre archivos robots.txt separados para cada subdominio que poseas.

Especifica los agentes de usuario solo una vez; intenta combinar todas las directivas que están asignadas a un agente de usuario específico. Esto establecerá la simplicidad y la organización en su archivo robots.txt.

Garantiza la especificidad : asegúrate de especificar las rutas de URL exactas y preste atención a las barras inclinadas finales o signos específicos que están presentes (o ausentes) en sus URL.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *