Configurar robots.txt correctamente para SEO (mi guía)

21 julio 2025

Tiempo de leer: 4 minutos

Senior SEO-specialist

El robots.txt es un pequeño archivo con un gran impacto. Determina lo que los motores de búsqueda pueden y no pueden rastrear en tu sitio web. Un error en este archivo puede provocar el bloqueo de contenido, la no indexación o incluso la pérdida de posicionamiento. En este artículo, te explico paso a paso cómo configurar correctamente un archivo robots.txt para SEO.

Índice de contenidos mostrar

1. ¿Qué es robots.txt?

El robots.txt es un archivo de texto que colocas en la raíz de tu dominio (por ejemplo, https://jouwdomein.nl/robots.txt). Los motores de búsqueda leen este archivo en su primera visita para determinar qué rutas pueden rastrear.

Importante:

No es una garantía de que algo no se indexe (para eso utiliza también noindex)
Bloquea el rastreo, no necesariamente la indexación
Unas reglas incorrectas pueden causar daños involuntarios en el SEO

2. Estructura de un archivo robots.txt

Un archivo estándar tiene el siguiente aspecto:


            txt

User-agent: *

Disallow:

Sitemap: https://jouwdomein.nl/sitemap.xml

Copy to Clipboard

Explicación:

Agente de usuario: * = se aplica a todos los bots
Disallow: sin ruta = permitir todo
Disallow: /admin/ = bloquea todo lo que haya en la carpeta /admin/.
Permitir: /ruta/ = permitir explícitamente (útil para excepciones)

3. ¿Qué bloqueas y qué no bloqueas?

Sin embargo, bloquea:

Páginas de administración/inicio de sesión (/wp-admin/, /cart/, /checkout/)
Resultados de la búsqueda interna (/buscar/)
Filtrar páginas con parámetros innecesarios (?color=, ?sort=)
Directorios test/dev (/beta/, /test/)

No bloquees:

Archivos CSS y JS (necesarios para el control de renderizado)
Tipos de páginas clave (páginas SEO, blog, servicios)
Imágenes (a menos que quieras mantenerlas deliberadamente fuera de los resultados de búsqueda de imágenes)

Google debe ser capaz de renderizar el sitio como lo hacen los usuarios. Así que no bloquees los archivos de estilo o script.

¿Empezando con el SEO? No dudes en ponerte en contacto.

4. Ejemplos de buena configuración

Para WordPress:


            txt

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Disallow: /?s=

Disallow: /search/

Sitemap: https://jouwdomein.nl/sitemap_index.xml

Copy to Clipboard

Para tienda online (por ejemplo, WooCommerce):


            txt

User-agent: *

Disallow: /cart/

Disallow: /checkout/

Disallow: /my-account/

Disallow: /?orderby=

Disallow: /*add-to-cart=*

Sitemap: https://jouwdomein.nl/sitemap.xml

Copy to Clipboard

5. Prueba tu archivo robots.txt

Los errores aparecen rápidamente. Prueba siempre:

Google Search Console > Comprobador de Robots.txt
Screaming Frog > Configuración > Robots.txt
Chrome DevTools > Mensajes de error «Bloqueado por robots.txt

6. Errores comunes

Error	Solución
Bloquear todo con Disallow: /	Aplicar sólo en situaciones provisionales / temporales
Bloqueo CSS/JS	Dejar siempre accesible para una correcta representación
No incluye línea de mapa del sitio	Añade el mapa del sitio al final del archivo
Disallow: /*? utilizar sin test	Asegúrate de que los parámetros que tienen valor siguen siendo accesibles
Utilizar robots.txt en lugar de noindex	Utiliza noindex para controlar la indexación, robots.txt sólo para el rastreo

7. Robots.txt y entornos de montaje/prueba

¿Quieres blindar entornos de prueba o de ensayo?

Utilización:


            txt

User-agent: *

Disallow: /

Copy to Clipboard

Pero: esto sólo impide el rastreo, no la indexación. Combínalo con:

Autenticación HTTP (seguridad básica)
etiquetas noindex en <meta>
Bloquear la dirección IP mediante .htaccess o cortafuegos

En conclusión

Un robots.txt correctamente configurado evita el desperdicio de rastreo y protege tu sitio de problemas de indexación involuntarios. Trabaja con reglas claras y controladas, y haz pruebas con cada cambio. Pequeño archivo, gran efecto.