Configurar robots.txt correctamente para SEO (mi guía)

El robots.txt es un pequeño archivo con un gran impacto. Determina lo que los motores de búsqueda pueden y no pueden rastrear en tu sitio web. Un error en este archivo puede provocar el bloqueo de contenido, la no indexación o incluso la pérdida de posicionamiento. En este artículo, te explico paso a paso cómo configurar correctamente un archivo robots.txt para SEO.
1. ¿Qué es robots.txt?
El robots.txt es un archivo de texto que colocas en la raíz de tu dominio (por ejemplo, https://jouwdomein.nl/robots.txt). Los motores de búsqueda leen este archivo en su primera visita para determinar qué rutas pueden rastrear.
Importante:
- No es una garantía de que algo no se indexe (para eso utiliza también noindex)
- Bloquea el rastreo, no necesariamente la indexación
- Unas reglas incorrectas pueden causar daños involuntarios en el SEO
2. Estructura de un archivo robots.txt
Un archivo estándar tiene el siguiente aspecto:
txt
User-agent: *
Disallow:
Sitemap: https://jouwdomein.nl/sitemap.xml
Explicación:
- Agente de usuario: * = se aplica a todos los bots
- Disallow: sin ruta = permitir todo
- Disallow: /admin/ = bloquea todo lo que haya en la carpeta /admin/.
- Permitir: /ruta/ = permitir explícitamente (útil para excepciones)
3. ¿Qué bloqueas y qué no bloqueas?
Sin embargo, bloquea:
- Páginas de administración/inicio de sesión (/wp-admin/, /cart/, /checkout/)
- Resultados de la búsqueda interna (/buscar/)
- Filtrar páginas con parámetros innecesarios (?color=, ?sort=)
- Directorios test/dev (/beta/, /test/)
No bloquees:
- Archivos CSS y JS (necesarios para el control de renderizado)
- Tipos de páginas clave (páginas SEO, blog, servicios)
- Imágenes (a menos que quieras mantenerlas deliberadamente fuera de los resultados de búsqueda de imágenes)
Google debe ser capaz de renderizar el sitio como lo hacen los usuarios. Así que no bloquees los archivos de estilo o script.
Aan de slag met SEO? Neem gerust contact op.

4. Ejemplos de buena configuración
Para WordPress:
txt
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://jouwdomein.nl/sitemap_index.xml
Para tienda online (por ejemplo, WooCommerce):
txt
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /?orderby=
Disallow: /*add-to-cart=*
Sitemap: https://jouwdomein.nl/sitemap.xml
5. Prueba tu archivo robots.txt
Los errores aparecen rápidamente. Prueba siempre:
- Google Search Console > Comprobador de Robots.txt
- Screaming Frog > Configuración > Robots.txt
- Chrome DevTools > Mensajes de error «Bloqueado por robots.txt
6. Errores comunes
Error | Solución |
Bloquear todo con Disallow: / | Aplicar sólo en situaciones provisionales / temporales |
Bloqueo CSS/JS | Dejar siempre accesible para una correcta representación |
No incluye línea de mapa del sitio | Añade el mapa del sitio al final del archivo |
Disallow: /*? utilizar sin test | Asegúrate de que los parámetros que tienen valor siguen siendo accesibles |
Utilizar robots.txt en lugar de noindex | Utiliza noindex para controlar la indexación, robots.txt sólo para el rastreo |
7. Robots.txt y entornos de montaje/prueba
¿Quieres blindar entornos de prueba o de ensayo?
Utilización:
txt
User-agent: *
Disallow: /
Pero: esto sólo impide el rastreo, no la indexación. Combínalo con:
- Autenticación HTTP (seguridad básica)
- etiquetas noindex en <meta>
- Bloquear la dirección IP mediante .htaccess o cortafuegos
En conclusión
Un robots.txt correctamente configurado evita el desperdicio de rastreo y protege tu sitio de problemas de indexación involuntarios. Trabaja con reglas claras y controladas, y haz pruebas con cada cambio. Pequeño archivo, gran efecto.