Configurer correctement robots.txt pour le référencement (mon guide)

Le fichier robots.txt est un petit fichier qui a un impact important. Il détermine ce que les moteurs de recherche peuvent ou ne peuvent pas explorer sur votre site web. Une erreur dans ce fichier peut entraîner un blocage du contenu, une indexation manquée ou même une perte de classement. Dans cet article, je vais vous expliquer étape par étape comment configurer correctement un fichier robots.txt pour le référencement.
1. Qu’est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte que vous placez à la racine de votre domaine (par exemple https://jouwdomein.nl/robots.txt). Les moteurs de recherche lisent ce fichier lors de leur première visite afin de déterminer les chemins qu’ils peuvent explorer.
Important :
- Ce n’est pas une garantie que quelque chose ne sera pas indexé (utilisez également noindex pour cela).
- Il bloque l’exploration, mais pas nécessairement l’indexation.
- Des règles incorrectes peuvent causer des dommages involontaires au niveau du référencement.
2. Structure d’un fichier robots.txt
Un fichier standard se présente comme suit :
txt
User-agent: *
Disallow:
Sitemap: https://jouwdomein.nl/sitemap.xml
Explication :
- User-agent : * = s’applique à tous les robots
- Disallow : sans chemin d’accès = tout autoriser
- Disallow : /admin/ = bloque tout ce qui se trouve dans le dossier /admin/.
- Allow : /path/ = autoriser explicitement (utile pour les exceptions)
3. Qu’est-ce que vous bloquez et ne bloquez pas ?
Blocage cependant :
- Pages d’administration/de connexion (/wp-admin/, /cart/, /checkout/)
- Résultats de la recherche interne (/search/)
- Filtrer les pages avec des paramètres inutiles (?color=, ?sort=)
- Répertoires Test/dev (/beta/, /test/)
Ne pas bloquer :
- Fichiers CSS et JS (nécessaires pour le contrôle du rendu)
- Types de pages clés (pages SEO, blog, services)
- Images (à moins que vous ne souhaitiez délibérément les exclure des résultats de recherche d’images)
Google doit être en mesure d’afficher le site comme le font les utilisateurs. Ne bloquez donc pas les fichiers de style ou de script.
Aan de slag met SEO? Neem gerust contact op.

4. Exemples de bonnes configurations
Pour WordPress :
txt
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://jouwdomein.nl/sitemap_index.xml
Pour les boutiques en ligne (par exemple WooCommerce) :
txt
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /?orderby=
Disallow: /*add-to-cart=*
Sitemap: https://jouwdomein.nl/sitemap.xml
5. Testez votre fichier robots.txt
Les erreurs s’accumulent rapidement. Testez toujours :
- Google Search Console > Testeur Robots.txt
- Screaming Frog > Configuration > Robots.txt
- Chrome DevTools > Messages d’erreur « Bloqué par robots.txt ».
6. Erreurs courantes
Erreur | Solution |
Bloquez tout avec Disallow : / | Ne s’applique qu’aux situations provisoires ou temporaires |
Blocage CSS/JS | Laissez toujours l’accès libre pour un rendu correct |
Pas de ligne sitemap incluse | Ajoutez le plan du site au bas du fichier |
Disallow : /* ? utiliser sans test | Veillez à ce que les paramètres qui ont une valeur restent accessibles |
Utiliser robots.txt au lieu de noindex | Utilisez noindex pour le contrôle de l’indexation, robots.txt uniquement pour le crawling. |
7. Robots.txt et environnements de mise en scène/de test
Vous souhaitez protéger des environnements de test ou de mise à l’essai ?
Utilisation :
txt
User-agent: *
Disallow: /
Mais : cela n’empêche que le crawling, pas l’indexation. A combiner avec :
- Authentification HTTP (sécurité de base)
- noindex dans les balises <meta>
- Bloquer l’adresse IP via .htaccess ou un pare-feu
En conclusion
Un fichier robots.txt correctement paramétré permet d’éviter le gaspillage de ressources et de protéger votre site contre des problèmes d’indexation involontaires. Travaillez avec des règles claires et contrôlées – et testez chaque modification. Petit fichier, grand effet.