Sitemap XML et robots.txt : deux fichiers techniques indispensables pour contrôler ce que Google indexe et accélérer la découverte de vos pages.
Le sitemap XML et le fichier robots.txt sont deux outils complémentaires pour gérer l’indexation de votre site par Google. Le sitemap dit à Google « voici toutes les pages que je veux que tu découvres ». Le robots.txt dit à Google « voici les zones que je ne veux pas que tu crawles ». Ensemble, ils vous donnent un contrôle précis sur ce qui entre dans l’index Google — et ce qui n’y entre pas.
Lucas Fonseque, consultant SEO depuis 2017. Voici comment configurer ces deux fichiers correctement et éviter les erreurs qui font ignorer des pages entières par Google.
Le sitemap XML : pourquoi et comment
À quoi ça sert vraiment ?
Un sitemap XML est un fichier qui liste toutes les URLs que vous voulez soumettre à Google, avec des métadonnées optionnelles (date de modification, fréquence de mise à jour, priorité). Il accélère la découverte de vos nouvelles pages et aide Google à identifier les pages importantes sur les sites avec une architecture complexe.
Le sitemap ne garantit pas l’indexation — Google peut ignorer des URLs listées dans le sitemap si leur qualité est insuffisante. Il améliore la probabilité de découverte et accélère le crawl des nouvelles pages.
Comment créer un sitemap XML sur WordPress
Rank Math (gratuit) génère automatiquement un sitemap XML à /sitemap_index.xml. Il est mis à jour en temps réel à chaque nouvelle publication. Yoast SEO et AIOSEO font de même. Sur des sites non-WordPress, des outils comme XML-Sitemaps.com génèrent un sitemap statique en quelques clics.
Comment soumettre son sitemap dans Google Search Console
Dans Search Console, allez dans « Sitemaps » et entrez l’URL de votre sitemap (généralement /sitemap_index.xml ou /sitemap.xml). Google indiquera combien d’URLs ont été découvertes et si des erreurs sont présentes. Vérifiez que le nombre d’URLs dans le sitemap correspond au nombre de pages que vous voulez indexer — un écart important signale un problème.
Ce qu’il ne faut pas inclure dans le sitemap
Pages en noindex, pages de résultats de recherche interne, pages de pagination (souvent), pages de tags et catégories si elles sont en noindex, pages d’administration. Un sitemap qui inclut des milliers de pages de faible valeur peut nuire à la perception de qualité globale du site par Google.
Le fichier robots.txt : contrôler le crawl
Qu’est-ce que le robots.txt ?
Le fichier robots.txt (accessible à votresite.fr/robots.txt) contient des directives pour les robots des moteurs de recherche : quelles zones du site ils peuvent crawler, lesquelles sont interdites. C’est le premier fichier que Googlebot lit en arrivant sur votre site.
Attention : robots.txt contrôle le crawl, pas l’indexation. Une page bloquée dans robots.txt peut quand même être indexée par Google si d’autres sites y pointent. Pour empêcher l’indexation, utilisez la balise noindex — pas robots.txt.
Ce qu’il faut bloquer dans robots.txt
Les zones typiquement à bloquer : le répertoire /wp-admin/ (sauf pour les crawlers qui en ont besoin), les pages de résultats de recherche interne (/search/, /s=), les pages de connexion, les fichiers de staging ou de test. Sur WordPress, la configuration par défaut de Rank Math ou Yoast gère un robots.txt sain automatiquement.
L’erreur critique à éviter
Bloquer accidentellement tout le site avec « Disallow: / » dans robots.txt. Ça arrive lors de migrations ou de refontes quand le fichier de l’environnement de staging est copié en production. Dans Search Console, cette erreur génère une alerte immédiate — mais le temps que Google le détecte et recrawle, des dizaines de pages peuvent avoir disparu des résultats.
Vérification rapide de vos deux fichiers
Sitemap : votresite.fr/sitemap_index.xml doit être accessible et listé dans Search Console sans erreur. Le nombre d’URLs soumises doit correspondre à vos pages stratégiques.
Robots.txt : votresite.fr/robots.txt doit être lisible. Vérifiez qu’aucun répertoire important n’est accidentellement bloqué. La ligne « Allow: / » doit être présente pour Googlebot si vous utilisez des restrictions par répertoire.
Sitemap et robots.txt dans une stratégie SEO globale
Ces deux fichiers font partie du pilier technique SEO — ils sont nécessaires pour que Google comprenne correctement l’architecture de votre site. Un site sans sitemap soumis dans Search Console découvre ses nouvelles pages plus lentement. Un site avec un robots.txt mal configuré peut avoir des zones entières non crawlées.
Dans chaque audit SEO technique que je réalise, la vérification du sitemap et du robots.txt est systématique et prend 5 à 10 minutes — mais les erreurs sur ces fichiers peuvent expliquer des problèmes d’indexation qui frustrent des équipes entières depuis des mois.
Vous voulez vérifier la configuration technique de votre site et corriger les problèmes d’indexation ?










