07/04/2025
Temps de lecture 9 min

Robots.txt et sitemap.xml : le guide complet

Les fichiers sitemap et robots.txt permettent d’aider les robots d’exploration des moteurs de recherche en leur indiquant ce qu’il faut indexer ou non. Primordiaux mais non obligatoires, ces fichiers contribuent grandement à optimiser un site web, notamment dans le cadre du référencement naturel. Ces outils techniques sont devenus essentiels pour tout webmaster souhaitant améliorer la visibilité de son site et faciliter le travail des moteurs de recherche.

Voyons tout d’abord comment fonctionnent les moteurs de recherche comme Google, Bing ou encore Yahoo.

Qu’est-ce que l’indexation ?

L’indexation désigne le processus par lequel les robots d’exploration, de Google par exemple, stockent et classent les contenus qu’ils trouvent sur les sites web pour pouvoir les présenter aux internautes qui recherchent des informations. Elle signifie qu’une page est éligible pour apparaître dans les résultats de recherche Google à la suite d’une exploration, qui fait référence à l’action par laquelle le Googlebot examine tout le contenu/code de la page pour l’analyser. Cette indexation est cruciale car une page non indexée ne pourra jamais apparaître dans les résultats de recherche, quel que soit son contenu ou sa pertinence.

Comment ça marche ?

Les moteurs de recherche type Google, utilisent des crawlers pour explorer tous les contenus en ligne. Il s’agit plus simplement de robots d’explorations qui vont suivre des liens pour analyser les différentes pages web et capter le maximum de données sur les sites. Ces robots, aussi appelés « spiders » ou « web crawlers », parcourent le web de façon systématique, en suivant les liens d’une page à l’autre. Ils analysent non seulement le contenu textuel, mais aussi les images, les vidéos et la structure technique du site. L’étape finale sera de livrer ces informations aux serveurs du moteur de recherche pour indexation, permettant ainsi de créer une immense base de données constamment mise à jour des contenus disponibles sur internet.

Le fichier sitemap

Qu’est-ce qu’un fichier sitemap ?

Une sitemap, ou plan de site en français, est un fichier technique qui répertorie de manière structurée toutes les URL que vous souhaitez fournir aux moteurs de recherches. Ce document essentiel contient non seulement les informations sur les pages web, mais également sur les contenus multimédias comme les vidéos, les images ou les fichiers d’actualités de votre site web.

Il existe deux grands types de sitemap, chacun ayant une fonction spécifique :

  • Un sitemap HTML est une page web interactive qui reproduit fidèlement la structure d’un site en listant toutes ses pages. Destiné principalement aux visiteurs, il va notamment aider les internautes à naviguer sur le site et à comprendre son architecture globale.
  • Un sitemap XML est un document technique au format standardisé qui liste toutes les URL d’un site. Spécifiquement conçu pour les moteurs de recherche, il suit le protocole sitemap officiel et inclut des métadonnées essentielles comme la date de dernière modification, la fréquence de mise à jour et la priorité de chaque page.

Pourquoi utiliser un sitemap ?

Le fichier sitemap joue un rôle crucial dans l’optimisation pour les moteurs de recherche en facilitant l’exploration et l’indexation de votre site. Il est particulièrement utile dans plusieurs situations :

  • Pour les nouveaux sites qui ont peu de liens externes
  • Pour les sites volumineux avec une architecture complexe
  • Pour les sites avec un contenu multimédia important
  • Pour les sites qui sont fréquemment mis à jour

Même si votre site est petit, un fichier sitemap reste un atout précieux pour votre stratégie SEO, d’autant plus si le site est nouveau ou en phase de développement.

Attention toutefois, ce n’est pas la qualité d’un sitemap qui vous accordera une place en première page des moteurs de recherche. Cela n’est possible qu’avec un bon référencement naturel global incluant un contenu de qualité, une structure technique optimisée et une stratégie de liens pertinente.

Exemple d’un sitemap XML :

<?xml version= »1.0″ encoding= »UTF-8″?>

<urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″>

 

<url>

<loc>https://www.example.com/</loc>

<lastmod>2024-04-04</lastmod>

<changefreq>daily</changefreq>

<priority>1.0</priority>

</url>

 

<url>

<loc>https://www.example.com/about</loc>

<lastmod>2024-03-28</lastmod>

<changefreq>monthly</changefreq>

<priority>0.8</priority>

</url>

 

<url>

<loc>https://www.example.com/blog</loc>

<lastmod>2024-04-01</lastmod>

<changefreq>weekly</changefreq>

<priority>0.9</priority>

</url>

 

</urlset>

 

Comment créer un sitemap ?

La création d’un sitemap peut s’effectuer de plusieurs manières, adaptées à différents besoins et compétences techniques :

  • Création manuelle : pour les petits sites, vous pouvez créer un fichier XML manuellement en respectant le protocole sitemap standard.
  • Outils en ligne : des applications web comme xml-sitemaps.com ou screaming frog permettent de générer automatiquement votre sitemap en analysant votre site.

Comment ajouter sitemap.xml et robots.txt dans wordpress ?

  • Plugins CMS : sur les systèmes de gestion de contenu comme WordPress, des extensions dédiées facilitent la création et la maintenance du sitemap :
    • Yoast SEO (le plus populaire)
    • XML Sitemap Generator for Google
    • Rank Math
    • All in One SEO Pack

Une fois le sitemap créé, il est primordial de maintenir sa mise à jour régulière pour refléter les changements du site, sauf si votre plugin gère déjà automatiquement cette tâche. Les modifications importantes comme l’ajout de nouvelles pages ou la restructuration du site doivent être rapidement reflétées dans le sitemap.

La dernière étape cruciale consiste à informer les moteurs de recherche de l’existence ou de la mise à jour de votre sitemap. Cette soumission peut se faire via différentes plateformes :

  • Google Search Console pour Google
  • Bing Webmaster Tools pour Bing
  • Ou directement via le fichier robots.txt en incluant la directive Sitemap

Le fichier robots.txt

Qu’est-ce qu’un fichier robots.txt ?

A l’inverse d’un site map, un robots.txt consiste à demander aux moteurs de recherche de ne pas indexer certaines URL, répertoires ou types de contenus. C’est donc un fichier texte utilisé comme protocole d’exclusion des robots d’exploration. Ce protocole, également connu sous le nom de Robots Exclusion Protocol (REP), est devenu un standard reconnu par tous les principaux moteurs de recherche comme Google, Bing, et Yahoo.

Pourquoi utiliser un robots.txt ?

Demander à Google de ne pas indexer la page mentions légales, qui n’a que peu d’intérêt auprès de l’internaute, peut s’avérer utile. De même, les pages administratives, les espaces membres, ou les pages de recherche interne sont souvent des candidats idéaux pour l’exclusion via robots.txt.

Ne pas indexer ne signifie pas que la page n’est pas visible. C’est demander de ne pas la faire figurer dans les résultats de recherche. Il est important de noter que le robots.txt n’est pas une garantie absolue de non-indexation, car si d’autres sites créent des liens vers ces pages, elles pourraient tout de même apparaître dans les résultats.

Le fichier robots.txt permet :

  • D’éviter la surcharge d’un site de demandes et donc à gérer le trafic des robots d’exploration
  • D’éviter aux robots d’indexer des contenus dupliqués
  • De contrôler l’exploration des moteurs de recherche
  • D’améliorer l’indexation
  • D’optimiser le budget crawl en dirigeant les robots vers les pages les plus importantes
  • De protéger les zones sensibles du site des robots d’indexation
  • D’éviter l’indexation des fichiers techniques comme les CSS ou JavaScript quand nécessaire

Comment fonctionne un fichier robots.txt ?

Généralement, le fichier robots.txt se positionne à la racine de son site. Par exemple, https://ekela.fr deviendrait https://ekela.fr/robots.txt. Cette localisation est cruciale car les robots des moteurs de recherche cherchent systématiquement le fichier à cet emplacement précis.

Un fichier robots.txt se compose d’un ou plusieurs blocs d’instructions, (les règles). Chaque bloc peut contenir :

  • La directive « User agent » spécifique identifie le robot d’exploration auquel il s’adresse. A savoir, rajouter un astérisque à « User-agent:* » représente un agent utilisateur avec un caractère générique, ce qui signifie que les instructions s’appliquent à tous les bots et non à un bot spécifique. Par exemple, « Googlebot » cible spécifiquement le robot de Google.
  • La directive Disallow qui peut être plusieurs, spécifie les parties du site auquel le robot ne peut pas accéder. Elle peut utiliser des caractères spéciaux comme l’astérisque (*) pour bloquer des modèles d’URL similaires.
  • La directive Allow permet quant à elle d’indiquer aux moteurs de recherche un sous-répertoire ou une page spécifique à explorer. Cela pourrait par exemple être un article spécifique d’un blog, même si son répertoire parent est bloqué.
  • Des commentaires peuvent être ajoutés en utilisant le caractère # pour expliquer les règles et faciliter la maintenance du fichier.

On peut également y inclure la directive Sitemap, permettant d’indiquer aux moteurs de recherche où se trouve notre sitemap. Cette pratique est recommandée pour une meilleure coordination entre les deux fichiers.

Comment créer un fichier robots.txt ?

Tout comme le sitemap, il est possible de créer soi-même un fichier robots.txt en ouvrant un document .txt ou d’utiliser un outil de génération de fichiers robots.txt. Il suffira ensuite de rédiger les règles et de télécharger le fichier sur votre site.

Pour une création manuelle efficace, suivez ces étapes :

  1. Utilisez un éditeur de texte simple (évitez les traitements de texte comme Word)
  2. Commencez par définir les User-agents concernés
  3. Ajoutez vos directives Disallow et Allow
  4. Incluez l’URL de votre sitemap
  5. Testez votre fichier via la Google Search Console avant la mise en production

Il est crucial de vérifier régulièrement que votre fichier robots.txt fonctionne comme prévu pour éviter tout impact négatif sur votre référencement naturel.

Exemple robots.txt

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /tmp/
Allow: /public/

Sitemap: https://www.example.com/sitemap.xml

Les différences entre les fichiers sitemap et robots.txt

Le fichier sitemap sert à lister les URL à explorer tandis que le fichier robots.txt indique aux moteurs de recherche de ne pas indexer certaines URL. Ces deux fichiers ont donc des rôles complémentaires mais distincts dans l’optimisation du référencement naturel d’un site web.

Le sitemap agit comme un guide positif, orientant les robots d’exploration vers le contenu à indexer, alors que le robots.txt fonctionne comme un garde-barrière, définissant les zones restreintes du site. Cette complémentarité est essentielle pour une stratégie SEO efficace.

Néanmoins, les faire fonctionner ensemble est essentiel pour guider les moteurs de recherche de manière efficace. Une bonne coordination entre ces deux fichiers permet d’optimiser le budget crawl en dirigeant les robots vers les pages les plus importantes tout en évitant les contenus non pertinents.

Que faire si le sitemap n’est pas indiqué dans le fichier robots.txt ?

L’absence du sitemap dans le robots.txt n’empêche pas son fonctionnement. Deux options s’offrent à vous pour signaler son existence aux moteurs de recherche : la soumission directe via la Google Search Console ou l’ajout manuel dans le fichier robots.txt.

Pour l’ajouter manuellement, placez la ligne suivante à n’importe quel endroit du fichier robots.txt : « Sitemap: https://www.votresite.com/sitemap.xml« . Vérifiez que l’URL soit complète avec le protocole http ou https.

Dans le cas d’un site multilingue ou avec plusieurs sitemaps, ajoutez simplement une ligne par fichier. Un seul sitemap index suffit si vous utilisez ce format pour regrouper vos différents sitemaps.

On peut effectivement inclure la directive Sitemap, permettant d’indiquer aux moteurs de recherche où se trouve notre sitemap, dans le fichier robots.txt. Cette pratique, supportée par les principaux moteurs de recherche comme Google, Bing et Yahoo, facilite la découverte automatique du sitemap et permet une meilleure coordination entre les deux fichiers. Il est recommandé d’utiliser l’URL complète du sitemap dans la directive, par exemple : https://www.exemple.fr/sitemap.xml

Quels sont les intérêts du robots.txt et du sitemap.xml pour le SEO (référencement naturel ?)

Une stratégie SEO performante repose sur l’utilisation optimale du robots.txt et du sitemap.xml. Ces outils techniques permettent d’améliorer significativement la visibilité de votre site web dans les résultats de recherche. Le fichier robots.txt et le fichier sitemap.xml jouent un rôle clé dans le référencement (SEO) en facilitant l’exploration et l’indexation de votre site par les moteurs de recherche.

Le robots.txt guide les robots d’exploration en leur indiquant les zones à privilégier ou à éviter sur votre Page d’accueil. Cette fonction optimise le budget crawl et préserve les ressources serveur. Un Sous-domaine correctement paramétré dans le robots.txt renforce également la structure globale du site.

Le sitemap.xml, quant à lui, facilite l’indexation rapide des nouvelles pages et actualise leur statut. Sa mise à jour régulière, notamment pour votre Politique de confidentialité, garantit une exploration efficace de l’arborescence du site. La combinaison maîtrisée de ces deux fichiers constitue un atout majeur pour votre visibilité en ligne.

En bref :

  • Le sitemap.xml accélère la découverte des nouvelles pages par les moteurs de recherche grâce à sa structure hiérarchisée.
  • La déclaration des images et vidéos dans le sitemap.xml renforce leur potentiel d’apparition dans les résultats de recherche spécialisés.
  • Un robots.txt bien configuré empêche l’indexation des contenus dupliqués et des pages administratives non pertinentes.
  • L’indication de la fréquence de mise à jour dans le sitemap.xml aide à prioriser le crawl des pages dynamiques.
  • L’ajout des versions linguistiques dans le sitemap.xml améliore le positionnement international du site web.
  • La coordination robots.txt/sitemap.xml permet de concentrer les ressources d’indexation sur les pages générant du trafic qualifié.

 

Lucie Couzinet, stagiaire marketing

EKELA
Des contributions précieuses
Chez EKELA, nous valorisons le talent et la diversité des idées, c'est pourquoi nous gardons précieusement les articles écrits par nos ancien(ne)s collaborateur(trice)s et stagiaires…
Lire la suite