Qu’est ce qu’un fichier sitemap XML ?

Le fichier sitemap est un document web, généralement généré en langage XML (mais également en format texte ou RSS), qui répertorie l’ensemble des URLs qu’on souhaite voir crawlées et indexées par Google. Considéré comme l’un des premiers fichiers, avec le fichier robots.txt, à être visité par Googlebot, le robot d’indexation du moteur de recherche, ce document a pour vocation de faciliter le crawl de votre site par les bots de Google. Lors de leur passage sur le site, les spiders prennent connaissance du contenu de ce fichier pour en extraire un des informations indispensables telles que la liste des pages récemment mises à jour et, surtout, la liste des pages stratégiques que Google doit prendre en considération dans son index.

Voici à quoi ressemble un fichier sitemap.xml :

Bonnes pratiques liées à la création d’un fichier sitemap.xml

  • Ne lister que des pages qui répondent en 200 ;
  • N’afficher que des URLs canoniques (pas de canonicalized) ;
  • Les URLs doivent être présentées dans leur forme absolue et avec le bon protocole utilisé (HTTP ou HTTPS), ainsi que le bon sous-domaine (avec ou sans WWW) ;
  • Le fichier sitemap doit être encodé en UTF-8 ;
  • On peut utiliser plusieurs sitemaps, et un sitemap index qui liste plusieurs autres sitemaps de façon à les organiser par template de pages par exemple ;
  • Pour un meilleur référencement naturel des images et des vidéos, on peut les lister au sein du fichier sitemap ;
  • Ne pas afficher plus de 50K URls au sein du même sitemap ;
  • Dans le cas d’un site multilingue, il est possible d’ajouter l’attribut hreflang au sein du fichier sitemap, à défaut du code HTML ;
  • Déclarer le(s) fichier(s) sitemap XML au sein de la Google Search Console pour indiquer au moteur l’emplacement auquel il est disponible ;
  • Mentionnez l’URL de votre/vos fichiers sitemap XML depuis le fichier robots.txt ;
  • Le nom de votre fichier sitemap.xml n’a que peu d’importance tant qu’il est déclaré dans la GSC et indiqué dans le fichier robots.txt.

Pour plus d’infos sur la façon de créer et d’envoyer un sitemap à Google, lire la documentation : https://developers.google.com/search/docs/advanced/sitemaps/build-sitemap?hl=fr

Pourquoi utiliser un fichier sitemap.xml ?

Bien qu’un fichier sitemap.xml n’ait pas un effet “boost” SEO sur le positionnement d’un site web, il s’avère important d’en créer un, d’autant plus si votre site est volumineux ou complexe et qu’il contient plusieurs milliers de pages. Ce fichier aidera alors Google à trouver et à indexer plus rapidement vos pages.

Attention : un fichier sitemap.xml ne remplace pas un bon maillage interne, ce dernier étant indispensable au bon positionnement de votre site Internet dans les moteurs de recherche. En effet, si votre architecture de site n’est pas optimisé, votre positionnement demeurera médiocre et un fichier sitemap.xml ne pourra rien y changer.

Un fichier sitemap est utile pour :

  • Indiquer à Google quelles pages sont importantes ;
  • Indiquer à Google quelles pages sont à indexer ;
  • Accélérer la découverte et le crawl des nouvelles pages ;
  • Comparer l’évolution de l’indexation de vos pages selon vos types de pages (si vous avez organisé vos sitemap par modèles de pages) ;
  • Faciliter l’indexation de pages orphelines.

Concernant ce dernier point, Google indique :

Lorsque vous avez envoyé un sitemap, vous pouvez maintenant voir les informations de ce rapport uniquement pour un sitemap en particulier, à l’aide du filtre sitemap (4). Ainsi, vous pouvez vous concentrer sur un travail uniquement pour un sous-groupe des URLs de votre site.Source : Blog officiel de Google pour les webmasters

Qu’est-ce qu’une page Plan de site ?

Un Plan de site est une page HTML statique, généralement accessible depuis un lien interne sitewide placé dans le footer des pages, qui liste l’ensemble des pages jugées pertinentes à un seul endroit afin d’optimiser le crawl des moteurs de recherche vis-à-vis des pages profondes, difficilement accessibles depuis la structure globale du site Internet.

Exemple de page Plan de site HTML extraite du site booking.com :

Contrairement au fichier sitemap.xml, exclusivement réservée aux robots d’indexation, la page Plan de site HTML fut à l’origine conçue pour compenser les problèmes de navigation sur un site et aider les utilisateurs à identifier l’ensemble des pages du site. Désormais, cette page assume surtout le rôle de catalyseur en matière d’optimisation du maillage interne en rassemblant, à un seul endroit et ce, de façon structurée, l’ensemble des pages ayant un intérêt pour le SEO. En effet, on sait parfaitement qu’au-delà d’une distance de 3-4 de la page d’accueil, les chances que Googlebot visite une page s’amenuisent, son crawl étant relativement aléatoire bien que, depuis le dépôt de brevet du surfeur raisonnable en 2010, la position ou l’emplacement du lien dans la page ait son importance en matière de référencement naturel. C’est pourquoi, l’idée de réunir un ensemble de liens, y compris des liens vers des pages profondes, peut permettre aux différents bots d’identifier plus rapidement les pages

Pourquoi utiliser une page Plan de site en version HTML ?

En complément d’un fichier sitemap.xml, pas toujours suffisant pour favoriser l’indexation de l’ensemble des pages d’un site, il peut s’avérer utile de confier ce rôle d’optimisation de l’indexation à la page plan de site qui pourra aussi bien être bénéfique aux moteurs qu’aux internautes.

Astuce : si vous avez un gros site de plusieurs centaines de milliers/millions de pages, avec plusieurs dizaines de catégories et sous-catégories, faites comme Cdiscount, proposez à vos utilisateurs (et à Google) un plan de site conçu à la façon d’un silo, autrement dit un plan de site en entonnoir, par thématique.

 

Vous l’aurez compris, fichier sitemap XML et page Plan de site HTML sont deux techniques d’optimisation de l’indexation qui permettent à Google et aux moteurs de recherche de détecter plus facilement des contenus et des pages difficilement accessibles via l’arborescence du site. Cependant, retenez bien, qu’en aucun cas, ces deux fichiers ne doivent remplacer un travail d’optimisation de l’arborescence, ainsi qu’une réflexion sur la façon de mailler l’ensemble des pages entre les de façon réduire le chemin et le nombre de clics qui les sépare de la homepage. Ils sont surtout utiles pour les gros sites ayant un niveau de profondeur suffisamment conséquent pour que cela nécessite qu’on ait recours à ce type de pratiques. Enfin, comme pour l’architecture du site, veillez à segmenter le fichier sitemap.xml et/ou la page Plan de site à la façon d’un silo afin de minimiser les “fuites” sémantiques.