Votre fichier robots.txt est un outil puissant pour le référencement d'un site Web, mais il doit être manipulé avec précaution. Il vous permet de refuser aux moteurs de recherche l'accès à différents fichiers et dossiers, mais c'est souvent le cas. ne pas le meilleur moyen d'optimiser votre site. Nous allons expliquer ici comment, à notre avis, les webmasters doivent utiliser leur fichier robots.txt et proposer une approche de "meilleure pratique" adaptée à la plupart des sites Web.
Vous trouverez un exemple de fichier robots.txt qui fonctionne pour la grande majorité des sites Web WordPress plus bas dans cette page. Si vous voulez en savoir plus sur le fonctionnement de votre fichier robots.txt, vous pouvez lire notre guide ultime de robots.txt.
À quoi ressemble la "meilleure pratique"?
Les moteurs de recherche améliorent continuellement la façon dont ils explorent le Web et indexent le contenu. Cela signifie que ce qui était autrefois la meilleure pratique il y a quelques années ne fonctionne plus et peut même nuire à votre site.
La meilleure pratique actuelle consiste à utiliser le moins possible votre fichier robots.txt. En fait, il est vraiment nécessaire de bloquer les URL dans votre fichier robots.txt lorsque vous rencontrez des problèmes techniques complexes (par exemple, un site Web volumineux avec une navigation à facettes) ou lorsqu'il n'y a pas d'autre option.
Bloquer des URL via robots.txt est une approche "brutale" qui peut causer plus de problèmes qu'elle n'en résout.
Pour la plupart des sites WordPress, l'exemple suivant constitue la meilleure pratique:
# Cet espace est laissé intentionnellement vide
# Si vous voulez savoir pourquoi notre fichier robots.txt ressemble à ceci, lisez le message suivant: https://yoa.st/robots-txt
Agent utilisateur: *
Nous utilisons même cette approche dans notre propre fichier robots.txt.
Que fait ce code?
- le
Agent utilisateur: *
déclaration indique que les instructions suivantes s'appliquent à tous les robots. - Comme nous ne fournissons aucune autre instruction, nous disons "tous les robots peuvent explorer ce site librement et sans restriction".
- Nous fournissons également des informations aux utilisateurs qui consultent le fichier (sur cette page), afin qu'ils comprennent le pourquoi le fichier est "vide".
Si vous devez interdire les URL
Si vous souhaitez empêcher les moteurs de recherche d’analyser ou d’indexer certaines parties de votre site WordPress, il est presque toujours préférable de le faire en ajoutant balises META robots ou Robots d'en-tête HTTP.
Notre guide ultime pour les balises META robots explique comment bien gérer l’exploration et l’indexation, et notre plug-in Yoast SEO fournit les outils nécessaires pour vous aider à mettre en oeuvre ces balises sur vos pages.
Si votre site présente des problèmes d’exploration ou d’indexation qui ne peuvent pas être résolus via balises META robots ou En-têtes HTTP, ou si vous devez empêcher l'accès au robot pour d'autres raisons, vous devriez lire notre guide ultime sur robots.txt.
Notez que WordPress et Yoast SEO empêchent déjà automatiquement l’indexation de certains fichiers et URL sensibles, tels que votre zone d’administration WordPress (via un En-tête HTTP x-robots).
Pourquoi cette pratique du "minimalisme"?
Robots.txt crée des impasses
Avant de pouvoir rivaliser sur les résultats de recherche, les moteurs de recherche doivent découvrir, analyser et indexer vos pages. Si vous avez bloqué certaines URL via le fichier robots.txt, les moteurs de recherche ne peuvent plus analyser par ces pages pour en découvrir d'autres. Cela peut signifier que les pages clés ne sont pas découvertes.
Robots.txt nie les liens de leur valeur
L'une des règles de base du référencement est que les liens d'autres pages peuvent affecter vos performances. Si une URL est bloquée, non seulement les moteurs de recherche ne l'exploreront pas, mais ils ne pourront pas non plus distribuer de "valeur de lien" pointant vers cette URL, ou par cette URL à d'autres pages du site.
Google rend votre site complètement
Auparavant, les utilisateurs bloquaient l'accès aux fichiers CSS et JavaScript afin que les moteurs de recherche restent concentrés sur ces pages de contenu très importantes.
De nos jours, Google récupère tous vos styles et JavaScript et rend vos pages complètement. Comprendre la mise en page et la mise en page de votre page est un élément clé de la façon dont elle évalue la qualité. Donc, Google n'aime pas ça du tout lorsque vous refusez l'accès à vos fichiers CSS ou JavaScript.
Meilleure pratique pour bloquer l’accès à votre wp-comprend
répertoire et votre répertoire de plugins via robots.txt
n'est plus valide, nous avons donc travaillé avec WordPress pour supprimer les paramètres par défaut. refuser règle pour wp-comprend
dans la version 4.0.
De nombreux thèmes WordPress utilisent également des requêtes JavaScript asynchrones – appelées AJAX – pour ajouter du contenu à des pages Web. WordPress bloquait Google par défaut, mais nous l'avons corrigé dans WordPress 4.4.
Vous n'avez généralement pas besoin de créer un lien vers votre sitemap
Le standard robots.txt prend en charge l’ajout d’un lien vers votre ou vos sitemap XML au fichier. Cela aide les moteurs de recherche à découvrir l'emplacement et le contenu de votre site.
Nous avons toujours pensé que c'était redondant. vous devriez déjà en ajoutant votre sitemap à votre Google Search Console et Bing Webmaster Tools comptes pour accéder aux données d’analyse et de performance. Si vous avez fait cela, vous n'avez pas besoin de la référence dans votre fichier robots.txt.
Lire la suite: Empêcher l'indexation de votre site: le bon chemin »