Google n'autorisera plus l'utilisation de noindex dans le fichier pour gérer l'analyse, mais propose 5 solutions pour désindexer ses pages. Avec des avantages et des défauts.
Google a décidé de faire un peu de ménage dans l’utilisation du fichier robots.txt de règles d’autorisation, destiné à l’origine à gérer l’exploration. Concrètement, les indications non officielles que ses robots ont prises en compte jusqu’à présent seront ignorées à partir du 1st Septembre. L'un d'eux est particulièrement préoccupé par les référents: la disparition du noindex pour indiquer aux robots qu'une page ne doit pas être indexée. Une solution de dépannage que de nombreux référenceurs étaient heureux d'avoir sous le coude en cas de besoin. Cependant, Google propose cinq alternatives, plus ou moins intéressantes selon les situations.
1. L'instruction noindex sur les pages
Ajouter directement aux pages concernées une mention demandant aux robots de ne pas indexer une URL est une bonne solution qui peut prendre deux formes:
Première forme: une méta tag robots directement insérée dans le jeu
le code HTML de la page.(...) (...)
Il peut être géré par le CMS lui-même ou par un plugin à l'intérieur du CMS. Cette solution présente l’avantage d’être simple et pratique pour désindexer quelques pages. La mention "robots" est utilisée par défaut pour tous les robots des moteurs de recherche. Sinon, il est possible de cibler l'agent utilisateur d'un moteur de recherche particulier, par exemple celui de Google:
En revanche, s’il est nécessaire de désindexer rapidement des centaines de milliers de pages, cette solution perd son intérêt, car il n’est pas toujours possible de la relier à une typologie spécifique de pages.
Deuxième forme: dans l'en-tête HTTP qui accompagne le passage du serveur au navigateur de chaque document (page, pdf, Word, etc.) avec une URL, il est possible d'ajouter une directive appelée: "X-Robots-tag". Cela nécessite un accès aux serveurs Web Apache pour pouvoir s'intégrer aux fichiers .htaccess et httpd.conf. Cette solution est intéressante pour désindexer par exemple "les URL avec les paramètres de tri, pour éviter la duplication de contenu", explique Aymeric Bouillat, consultant pour l'agence SEOHackers. "Imaginez les catégories d'URL / femme / pantalon / jeans. Catégorie, il est possible de trier les produits par ordre de prix ou de manière alphanumérique, ce qui génère des URL de type / femme / pantalon / jeans? Order = price ou / femme / pantalons / jeans? order = alphanum. X-Robots-Tag: "noindex" à chaque fois que le paramètre order est trouvé dans l’URL avec price ou alphanum. "Voici à quoi cela ressemble:
RewriteCond% {QUERY_STRING} order = (price | alphanum) RewriteRule ^. * $ - [E=STOPINDEX] En-tête X-Robot-Tag défini "noindex" env = STOPINDEX
Les moteurs de recherche eux-mêmes recommandent d’utiliser ces instructions. Ils les respectent à la lettre s'ils sont bien appliqués. Ils permettent de cibler les pages à désindexer avec souplesse.
Le problème principal est opérationnel. "Ce sont souvent les autres équipes qui les ont mises en place", déclare Madeline Pinthon, consultante principale en référencement chez iProspect, "il est donc difficile de mettre ces choses à jour, surtout quand il n'y a pas de budget pour ça passe ces billets ".
Les deux solutions sont découvertes par des robots rampants qui explorent le site. La rapidité de prise en compte dépend donc de celle de l'analyse, qui varie beaucoup d'un site à l'autre. Dans sa documentation, Google rappelle que si l'analyse était bloquée dans le fichier robots.txt, ses robots n'auraient pas accès aux pages ni aux instructions. Pour accélérer le processus de désindexation, "une astuce consiste à placer ces URL dans un sitemap, ce qui peut accélérer l'analyse en augmentant la fréquence d'analyse temporaire", a déclaré Herman Kiwa, responsable du référencement chez Via Mobilis.
2. Statut 404 et 410 http
Un moyen latéral de faire comprendre aux moteurs de recherche qu'une page doit disparaître de leur index consiste à lui ajouter un code d'erreur HTTP 404 ou 410. Cette solution "radicale" est utile "pour vraiment tuer une page que l'on veut désactiver pour les robots comme pour les internautes", selon Sébastien Bulté, consultant en référencement chez Resoneo. En effet, dans ce cas, il n'est pas nécessaire que la page reste accessible à la navigation, car elle n'est pas vide, contrairement à une page d'erreur standard 404. Mais si "Google peut voir si une page 200 (code de réponse normal) renvoie un contenu vide (soft 404), le résultat peut être le contraire: un 404 qui renvoie un contenu, un soft 200", point Madeline Pinthon. Et dans ce cas, il n'est pas certain qu'il décide de désindexer efficacement la page.
En outre, "nous devons avoir nettoyé les liens internes et le sitemap XML de son site pour éviter que Google ne soit trop perturbé par l'apparition d'erreurs, en particulier si cela affecte soudainement de nombreuses pages", déclare Sébastien Bulté.
3. Imposer un identifiant / mot de passe pour accéder à la page
Pour qu'une page n'apparaisse pas dans l'index des moteurs de recherche, il est également possible de bloquer leur accès en demandant un mot de passe et un identifiant. Sans le précieux sésame, ni les robots ni les internautes ne peuvent y accéder. "C’est efficace en phase de test, sur des pages de pré-production ou de back-office, mais l’objectif est plutôt d’empêcher l’indexation en premier lieu, de ne pas désindexer une page", a déclaré Madeline Pinthon.
4. Utilisez la fonction interdire dans le fichier robots.txt
À l'origine, le fichier robots.txt est utilisé exclusivement pour gérer l'analyse. L'indication interdite, tout à fait légitime et respectée par les moteurs de recherche, indique qu'une page ou un ensemble de pages n'est pas destiné à être exploré. Et cette méthode a le mérite de la simplicité: "une ligne de code suffit", déclare Sébastien Bulté. En général, il recommande à ses clients de l’utiliser après une analyse du journal, de traiter les URL en masse et d’optimiser son budget d’exploration. Par exemple, "sur un site de commerce électronique, il peut être utilisé pour empêcher les robots d'entrer dans une chaîne infinie de liens combinant tous les filtres du produit", explique le consultant en référencement.
Pour sa part, Herman Kiwa rappelle que "ces URL, si elles étaient précédemment indexées, restent dans l'index de Google. Il s'agit uniquement des nouvelles URL auxquelles Google n'aura pas accès". Donc, si l’idée est de supprimer les pages déjà explorées de l’index Google, interdire n’est pas la solution la plus efficace.
5. Utilisez l'outil de suppression d'URL dans la console de recherche.
L'ancienne console de recherche vous permet toujours de supprimer temporairement (pendant 90 jours au maximum) une URL de résultats Google. Mais cette méthode "n’est pas réaliste dans un projet de référencement, retarde Aurélien Bardon, fondateur de l’agence Aseox, car il est nécessaire de soumettre les URL un par un. Cela peut aider en cas d’urgence, s’il faut en supprimer très rapidement." Il suffira de rappeler le destin de ces pages à temps, avant que le moteur de recherche ne les fasse réapparaître dans ses résultats.