Analysé – Actuellement non indexé: un guide sur l’état de la couverture

Google’s Rapport de couverture d’index est absolument fantastique, car il donne aux SEO un aperçu plus clair des décisions d’exploration et d’indexation de Google. Depuis son déploiement, nous l’utilisons presque quotidiennement chez Go Fish Digital pour diagnostiquer des problèmes techniques à grande échelle pour nos clients.

Dans le rapport, il existe de nombreux «statuts» différents qui fournissent aux webmasters des informations sur la manière dont Google gère le contenu de leur site. Bien que de nombreux statuts fournissent un certain contexte concernant les décisions d’exploration et d’indexation de Google, un reste flou: “Analysé – actuellement non indexé”.

Depuis que le statut “Crawled – actuellement non indexé” a été signalé, plusieurs propriétaires de sites ont demandé sa signification. L’un des avantages de travailler dans une agence est de pouvoir accéder à de nombreuses données et, comme nous avons vu ce message sur plusieurs comptes, nous avons commencé à relever les tendances des URL signalées.

Définition de Google

Commençons par la définition officielle. Selon Documentation officielle de Google, ce statut signifie: “La page a été explorée par Google, mais pas indexée. Il peut ou non être indexé à l’avenir; pas besoin de soumettre à nouveau cette URL pour l’exploration. “

Donc, essentiellement ce que nous savons, c’est que:

Google est en mesure d’accéder à la page
Google a pris le temps d’explorer la page
Après avoir rampé, Google a décidé de ne pas l’inclure dans l’index

La clé pour comprendre ce statut est de penser aux raisons pour lesquelles Google déciderait «consciemment» de ne pas indexer. Nous savons que Google n’a aucun problème à trouver la page, mais pour une raison quelconque, il estime que les utilisateurs ne tireraient aucun avantage de la trouver.

Cela peut être assez frustrant, car vous ne savez peut-être pas pourquoi votre contenu n’est pas indexé. Ci-dessous, je vais détailler certaines des raisons les plus courantes que notre équipe a vues pour expliquer pourquoi ce statut mystérieux pourrait affecter votre site Web.

1. Faux positifs

Priorité: faible

Notre première étape consiste à toujours effectuer quelques vérifications ponctuelles des URL signalées dans la section «Analysé – actuellement non indexé» pour l’indexation. Il n’est pas rare de trouver des URL qui sont signalées comme exclues, mais qui se trouvent finalement dans l’index de Google.

Par exemple, voici une URL qui est signalée dans le rapport de notre site Web: https://gofishdigital.com/meetup/

Cependant, lorsque vous utilisez un opérateur de recherche de site, nous pouvons voir que l’URL est réellement incluse dans l’index de Google. Vous pouvez le faire en ajoutant le texte «site:» avant l’URL.

Si vous voyez des URL signalées sous ce statut, je vous recommande de commencer par utiliser l’opérateur de recherche de site pour déterminer si l’URL est indexée ou non. Parfois, il s’agit de faux positifs.

Solution: ne faites rien! Vous êtes doué.

2. URL des flux RSS

Priorité: faible

Ceci est l’un des exemples les plus courants que nous voyons. Si votre site utilise un flux RSS, vous trouverez peut-être des URL apparaissant dans le rapport “Crawled – actuellement non indexé” de Google. Plusieurs fois, ces URL auront la chaîne «/ feed /» ajoutée à la fin. Ils peuvent apparaître dans le rapport comme ceci:

Google recherche ces URL de flux RSS liées à partir de la page principale. Ils sont souvent liés à l’utilisation d’un élément “rel = alternative”. Les plugins WordPress tels que Yoast peuvent générer automatiquement ces URL.

Solution: ne faites rien! Vous êtes doué.

Google choisit probablement de ne pas indexer ces URL, et pour une bonne raison. Si vous accédez à une URL de flux RSS, vous verrez un document XML comme celui ci-dessous:

Bien que ce document XML soit utile pour les flux RSS, Google n’a pas besoin de l’inclure dans l’index. Cela fournirait une expérience très médiocre car le contenu n’est pas destiné aux utilisateurs.

3. URL paginées

Priorité: faible

Une autre raison extrêmement courante de l’exclusion «Crawled – actuellement non indexé» est la pagination. Nous verrons souvent un bon nombre d’URL paginées apparaître dans ce rapport. Ici, nous pouvons voir des URL paginées apparaître à partir d’un très grand site de commerce électronique:

Solution: ne faites rien! Vous êtes doué.

Google devra explorer les URL paginées pour obtenir une analyse complète du site. Il s’agit de son chemin vers du contenu tel que des pages de catégorie plus approfondies ou des pages de description de produit. Cependant, bien que Google utilise la pagination comme chemin d’accès au contenu, il n’a pas nécessairement besoin d’indexer les URL paginées elles-mêmes.

Si quoi que ce soit, assurez-vous de ne rien faire pour influencer l’exploration de la pagination individuelle. Assurez-vous que toute votre pagination contient un balise canonique auto-référentielle et est exempt de toute balise «nofollow». Cette pagination permet à Google d’explorer d’autres pages clés de votre site. Vous souhaiterez donc certainement que Google continue de l’explorer.

4. Produits périmés

Priorité: moyenne

Lors de la vérification ponctuelle des pages individuelles répertoriées dans le rapport, un problème courant que nous constatons chez les clients est l’URL qui contient du texte notant les produits «expirés» ou «en rupture de stock». Sur les sites de commerce électronique en particulier, il semble que Google vérifie la disponibilité d’un produit particulier. S’il détermine qu’un produit n’est pas disponible, il procède à l’exclusion de ce produit de l’indice.

Cela est logique du point de vue de l’expérience utilisateur, car Google peut ne pas vouloir inclure dans l’index du contenu que les utilisateurs ne sont pas en mesure d’acheter.

Cependant, si ces produits sont réellement disponibles sur votre site, cela pourrait entraîner de nombreuses opportunités de référencement manquées. En excluant les pages de l’index, votre contenu n’a aucune chance de se classer.

De plus, Google ne se contente pas de vérifier le contenu visible sur la page. Dans certains cas, nous n’avons trouvé aucune indication dans le contenu visible que le produit n’est pas disponible. Cependant, lors de la vérification des données structurées, nous pouvons voir que le Propriété «disponibilité» est réglé sur «OutOfStock».

Il semble que Google tire des indices du contenu visible et des données structurées sur la disponibilité d’un produit particulier. Il est donc important de vérifier à la fois le contenu et le schéma.

Solution: vérifiez la disponibilité de votre inventaire.

Si vous constatez que des produits réellement disponibles sont répertoriés dans ce rapport, vous devez vérifier que tous vos produits qui ne sont pas répertoriés correctement sont indisponibles. Effectuez une analyse de votre site et utilisez un outil d’extraction personnalisé comme Screaming Frog’s pour extraire les données de vos pages produits.

Par exemple, si vous souhaitez voir à l’échelle toutes vos URL avec un schéma défini sur «OutOfStock», vous pouvez définir «Regex» sur: «disponibilité»: «

Cette: “class =” redactor-autoparser-object “> http://schema.org/OutOfStock” devrait gratter automatiquement toutes les URL avec cette propriété:

Vous pouvez exporter cette liste et les références croisées avec les données d’inventaire à l’aide d’Excel ou d’outils de Business Intelligence. Cela devrait rapidement vous permettre de trouver des écarts entre les données structurées de votre site et les produits réellement disponibles. Le même processus peut être répété pour rechercher des cas où votre contenu visible indique que les produits ont expiré.

5. 301 redirections

Priorité: moyenne

Un exemple intéressant que nous avons vu apparaître sous ce statut est l’URL de destination des pages redirigées. Souvent, nous verrons que Google explore l’URL de destination mais ne l’inclut pas dans l’index. Cependant, en examinant le SERP, nous constatons que Google indexe une URL de redirection. Étant donné que l’URL de redirection est celle indexée, l’URL de destination est ajoutée au rapport “Analysé – actuellement non indexé”.

Le problème ici est que Google ne reconnaît peut-être pas encore la redirection. Par conséquent, il considère l’URL de destination comme un «doublon» car il indexe toujours l’URL de redirection.

Solution: créez un sitemap.xml temporaire.

Si cela se produit sur un grand nombre d’URL, il convient de prendre des mesures pour envoyer des signaux de consolidation plus forts à Google. Ce problème pourrait indiquer que Google ne reconnaît pas vos redirections en temps opportun, ce qui entraîne des signaux de contenu non consolidés.

Une option pourrait être la mise en place d’un “plan du site temporaire”. Il s’agit d’un plan du site que vous pouvez créer pour accélérer l’exploration de ces URL redirigées. C’est une stratégie qui John Mueller a déjà recommandé.

Pour en créer un, vous devrez effectuer une rétro-ingénierie des redirections que vous avez créées dans le passé:

Exportez toutes les URL du rapport “Analysé – actuellement non indexé”.
Faites-les correspondre dans Excel avec des redirections qui ont été précédemment configurées.
Recherchez toutes les redirections ayant une URL de destination dans le compartiment “Analysé – actuellement non indexé”.
Créez un sitemap.xml statique de ces URL avec Screaming Frog.
Téléchargez le plan du site et surveillez le rapport “Analysé – actuellement non indexé” dans la Search Console.

L’objectif ici est que Google explore les URL dans le sitemap.xml temporaire plus fréquemment qu’il ne l’aurait fait autrement. Cela entraînera une consolidation plus rapide de ces redirections.

6. Contenu mince

Priorité: moyenne

Parfois, nous voyons des URL incluses dans ce rapport dont le contenu est extrêmement mince. Ces pages peuvent avoir tous les éléments techniques correctement configurés et peuvent même être correctement liées en interne, cependant, lorsque Google s’exécute dans ces URL, il y a très peu de contenu réel sur la page. Voici un exemple de page de catégorie de produit où il y a très peu de texte unique:

Cette page de liste de produits a été signalée comme “Crawled – actuellement non indexé”. Cela peut être dû au contenu très fin de la page.

Cette page est probablement soit trop mince pour que Google la juge utile, soit elle contient si peu de contenu que Google la considère comme un doublon d’une autre page. Le résultat est que Google supprime le contenu de l’index.

Voici un autre exemple: Google a pu explorer une page de composant de témoignage sur le site Go Fish Digital (illustré ci-dessus). Bien que ce contenu soit unique sur notre site, Google ne pense probablement pas que le témoignage d’une seule phrase devrait être considéré comme une page indexable.

Une fois de plus, Google a pris la décision de l’exécutif d’exclure la page de l’index en raison d’un manque de qualité.

Solution: ajoutez plus de contenu ou ajustez les signaux d’indexation.

Les prochaines étapes dépendront de l’importance de l’indexation de ces pages.

Si vous pensez que la page doit absolument être incluse dans l’index, pensez à ajouter du contenu supplémentaire. Cela aidera Google à voir la page comme offrant une meilleure expérience aux utilisateurs.

Si l’indexation n’est pas nécessaire pour le contenu que vous trouvez, la plus grande question est de savoir si vous devez ou non prendre les mesures supplémentaires pour signaler fortement que ce contenu ne devrait pas être indexé. Le rapport “Analysé – actuellement non indexé” indique que le contenu peut apparaître dans l’index de Google, mais Google choisit de ne pas l’inclure.

Il pourrait également y avoir d’autres pages de faible qualité auxquelles Google n’applique pas cette logique. Vous pouvez effectuer une recherche générale de «site:» pour trouver du contenu indexé répondant aux mêmes critères que les exemples ci-dessus. Si vous constatez qu’un grand nombre de ces pages apparaissent dans l’index, vous voudrez peut-être envisager des initiatives plus fortes pour vous assurer que ces pages sont supprimées de l’index, comme une balise «noindex», une erreur 404 ou les supprimer de votre structure de liaison interne complètement.

7. Contenu en double

Priorité: élevée

Lors de l’évaluation de cette exclusion sur un grand nombre de clients, il s’agit de la plus haute priorité que nous ayons constatée. Si Google considère que votre contenu est en double, il peut explorer le contenu mais choisir de ne pas l’inclure dans l’index. C’est l’une des façons dont Google évite la duplication SERP. En supprimant le contenu en double de l’index, Google garantit que les utilisateurs disposent d’une plus grande variété de pages uniques avec lesquelles interagir. Parfois, le rapport étiquetera ces URL avec un statut «Dupliquer» («Dupliquer, Google a choisi un canonique différent de l’utilisateur»). Par contre, ce n’est pas toujours le cas.

Il s’agit d’un problème hautement prioritaire, en particulier sur de nombreux sites de commerce électronique. Les pages clés telles que les pages de description de produit incluent souvent des descriptions de produit identiques ou similaires à de nombreux autres résultats sur le Web. Si Google les reconnaît comme trop similaires à d’autres pages en interne ou en externe, il peut les exclure de l’index tous ensemble.

Solution: ajoutez des éléments uniques au contenu en double.

Si vous pensez que cette situation s’applique à votre site, voici comment vous le testez:

Prenez un extrait du texte en double potentiel et collez-le dans Google.
Dans l’URL SERP, ajoutez la chaîne suivante à la fin: «& num = 100». Cela vous montrera les 100 premiers résultats.
Utilisez la fonction «Rechercher» de votre navigateur pour voir si votre résultat apparaît dans les 100 premiers résultats. Si ce n’est pas le cas, votre résultat pourrait être filtré hors de l’index.
Revenez à l’URL SERP et ajoutez la chaîne suivante à la fin: «& filter = 0». Cela devrait vous montrer le résultat non filtré de Google (merci, Patrick Stox, pour la pointe).
Utilisez la fonction «Rechercher» pour rechercher votre URL. Si vous voyez votre page apparaître maintenant, c’est une bonne indication que votre contenu est filtré hors de l’index.
Répétez ce processus pour quelques URL avec un contenu potentiel en double ou très similaire que vous voyez dans le rapport “Analysé – actuellement non indexé”.

Si vos URL sont systématiquement filtrées hors de l’index, vous devrez prendre des mesures pour rendre votre contenu plus unique.

Bien qu’il n’y ait pas de norme unique pour atteindre cet objectif, voici quelques options:

Réécrivez le contenu pour qu’il soit plus unique sur les pages hautement prioritaires.
Utilisez des propriétés dynamiques pour injecter automatiquement un contenu unique sur la page.
Supprimez de grandes quantités de contenu inutile de passe-partout. Les pages contenant plus de texte modèle qu’un texte unique peuvent être lues en double.
Si votre site dépend du contenu généré par les utilisateurs, informez les contributeurs que tout le contenu fourni doit être unique. Cela peut aider à éviter les cas où les contributeurs utilisent le même contenu sur plusieurs pages ou domaines.

8. Contenu privé

Priorité: élevée

Dans certains cas, les robots d’exploration de Google ont accès à du contenu auquel ils ne devraient pas avoir accès. Si Google trouve des environnements de développement, il peut inclure ces URL dans ce rapport. Nous avons même vu des exemples de Google explorant le sous-domaine d’un client particulier qui est configuré pour les tickets JIRA. Cela a provoqué une exploration explosive du site, qui se concentrait sur les URL qui ne devraient jamais être prises en compte pour l’indexation.

Le problème ici est que l’exploration de Google sur le site n’est pas ciblée et que cela passe du temps à explorer (et éventuellement à indexer) des URL qui ne sont pas destinées aux chercheurs. Cela peut avoir des ramifications massives pour le budget d’exploration d’un site.

Solution: ajustez vos initiatives d’exploration et d’indexation.

Cette solution va être entièrement dépendante de la situation et de ce à quoi Google peut accéder. En règle générale, la première chose que vous voulez faire est de déterminer comment Google est capable de découvrir ces URL privées, en particulier si c’est via votre structure de liens interne.

Démarrez une analyse à partir de la page d’accueil de votre sous-domaine principal et voyez si des sous-domaines indésirables peuvent être accessibles par Screaming Frog via une analyse standard. Si c’est le cas, il est sûr de dire que Googlebot pourrait trouver exactement les mêmes voies. Vous souhaiterez supprimer tous les liens internes vers ce contenu pour réduire l’accès de Google.

L’étape suivante consiste à vérifier l’état d’indexation des URL à exclure. Est-ce que Google les garde suffisamment hors de l’index, ou certains ont-ils été pris dans l’index? Si Google n’indexe pas une grande partie de ce contenu, vous pouvez envisager d’ajuster votre fichier robots.txt pour bloquer immédiatement l’exploration. Sinon, les balises «noindex», les canoniques et les pages protégées par mot de passe sont tous sur la table.

Étude de cas: contenu généré par l’utilisateur en double

Pour un exemple réel, il s’agit d’un exemple où nous avons diagnostiqué le problème sur un site client. Ce client est similaire à un site de commerce électronique car une grande partie de son contenu est composé de pages de description de produit. Cependant, ces pages de description de produit sont toutes du contenu généré par l’utilisateur.

Essentiellement, les tiers sont autorisés à créer des listes sur ce site. Cependant, les tiers ajoutaient souvent des descriptions très courtes à leurs pages, ce qui entraînait un contenu mince. Le problème qui se produisait fréquemment était que ces pages de description de produit générées par les utilisateurs étaient prises dans le rapport “Analysé – actuellement non indexé”. Cela a entraîné une opportunité de référencement manquée, car les pages capables de générer du trafic organique ont été complètement exclues de l’index.

En passant par le processus ci-dessus, nous avons constaté que les pages de description de produit du client étaient assez minces en termes de contenu unique. Les pages qui étaient exclues ne semblaient avoir qu’un paragraphe ou moins de texte unique. En outre, la majeure partie du contenu de la page était du texte basé sur des modèles qui existait dans tous ces types de page. Étant donné qu’il y avait très peu de contenu unique sur la page, le contenu basé sur des modèles peut avoir amené Google à afficher ces pages en tant que doublons. Le résultat a été que Google a exclu ces pages de l’index, citant le statut “Crawled – actuellement non indexé”.

Pour résoudre ces problèmes, nous avons travaillé avec le client afin de déterminer lequel des modèles de contenu n’avait pas besoin d’exister sur chaque page de description de produit. Nous avons pu supprimer le contenu de modèle inutile de milliers d’URL. Cela a entraîné une diminution significative des pages “Crawled – actuellement non indexées”, car Google a commencé à voir chaque page comme plus unique.

Conclusion

Espérons que cela aide les spécialistes du marketing de recherche à mieux comprendre le mystérieux statut «Analysé – actuellement non indexé» dans le rapport sur la couverture de l’indice. Bien sûr, il existe probablement de nombreuses autres raisons pour lesquelles Google choisirait de catégoriser des URL comme celle-ci, mais ce sont les cas les plus courants que nous avons vus avec nos clients à ce jour.

Dans l’ensemble, le rapport sur la couverture de l’index est l’un des outils les plus puissants de la Search Console. J’encourage fortement les spécialistes du marketing de recherche à se familiariser avec les données et les rapports, car nous trouvons régulièrement des comportements d’exploration et d’indexation sous-optimaux, en particulier sur les grands sites. Si vous avez vu d’autres exemples d’URL dans le rapport “Exploré – actuellement non indexé”, faites-le moi savoir dans les commentaires!