Il existe une poignée de sources de données sur lesquelles s’appuient presque tous les optimiseurs de moteurs de recherche. La Google Search Console (anciennement Google Webmaster Tools) est peut-être la plus omniprésente.

Il y a simplement certaines choses que vous pouvez faire avec la CGC, comme désavouer des liens, qui ne peuvent pas être accomplies ailleurs, donc nous sommes d’une certaine manière obligés de nous y fier.

Mais, comme toute source de connaissances, nous devons la mettre à l’épreuve pour déterminer sa fiabilité – pouvons-nous miser notre métier sur ses recommandations ?

Voyons si nous pouvons tirer le rideau sur les données du SGC et déterminer, une fois pour toutes, à quel point nous devons être sceptiques quant aux données qu’il fournit.

Tester les sources de données

Avant de nous lancer, je pense qu’il est utile de discuter rapidement de la manière dont nous pourrions résoudre ce problème. Il y a essentiellement deux concepts que je souhaite introduire pour les besoins de cette analyse : la validité interne et la validité externe.

La validité interne consiste à savoir si les données représentent fidèlement ce que Google sait de votre site.

La validité externe signifie que les données représentent fidèlement le web.

Ces deux concepts sont extrêmement importants pour notre discussion. Selon le problème que nous traitons en tant que référenceurs, nous pouvons nous intéresser davantage à l’un ou l’autre.

Par exemple, supposons que la vitesse de la page soit un facteur de classement incroyablement important et que nous voulions aider un client.

Nous serions probablement préoccupés par la validité interne de la mesure du « temps passé à télécharger une page » du SGC car, indépendamment de ce qui arrive à un utilisateur réel, si Google pense que la page est lente, nous perdrons notre classement.

Nous nous appuierions sur cette mesure dans la mesure où nous serions convaincus qu’elle représente ce que Google pense du site du client.

D’autre part, si nous essayons d’empêcher Google de trouver de mauvais liens, nous nous inquiéterions de la validité externe de la section « liens vers votre site » car, bien que Google puisse déjà connaître certains mauvais liens, nous voulons nous assurer qu’il n’y en a pas d’autres sur lesquels Google pourrait tomber.

Ainsi, en fonction de l’exhaustivité de la description des liens sur le web dans les exemples de liens de la CGC, nous pourrions rejeter cette mesure et utiliser une combinaison d’autres sources (comme Link Explorer de Moz, Majestic et Ahrefs) qui nous donnera une plus grande couverture.

Le but de cet exercice est simplement de dire que nous pouvons juger les données de la CGC à partir de multiples perspectives, et il est important de les extraire afin de savoir quand il est raisonnable de s’appuyer sur la CGC.

SGC Section 1 : Améliorations HTML

Parmi les nombreuses fonctionnalités utiles de la CGC, Google fournit une liste de quelques erreurs HTML courantes qu’il a découvertes au cours de l’exploration de votre site.

Cette section, située à Apparence de la recherche > Améliorations HTML, énumère plusieurs erreurs potentielles, notamment les doublons de titres, les doublons de descriptions et d’autres recommandations pratiques.

Heureusement, ce premier exemple nous donne l’occasion d’exposer les méthodes permettant de tester la validité interne et externe des données.

Comme vous pouvez le voir dans la capture d’écran ci-dessous, le SGC a trouvé des méta descriptions dupliquées parce qu’un site web a des URL insensibles à la casse et ne possède pas de balise canonique ou de redirection pour le corriger.

Essentiellement, vous pouvez atteindre la page à partir de /Page.aspx ou de /page.aspx, et cela est évident car Googlebot avait trouvé l’URL avec et sans majuscule. Testons la recommandation de Google pour voir si elle est valable en externe et en interne.

Validité externe : dans ce cas, la validité externe consiste simplement à savoir si les données reflètent fidèlement les pages telles qu’elles apparaissent sur l’internet.

Comme on peut l’imaginer, la liste des améliorations HTML peut être terriblement dépassée en fonction du taux d’exploration de votre site. Dans le cas présent, le site avait précédemment remédié au problème par une redirection 301.

Ce n’est vraiment pas très surprenant. On ne devrait pas s’attendre à ce que Google mette à jour cette section du SGC chaque fois que vous appliquez une correction à votre site web. Cependant, cela illustre un problème commun avec GSC.

Bon nombre des problèmes signalés par le SGC ont peut-être déjà été corrigés par vous ou votre développeur web. Je ne pense pas qu’il s’agisse d’un défaut de GSC, mais simplement d’une limitation qui ne peut être résolue que par des recherches plus fréquentes et plus délibérées comme l’audit Crawl de Moz Pro ou un outil autonome comme Screaming Frog.

Validité interne : C’est là que les choses commencent à devenir intéressantes. Bien qu’il ne soit pas surprenant que Google n’explore pas votre site aussi fréquemment pour y saisir les mises à jour en temps réel, il est raisonnable de penser que ce que Google a exploré sera reflété avec précision dans le SGC. Cela ne semble pas être le cas.

En exécutant une requête info:http://concerning-url dans Google avec des lettres majuscules, nous pouvons déterminer certaines informations sur ce que Google sait de l’URL.

Google renvoie les résultats pour la version en minuscules de l’URL ! Cela indique que Google est au courant de la redirection 301 qui corrige le problème et qu’il l’a corrigé dans son index de recherche.

Comme vous pouvez l’imaginer, cela nous pose tout un problème. Non seulement les recommandations d’amélioration HTML du SGC ne reflètent pas les modifications que vous avez apportées à votre site, mais il se peut même qu’elles ne tiennent pas compte des corrections dont Google est déjà au courant.

Compte tenu de cette différence, il est presque toujours judicieux d’explorer votre site pour ce type de problèmes en plus de l’utilisation de GSC.

SGC Section 2 : Statut de l’index

Le prochain paramètre que nous allons aborder est l’état de l’index Google, qui est censé vous fournir le nombre exact de pages indexées par Google à partir de votre site.

Cette section se trouve à l’adresse suivante : Index Google > État de l’index. Cette mesure particulière ne peut être testée que pour sa validité interne puisqu’elle nous fournit spécifiquement des informations sur Google lui-même. Il y a plusieurs façons de traiter cette question…

On pourrait comparer le nombre fourni dans le SGC au site : commandes

Nous pourrions comparer le nombre fourni dans le SGC au nombre de liens internes vers la page d'accueil dans la section des liens internes (en supposant un lien vers la page d'accueil de chaque page du site)

Nous avons opté pour les deux. Le plus grand problème de cette mesure particulière est d’être certain de ce qu’elle mesure.

Comme le SGC vous permet d’autoriser indépendamment la version http, https, www et non-www de votre site, il peut y avoir une certaine confusion quant à ce qui est inclus dans la mesure de l’état de l’index.

Nous avons constaté que, lorsqu’elle est appliquée avec soin pour éviter les croisements entre différents types de sites (https contre http, www contre non-www), la mesure de l’état de l’index semble être assez bien corrélée avec la requête site:site.com dans Google, en particulier sur les petits sites.

Plus le site est grand, plus ces chiffres fluctuent, mais cela pourrait s’expliquer par les approximations effectuées par le site : commande.

Nous avons cependant constaté que la méthode de comptage des liens était difficile à utiliser. Considérez le graphique ci-dessus. Le site en question compte 1 587 pages indexées selon le SGC, mais la page d’accueil de ce site comporte 7 080 liens internes.

Cela semble très irréaliste, car nous n’avons pas pu trouver une seule page, et encore moins la majorité des pages, avec 4 liens ou plus renvoyant à la page d’accueil.

Cependant, étant donné la cohérence avec le site : commande et statut de l’index du SGC, je pense que cela est davantage un problème avec la façon dont les liens internes sont représentés qu’avec la métrique du statut de l’index.

Je pense qu’il est possible de conclure que la mesure de l’état de l’index est probablement la plus fiable dont nous disposons en ce qui concerne le nombre de pages effectivement incluses dans l’index de Google.

CGC Section 3 : Liens internes

La section « Liens internes » qui se trouve sous « Search Traffic > Internal Links » semble être rarement utilisée, mais elle peut être très instructive.

Si la rubrique Liens externes indique à Google ce que les autres pensent être important sur votre site, alors la rubrique Liens internes indique à Google ce que vous pensez être important sur votre site.

Cette section sert une fois de plus d’exemple utile pour connaître la différence entre ce que Google pense de votre site et ce qui est réellement vrai pour votre site.

Le test de cette mesure a été assez simple. Nous avons pris les numéros de liens internes fournis par le SGC et les avons comparés aux crawls de sites complets.

Nous avons ensuite pu déterminer si l’exploration de Google était assez représentative du site réel.

En général, les deux étaient modérément corrélés avec un écart assez important.

En tant qu’OSE, je trouve cela incroyablement important. Google ne démarre pas à partir de votre page d’accueil et n’explore pas votre site de la même manière que les robots d’exploration de sites standards (comme celui inclus dans Moz Pro).

Googlebot approche votre site par une combinaison de liens externes, de liens internes, de sitemaps, de redirections, etc. qui peuvent donner une image très différente.

En fait, nous avons trouvé plusieurs exemples où un crawl complet du site a mis à jour des centaines de liens internes que Googlebot avait manqués.

Les pages de navigation, comme les pages de catégories du blog, ont été explorées moins fréquemment, de sorte que certaines pages n’ont pas accumulé autant de liens dans le SGC qu’on aurait pu s’y attendre en regardant uniquement un crawl traditionnel.

En tant que spécialistes du marketing de recherche, nous devons dans ce cas nous préoccuper de la validité interne, ou de ce que Google pense de notre site.

Je vous recommande vivement de comparer les chiffres de Google avec ceux de votre propre site afin de déterminer s’il y a des contenus importants que Google estime avoir été ignorés dans votre lien interne.

SGC Section 4 : Liens vers votre site

Les données de liaison sont toujours l’une des mesures les plus recherchées dans notre secteur, et ce à juste titre.

Les liens externes continuent d’être le facteur prédictif le plus important pour les classements et Google l’a admis à maintes reprises. Alors, comment les données sur les liens de la CGC se situent-elles ?

Dans cette analyse, nous avons comparé les liens qui nous ont été présentés par la CGC à ceux présentés par Ahrefs, Majestic et Moz pour savoir si ces liens sont toujours en vie.

Pour être juste envers le SGC, qui ne fournit qu’un échantillon de liens, nous n’avons utilisé que les sites qui avaient moins de 1 000 liens retour au total, ce qui augmente la probabilité que nous obtenions une image complète (ou du moins proche) du SGC.

Les résultats sont surprenants. Les listes de la CGC, tant les « échantillons de liens » que les « derniers liens », étaient les moins performantes en termes de « liens actifs » pour chaque site que nous avons testé, ne battant jamais Moz, Majestic ou Ahrefs.

Je tiens à être clair et direct sur la performance de Moz dans cette épreuve particulière. Comme Moz a un indice total plus petit, il est probable que nous ne fassions que faire apparaître des liens de meilleure qualité et plus durables.

Le fait que nos performances dépassent celles de Majestic et Ahrefs de quelques points de pourcentage seulement est probablement un effet secondaire de la taille de l’indice et ne reflète pas une différence substantielle.

Toutefois, les quelques points de pourcentage qui séparent le SGC des trois indices de liens ne peuvent être ignorés. En termes de validité externe – c’est-à-dire la mesure dans laquelle ces données reflètent ce qui se passe réellement sur le web – le SGC est dépassé par les indices tiers.

Mais qu’en est-il de la validité interne ? Le SGC nous donne-t-il un regard neuf sur l’indice de rétrolien réel de Google ? Il semble que les deux soient cohérents dans la mesure où il est rare que des liens dont Google est déjà conscient ne figurent plus dans l’index.

Nous avons sélectionné au hasard des centaines d’URL qui n’étaient « plus trouvées » selon notre test pour déterminer si Googlebot avait encore d’anciennes versions en cache et, uniformément, c’était le cas.

Bien que nous ne puissions pas être certains qu’il affiche un ensemble complet de l’index des liens de Google par rapport à votre site, nous pouvons être sûrs que Google a tendance à n’afficher que des résultats qui sont en accord avec ses dernières données.

SGC Section 5 : Recherche analytique

Search Analytics est probablement la fonction la plus importante et la plus utilisée de la console de recherche Google, car elle nous donne un aperçu des données perdues avec les mises à jour « non fournies » de Google Analytics.

Beaucoup ont à juste titre mis en doute l’exactitude des données, c’est pourquoi nous avons décidé d’y regarder de plus près.

Analyses expérimentales

La section Search Analytics nous a donné une occasion unique d’utiliser un plan expérimental pour déterminer la fiabilité des données.

Contrairement à certains autres paramètres que nous avons testés, nous avons pu contrôler la réalité en délivrant des clics dans certaines circonstances sur des pages individuelles d’un site.

Nous avons développé une étude qui a fonctionné quelque chose comme cela :

  • Créez une série de pages de texte absurdes.
  • Lien vers eux à partir de sources internes pour encourager l’indexation.
  • Utilisez des bénévoles pour effectuer des recherches sur les termes absurdes, qui révèlent inévitablement le contenu absurde de correspondance exacte que nous avons créé.
  • Variez les circonstances dans lesquelles ces volontaires effectuent des recherches pour déterminer si GSC effectue le suivi des clics et des impressions uniquement dans certains environnements.
  • Utilisez des volontaires pour cliquer sur ces résultats.
  • Enregistrez leurs actions.
  • Comparez avec les données fournies par GSC.

Nous avons décidé de vérifier la fiabilité de 5 environnements différents :

  • L’utilisateur effectue une recherche connectée à Google dans Chrome
  • L’utilisateur effectue une recherche déconnectée, incognito dans Chrome
  • L’utilisateur effectue une recherche à partir du mobile
  • L’utilisateur effectue une recherche déconnectée dans Firefox
  • L’utilisateur effectue la même recherche 5 fois au cours d’une journée

Nous espérions que ces variantes répondraient à des questions spécifiques sur les méthodes utilisées par Google pour collecter des données pour la CGC. Nous avons été cruellement et uniformément déçus.

Résultats des expériences

Le SGC n’a enregistré que 2 impressions sur 84, et absolument 0 clic. Au vu de ces résultats, j’ai immédiatement été préoccupé par le plan d’expérience.

Peut-être que Google n’enregistrait pas de données pour ces pages ? Peut-être que nous n’avons pas atteint le nombre minimum nécessaire pour enregistrer les données, éclipsant à peine ce chiffre dans la dernière étude de 5 recherches par personne ?

Malheureusement, aucune de ces explications n’a beaucoup de sens. En fait, plusieurs des pages de test ont recueilli des centaines d’impressions pour des mots-clés bizarres et de faible rang qui se sont produits par hasard dans les tests absurdes.

En outre, de nombreuses pages du site ont enregistré des impressions et des clics très faibles, et par rapport aux données de Google Analytics, elles n’ont en effet enregistré que très peu de clics.

Il est tout à fait évident que l’on ne peut pas se fier à GSC, quelle que soit la situation de l’utilisateur, pour des termes peu recherchés. Il n’est, de ce fait, pas valable à l’extérieur – c’est-à-dire que les impressions et les clics dans GSC ne reflètent pas de manière fiable les impressions et les clics effectués sur Google.

Comme vous pouvez l’imaginer, je n’ai pas été satisfait de ce résultat. Peut-être le plan d’expérience avait-il des limites imprévues qu’une analyse comparative standard permettrait de découvrir.

Analyse comparative

L’étape suivante que j’ai entreprise a consisté à comparer les données du SGC à d’autres sources pour voir si nous pouvions trouver une relation entre les données présentées et les mesures secondaires qui pourrait nous éclairer sur les raisons pour lesquelles l’expérience initiale du SGC s’était si peu répercutée sur la qualité des données.

La comparaison la plus directe a été celle entre les données du SGC et celles de Google Analytics. En théorie, les rapports du SGC sur les clics devraient refléter l’enregistrement des clics organiques de Google Analytics, sinon à l’identique, du moins proportionnellement.

En raison de préoccupations liées à l’ampleur du projet expérimental, j’ai décidé d’essayer d’abord un ensemble de sites plus importants.

Malheureusement, les résultats ont été radicalement différents. Le premier exemple de site a reçu environ 6 000 clics par jour de Google Organic Search selon GA.

Des dizaines de pages avec des centaines de clics organiques par mois, selon GA, ont reçu 0 clic selon GSC. Mais, dans ce cas, j’ai pu découvrir un coupable, et cela est lié à la façon dont les clics sont suivis.

Le SGC suit un clic en fonction de l’URL dans les résultats de la recherche (disons que vous cliquez sur /pageA.html). Cependant, supposons que /pageA.html redirige vers /pagea.html parce que vous avez été malin et avez décidé de régler le problème du boîtier dont il est question en haut de la page.

Si Googlebot n’a pas détecté cette correction, alors la recherche Google aura toujours l’ancienne URL, mais le clic sera enregistré dans Google Analytics sur l’URL corrigée, puisque c’est la page où le code de GA se déclenche.

Il se trouve que le premier site que j’ai testé a été suffisamment nettoyé récemment pour que GA et GSC aient un coefficient de corrélation de seulement 0,52 !

Je suis donc parti à la recherche d’autres propriétés qui pourraient donner une image plus claire.

Après avoir analysé plusieurs propriétés sans problèmes similaires à ceux de la première, nous avons identifié une corrélation d’environ 0,94 à 0,99 entre les rapports de la CGC et de Google Analytics sur les pages de destination organiques.

Cette corrélation semble assez forte.

Enfin, nous avons effectué un autre type d’analyse comparative pour déterminer la fiabilité des données de classement du SGC.

En général, le nombre de clics reçus par un site devrait être fonction du nombre d’impressions qu’il a reçues et à quelle position dans le SERP.

Bien qu’il s’agisse évidemment d’un aperçu incomplet de tous les facteurs, il semble juste de dire que nous pourrions comparer la qualité de deux ensembles de classement si nous connaissons le nombre d’impressions et le nombre de clics.

En théorie, la méthode de suivi du classement qui prédit le mieux les clics en fonction des impressions est la meilleure des deux.

Appelez-moi sans surprise, mais ce n’était même pas proche. Les méthodes standard de suivi du classement ont permis de prédire le nombre réel de clics bien mieux que le classement tel qu’il est présenté dans la Google Search Console.

Nous savons que les données de classement du SGC sont une position moyenne qui présente presque certainement une fausse image. Il existe de nombreux scénarios où cela est vrai, mais permettez-moi d’en expliquer un seul.

Imaginez que vous ajoutez un nouveau contenu et que votre mot-clé commence à la position 80, puis passe à 70, puis 60, et enfin à la position 1.

Maintenant, imaginez que vous créez un contenu différent et qu’il se trouve à la position 40, sans jamais vaciller. Le SGC indiquera que les deux ont une position moyenne de 40.

Le premier, cependant, recevra un trafic considérable pendant qu’il est en position 1, et le second n’en recevra jamais. La méthode de calcul de la moyenne du SGC basée sur les données d’impression masque trop les caractéristiques sous-jacentes pour fournir des projections pertinentes.

Tant que la méthode de Google pour la collecte des données de classement pour le SGC ne changera pas explicitement, elle ne sera pas suffisante pour obtenir la vérité sur la position actuelle de votre site.

Reconciliation

Alors, comment concilier les résultats expérimentaux avec les résultats comparatifs, tant les positifs que les négatifs de GSC Search Analytics ? Eh bien, je pense qu’il y a quelques pistes claires.

  • Les données sur les impressions sont au mieux trompeuses, au pire simplement fausses : Nous pouvons être certains que toutes les impressions ne sont pas saisies et ne sont pas reflétées avec précision dans les données du SGC.
  • Les données sur les clics sont proportionnellement exactes : Les clics sont fiables en tant que mesure proportionnelle (c’est-à-dire en corrélation avec la réalité), mais pas en tant que point de données spécifique.
  • Les données sur les clics sont utiles pour vous indiquer le classement des URL, mais pas les pages sur lesquelles elles atterrissent réellement.

La compréhension de cette réconciliation peut être très précieuse.

Par exemple, si vous constatez que vos données de clic dans GSC ne sont pas proportionnelles à vos données Google Analytics, il y a une forte probabilité que votre site utilise des redirections d’une manière que Googlebot n’a pas encore découverte ou appliquée.

Cela pourrait être le signe d’un problème sous-jacent qui doit être résolu.

Conclusion

La console de recherche Google fournit un grand nombre de données inestimables sur lesquelles les webmestres intelligents s’appuient pour prendre des décisions marketing fondées sur des données.

Toutefois, nous devons rester sceptiques face à ces données, comme à toute autre source de données, et continuer à en tester la validité interne et externe.

Nous devons également être très attentifs à la manière dont nous utilisons les données, afin de ne pas tirer de conclusions dangereuses ou peu fiables lorsque les données sont faibles.

Peut-être le plus important : vérifier, vérifier, vérifier. Si vous en avez les moyens, utilisez différents outils et services pour vérifier les données que vous trouvez dans la console de recherche Google, en vous assurant que vous et votre équipe travaillez avec des données fiables.