Gary Illyes de Google a discuté du concept de « contenu central », de la manière dont ils s’y prennent pour l’identifier et des raisons pour lesquelles les erreurs 404 logicielles constituent l’erreur la plus critique qui gêne l’indexation du contenu. Le contexte de la discussion était le récent événement Google Search Central Deep Dive en Asie, résumé par Kenichi Suzuki.
Contents
Contenu du corps principal
Selon Gary Illyes, Google met tout en œuvre pour identifier le contenu principal d’une page Web. L’expression « contenu principal » sera familière à ceux qui ont lu les directives d’évaluation de la qualité de recherche de Google. Le concept de « contenu principal » est introduit pour la première fois dans la première partie des lignes directrices, dans une section qui enseigne comment identifier le contenu principal, suivie d’une description de la qualité du contenu principal.
Les directives de qualité définissent le contenu principal (alias MC) comme :
« Le contenu principal est toute partie de la page qui aide directement la page à atteindre son objectif. Le MC peut être du texte, des images, des vidéos, des fonctionnalités de la page (par exemple, des calculatrices, des jeux), et il peut s’agir de contenu créé par les utilisateurs du site Web, comme des vidéos, des critiques, des articles, des commentaires publiés par les utilisateurs, etc. Les onglets sur certaines pages conduisent à encore plus d’informations (par exemple, des avis de clients) et peuvent parfois être considérés comme faisant partie du MC.
Le MC inclut également le titre en haut de la page (exemple). Les titres descriptifs MC permettent aux utilisateurs de prendre des décisions éclairées sur les pages à visiter. Des titres utiles résument le MC sur la page.
Illyes de Google a qualifié le contenu principal de contenu central, affirmant qu’il est utilisé pour le « classement et la récupération ». Le contenu de cette section d’une page Web a plus de poids que le contenu des zones de pied de page, d’en-tête et de navigation (y compris la navigation dans la barre latérale).
Suzuki a résumé ce qu’Illyes a dit :
« Les systèmes de Google donnent fortement la priorité au « contenu principal » (qu’il appelle également la « pièce maîtresse ») d’une page pour le classement et la récupération. Les mots et les expressions situés dans cette zone ont beaucoup plus de poids que ceux des en-têtes, des pieds de page ou des barres latérales de navigation. Pour classer les termes importants, vous devez vous assurer qu’ils figurent en bonne place dans le corps principal de votre page. «
Analyse de l’emplacement du contenu pour identifier le contenu principal
Il est important de bien comprendre cette partie de la présentation d’Illyes. Gary Illyes a déclaré que Google analyse la page Web rendue pour localiser le contenu afin de pouvoir attribuer le poids approprié aux mots situés dans le contenu principal.
Il ne s’agit pas d’identifier la position des mots-clés dans la page. Il s’agit simplement d’identifier le contenu d’une page Web.
Voici ce que Suzuki a transcrit :
« Google effectue une analyse de position sur la page rendue pour comprendre où se trouve le contenu. Il utilise ensuite ces données pour attribuer un score d’importance aux mots (jetons) sur la page. Déplacer un terme d’une zone de faible importance (comme une barre latérale) vers la zone de contenu principale augmentera directement son poids et son potentiel de classement. «
Aperçu: Le HTML sémantique est un excellent moyen d’aider Google à identifier le contenu principal et les zones moins importantes. Le HTML sémantique rend les pages Web moins ambiguës car il utilise des éléments HTML pour identifier les différentes zones d’une page Web, comme la section d’en-tête supérieure, les zones de navigation, les pieds de page, et même pour identifier les éléments de publicité et de navigation qui peuvent être intégrés dans la zone de contenu principale. Ce processus technique de référencement visant à rendre une page Web moins ambiguë est appelé désambiguïsation.
En rapport:
3. La tokenisation est le fondement de l’index de Google
En raison de la prévalence actuelle des technologies d’IA, de nombreux référenceurs connaissent le concept de tokenisation. Google utilise également la tokenisation pour convertir des mots et des expressions en une représentation de ceux-ci à des fins d’indexation. Ce qui est stocké dans l’index de Google n’est pas le HTML d’origine ; c’est la représentation tokenisée du contenu.
Voir aussi : Introduction aux LLM pour le référencement avec des exemples
4. « Les logiciels 404 sont une erreur critique
Cette partie est importante car elle considère les soft 404 comme une erreur critique. Les soft 404 sont des pages qui devraient renvoyer une réponse 404 mais plutôt une réponse 200 OK. Cela peut se produire lorsqu’un référenceur ou un éditeur redirige une page Web manquante vers la page d’accueil afin de conserver son PageRank. Parfois, une page Web manquante sera redirigée vers une page d’erreur qui renvoie une réponse 200 OK, qui est également incorrecte.
De nombreux référenceurs croient à tort que le code de réponse 404 est une erreur qui doit être corrigée. Un 404 est quelque chose qui doit être corrigé uniquement si l’URL est cassée et est censée pointer vers une URL différente qui est en ligne avec le contenu réel.
Mais dans le cas d’une URL d’une page Web qui a disparu et ne reviendra probablement jamais car elle n’a pas été remplacée par un autre contenu, une réponse 404 est la bonne. Si le contenu a été remplacé ou remplacé par une autre page Web, il convient dans ce cas de rediriger l’ancienne URL vers l’URL où existe le contenu de remplacement.
Suzuki a noté ce qu’Illyes a dit :
« Une page qui renvoie un code d’état 200 OK mais affiche un message d’erreur ou dont le contenu principal est très fin/vide est considérée comme un « soft 404 ». Google identifie et minimise activement la priorité de ces pages, car elles gaspillent le budget d’exploration et offrent une mauvaise expérience utilisateur. Illyes a partagé que pendant des années, la propre page de documentation de Google sur les soft 404 était signalée comme soft 404 par ses propres systèmes et ne pouvait pas être indexée.
En rapport: Google met en garde contre les erreurs soft 404 et leur impact sur le référencement
Points à retenir
- Contenu principal
Google donne la priorité à la partie principale du contenu d’une page Web donnée. Bien que Gary Illyes ne l’ait pas mentionné, il peut être utile d’utiliser du HTML sémantique pour définir clairement quelles parties de la page constituent le contenu principal et lesquelles ne le sont pas. - Google tokenise le contenu pour l’indexation
L’utilisation par Google de la tokenisation permet une compréhension sémantique des requêtes et du contenu. Par exemple, la tokenisation est une étape importante pour BERT, qui permet de comprendre les requêtes. Il y a longtemps que les mots-clés de « correspondance exacte » n’étaient pas essentiels au classement, puisque Google a introduit le stemming dans l’algorithme au début des années 2000 et a depuis incorporé un traitement linguistique plus avancé. C’est un rappels pour les éditeurs et les référenceurs de se concentrer sur la rédaction de sujets (pas seulement de mots-clés) du point de vue de la manière dont ils sont utiles aux utilisateurs. - Les soft 404 sont une erreur critique
Les erreurs 404 logicielles sont généralement considérées comme quelque chose à éviter, mais elles ne sont généralement pas considérées comme une erreur critique pouvant avoir un impact négatif sur le budget d’exploration. Cela renforce l’importance d’éviter les 404 souples.
Voir aussi : Comment Bing AI Search utilise le contenu du site Web
Image en vedette par Shutterstock/Krakenimages.com