Les représentants de Google ont très peu dit sur le fonctionnement de l’algorithme Penguin. Cela signifie que l’algorithme Penguin est plus ou moins un mystère pour la communauté du marketing de recherche.
Cependant, je crois qu’il y a suffisamment de preuves pour définir ce qu’est le pingouin et comment cela fonctionne.
Le but de cet article est d’étudier les indices disponibles et Commencez le processus de compréhension de l’algorithme de pingouin. De plus, je crois qu’un brevet publié par Google fin 2015 qui a été brièvement discuté au sein de la communauté du référencement et rapidement oublié, peut être la clé pour comprendre le pingouin (plus à ce sujet plus tard).
Certains peuvent remettre en question la nécessité de cela. À mon avis, c’est littéralement notre entreprise en tant que SEO d’avoir au moins une compréhension superficielle du fonctionnement des moteurs de recherche. C’est ce que notre industrie a fait dès le premier jour. Aucune partie de Google n’est passée non examinée. Alors pourquoi s’arrêter à Penguin? Il est inutile de travailler dans le noir. Jetons de la lumière à ce sujet.
Contents
- 1 Ce qu’est le pingouin… pas
- 1.1 Penguin est-il un algorithme de confiance?
- 1.2 Penguin utilise-t-il l’apprentissage automatique?
- 1.3 Penguin utilise-t-il une analyse statistique?
- 1.4 Pourquoi il est significatif que le pingouin ne soit pas l’apprentissage automatique
- 1.5 La lecture plus approfondie sur les fonctionnalités d’analyse basées sur les liens:
- 2 Quel est l’algorithme de pingouin…
- 3 … Ce n’est pas un algorithme de confiance
- 4 Comment les distances de liaison sont-elles calculées?
- 5 Classement de distance expliquée
- 6 Pingouin en anglais ordinaire
- 7 Direction du lien et détection du spam
- 8 Désavou, pingouin et toi
- 9 Graphique de liaison réduite
- 10 Cela signifie-t-il que les graphiques de liens réduits sont nouveaux?
- 11 Pourquoi les graphiques de liaison réduits sont un gros problème
- 12 Qu’est-ce que l’ensemble de semences?
- 13 Comprendre et stratégie
- 14 Stratégie de création de liens
Ce qu’est le pingouin… pas
Penguin est-il un algorithme de confiance?
Pour savoir ce qu’est quelque chose, il est utile de savoir ce que ce n’est pas. Il y a eu des spéculations selon lesquelles Penguin est un algorithme de «confiance». Est-ce?
La vérité sur les algorithmes de confiance est qu’ils ont tendance à être biaisés vers de grands sites. C’est pourquoi le document de recherche original de Rank Rank a été remplacé par un autre document de recherche, Topical Trust Rank. Le rang de fiducie topique était de 19 à 43,1% mieux pour trouver le spam que le rang de fiducie de vanille. Cependant, les auteurs de cette recherche ont reconnu certaines lacunes dans l’algorithme et que des recherches supplémentaires étaient nécessaires.
Il y a des déclarations de Googler dès 2007, ce qui indique clairement que Google n’utilise pas le rang de confiance. De plus, en 2011, le point a été souligné par Google que la confiance n’était pas un facteur de classement en soi, que le mot «confiance» n’était qu’un mot fourre-tout qu’ils utilisaient pour une variété de signaux. Les déclarations indiquent clairement sans aucune ambiguïté que Google n’utilise pas d’algorithme de rang de fiducie.
Aucune demande de brevet, aucun article de blog Google, aucun tweet Twitter ou publication Facebook indique que Penguin est une sorte d’algorithme de classement de confiance. Il n’y a aucune preuve que je puisse constater que Penguin est un algorithme basé sur la confiance. C’est donc une observation raisonnable que Penguin n’est pas un algorithme de rang de fiducie.

Penguin utilise-t-il l’apprentissage automatique?
Gary Illyes a confirmé en octobre 2016 que Penguin n’utilise pas d’apprentissage automatique. C’est un indice incroyablement important.
L’apprentissage automatique est, dans une description simplifiée, un processus où un ordinateur apprend à identifier quelque chose en lui donnant des indices sur ce à quoi quelque chose ressemble. Pour un exemple hypothétique simple, nous pouvons enseigner à un ordinateur pour identifier un chien en lui donnant les indices que quelque chose est un chien. Ces indices peuvent être une queue, un nez foncé, une fourrure et un bruit de aboiement.
Pour l’apprentissage automatique, ces indices sont appelés classificateurs. L’industrie du référencement appelle ces classificateurs signaux. Un référencement typique essaie de créer des «signaux» de qualité. Un algorithme d’apprentissage automatique utilise classificateurs Pour comprendre si une page Web répond à la définition d’une page Web de qualité. Cela peut également fonctionner à l’envers pour le spam.
Penguin utilise-t-il une analyse statistique?
L’utilisation de l’analyse statistique comme technique de combat de spam a été confirmée à PubCon New Orleans 2005 lorsqu’elle a été ouvertement discutée par Google Engineers lors d’une présentation. Ainsi, nous savons que l’analyse statistique est une caractéristique des combats de spam de Google depuis au moins 2005.
L’un des articles de recherche les plus connus sur l’analyse statistique est un document de recherche publié par Microsoft en 2004. Ce document de recherche est intitulé, spam, putain de spam et statistiques.
L’analyse statistique a révélé qu’il existe des modèles dans la façon dont les sites de spam créent des liens. Ces modèles sont des symptômes de leurs activités. Penguin fait plus que d’identifier les symptômes des activités.
Pourquoi il est significatif que le pingouin ne soit pas l’apprentissage automatique
L’importance de ces connaissances est que nous pouvons maintenant comprendre que Penguin n’identifie pas les liens de spam par l’utilisation de signaux de qualité autrement appelés classificateurs. Ainsi, nous pouvons être raisonnablement certains que le pingouin n’apprend pas à identifier le spam par des signaux statistiques.
Exemples de fonctionnalités de spam basées sur des liens:
- Pourcentage de liens entrants qui contiennent un texte d’ancrage
- Ratio des pages de links par rapport aux pages intérieures
- Ratio des liaisons sur les liens
- Décriprocité des bords (sites de spam élevés de pageank High PageRank présentent de faibles modèles de liaison réciproque)
Alors maintenant, nous avons une meilleure compréhension de ce que cela signifie quand il est dit que le pingouin n’est pas l’apprentissage automatique, ce qui implique parfois une analyse statistique.

La lecture plus approfondie sur les fonctionnalités d’analyse basées sur les liens:
- Laissez les spammeurs Web s’exposer
http://research.microsoft.com/pubs/145113/p525.pdf - Le sonar de connectivité: détecter les fonctionnalités du site par des modèles structurels
https://journals.tdl.org/jodi/index.php/jodi/article/view/108/107 - Caractérisation et détection basées sur des liens du spam Web
http://chato.cl/papers/becchetti_2006_link_based_characterisation_dection_web_spam.pdf - Identification efficace des communautés Web, 2000
https://pdfs.semanticscholar.org/b987/401fc695c8f1119650693e428bd9e332a8e1.pdf - Alliances des spams de liaison, 2005
http://infolab.stanford.edu/~zoltan/publications/gyongyi2005link.pdf - Taxonomie du spam Web, 2005
http://ilpubs.stanford.edu:8090/646/1/2004-25.pdf - Spamrank – Détection de spam entièrement automatique des liens
http://fravia.2113.ch/library/benczur.pdf - Une étude à grande échelle de la détection des spams de liens par des algorithmes graphiques, 2007
http://airweb.cse.lehigh.edu/2007/papers/paper_125.pdf
Quel est l’algorithme de pingouin…
La recherche de récupération de l’information a pris de nombreuses directions, mais sur les articles liés à l’analyse des liens, il existe un type d’algorithme qui se démarque car il représente une nouvelle direction dans la détection des spams de liens. Ce nouveau type d’algorithme peut être appelé Algorithme de classement des liens ou un algorithme de classement de distance de liaison. Je crois que l’appeler un algorithme de classement des liens est plus approprié et expliquera plus loin.
Au lieu de classer les pages Web, ce nouveau type d’algorithme classe les liens. Ce type d’algorithme est différent de tout algorithme lié aux liens qui l’a déjà précédé. C’est ainsi que la demande de brevet de Google déposée en 2006 et publiée en 2015 décrit cet algorithme:
… Un système qui classe les pages sur le Web en fonction de distances entre les pagesoù le pages sont interconnectés avec des liens pour former un lien-graph. Plus précisément, un ensemble de pages de graines de haute qualité sont choisis comme références pour Classement les pages dans le lien-graphet le plus court distances de l’ensemble de pages de semences à chaque page donnée dans le graphe de lien sont calculées.
En anglais simple, cela signifie que Google sélectionne les pages Web de haute qualité comme points de départ pour créer une carte du Web (appelé graphique de lien). Dans ce graphique de lien, la distance entre la page de semence à une autre page Web est mesurée et un rang est donné à la page Web. Plus la distance entre une page de semence est courte à une page Web régulière, plus cette page Web est calculée.

… Ce n’est pas un algorithme de confiance
Nulle part le brevet ne se décrit comme un algorithme de confiance. Il fait six références à des sites «de confiance», mais c’est dans le contexte de décrire la qualité d’une page de semence, et non de décrire l’algorithme lui-même. Le brevet utilise les mots «distance» et «distances» 69 fois. Ceci est important car le mot distance décrit plus précisément de quoi parle cet algorithme.
Si ce brevet est une description de ce qu’est Penguin, alors il est incorrect d’appeler Penguin un algorithme de confiance. Penguin pourrait être décrit plus précisément comme un algorithme de classement des liens. Une liaison de distance courte est classée supérieure à une liaison de distance plus longue. Cette qualité de distance est important car le distance Depuis une page de semence, ce qui fait d’un lien un lien de grande valeur. Il n’y a pas de qualité appelée confiance, seulement la distance. Il peut être appelé algorithme de distance de liaison ou en algorithme de classement de liaison.
Comment les distances de liaison sont-elles calculées?
Le brevet décrit le problème du calcul d’un score de classement de distance pour l’ensemble du graphique de liaison comme inefficace. C’est ce que Google a publié:
Généralement, il est souhaitable d’utiliser un grand nombre de pages de semences pour s’adapter aux différentes langues et à un large éventail de champs qui sont contenus dans le contenu Web à croissance rapide. Malheureusement, cette variation de PageRank nécessite de résoudre séparément le système entier pour chaque graine. Par conséquent, à mesure que le nombre de pages de graines augmente, la complexité du calcul augmente linéairement, limitant ainsi le nombre de graines qui peuvent être pratiquement utilisées.
Le brevet décrit les problèmes de calcul des distances de liaison pour l’ensemble du graphique de liaison et propose de diversifier les pages de semences, vraisemblablement par des sujets de niche. Cela facilite le calcul de classement (et cela résout également le problème du biais vers les sites grands et influents). Voici ce que dit le brevet de Google:
… À mesure que le nombre de pages de graines augmente, la complexité du calcul augmente linéairement, limitant ainsi le nombre de graines qui peuvent être pratiquement utilisées… par conséquent, ce qui est nécessaire est une méthode… pour produire un classement pour les pages sur le Web en utilisant un grand nombre de pages de semences diversifiées sans les problèmes des techniques décrites ci-dessus.
Que signifie Google par Pages de semences diversifiées? Cette diversification est décrite d’abord comme par connectivité à un large éventail de sites, citant le répertoire Google (DMOZ) et le New York Times comme exemples. Il s’ajoute en outre à cette exigence en indiquant
«… Il serait souhaitable d’avoir un plus grand ensemble de graines possible qui incluent autant de types de graines différents que possible.»
Il existe d’autres algorithmes de classement à distance de liens et de clics qui font référence à la diversification par des sujets de niche. C’est une stratégie assez courante pour améliorer la précision.

Classement de distance expliquée
Le but de cet algorithme est de créer un graphique de lien réduit qui a des sites de manipulation de liens filtrés. Voici comment cela est accompli:
« Le système attribue ensuite des longueurs aux liens en fonction des propriétés des liens et des propriétés des pages attachées aux liens. Le système calcule ensuite les distances les plus courtes de l’ensemble des pages de graines à chaque page de l’ensemble des pages basées sur les longueurs des liens entre les pages. Suivant, le système détermine un score de classement pour chaque page dans l’ensemble des pages basées sur les distances calculées les plus courtes. »
Pingouin en anglais ordinaire
Le système crée un score basé sur la distance la plus courte entre un ensemble de semences et les pages d’ensemble non graines. Le score est utilisé pour classer ces pages. C’est donc essentiellement une superposition en plus du score Pagerank pour aider à éliminer les liens manipulés, basés sur la théorie selon laquelle les liens manipulés auront naturellement une distance de connexions de liens entre eux et l’ensemble de confiance.
Les bons sites ont tendance à ne pas être liés à de mauvais sites. Les mauvais sites ont tendance à être liés à de bons sites. L’algorithme de distance de semences de semences renforce les tendances de liaison des bons sites et les propriétés de liaison des mauvais sites les mettent automatiquement de côté et les organisent dans leurs propres quartiers (spam).
Direction du lien et détection du spam
Une observation intéressante de 2007 (une étude à grande échelle de la détection des spams de liens par des algorithmes graphiques PDF hébergés sur archive.org) a noté que la direction des liens était un bon indicateur du spam:
«… Dans la détection des spams de liens, la direction des liens est significativement importante car les sites de spam pointent souvent vers de bons sites et de bons sites indiquent rarement des sites de spam…»
C’est la vérité de cette observation, que la direction des liens est importante, qui sous-tend la précision du pingouin. L’algorithme peut exclure ces liens du graphique de liaison réduit afin que l’effet net soit qu’ils ne peuvent pas blesser un bon site. Cette observation coïncide avec les déclarations sur Google que les liens de faible qualité ne nuiront pas à un site non-spam, et c’est la raison pour laquelle ces liens pourraient ne pas affecter un site normal.
Alors, quelle est la clé à retenir?
Cela aborde l’utilité du dépôt de désaveues. Les rapports de désaveu sont une feuille de calcul téléchargée sur Google pour les informer de tout lien de faible qualité. Les Googlers ont indiqué que les désaveues ne sont plus nécessaires pour le pingouin, probablement parce que les liens de faible qualité ne sont pas un facteur dans les problèmes liés aux pingouins.

Désavou, pingouin et toi
Arrêtons-nous pour un rapport de réalité de Disavow Report, gracieuseté de Jeff Coyle, cofondateur et CRO de Market Muse, Inc. Jeff a une longue et distinguée carrière dans le marketing de recherche, notamment dans la génération de leads B2B. Voici ses idées:
Le flux et le flux de liens de faible qualité avec un grand site ont peu d’impact. Sur un site qui a du mal à obtenir l’autorité ou la puissance de toute sorte de page, cela peut être un revers lorsqu’un ensemble malheureux de liens malveillants entre dans le jeu.
Ensuite, je me suis tourné vers le Royaume-Uni, pour entendre Jason Duke, PDG du nom de domaine. Jason possède des décennies d’expérience dans le marketing de recherche compétitif. Ce sont ses réflexions sur les rapports de désaveu dans le sillage de l’algorithme de pingouin:
Il est normal d’avoir des liens de faible qualité. En tant que tels actifs non contrôlés, peuvent faire ce qu’ils souhaitent, c’est-à-dire un lien vers vous, et certains d’entre eux sont mauvais et non ce que vous aimeriez idéalement.
Je pense qu’il y a de la valeur dans un processus de désavouage des actions historiques que vous ou votre prédécesseur, ou même une autre partie, avez fait sur votre site Web. Mais je ne pense pas que ce soit nécessaire lorsque vous regardez le Web dans son ensemble. Des liens de faible qualité se produisent et sont facilement pris en charge en masse à mesure qu’il normalise.
Ces deux opinions (et les miennes) sont conformes à ce que Gary Illyes a déclaré sur les désaveues. Les désaveues ne sont pas nécessaires dans le contexte du pingouin, mais pourraient être utiles en dehors de ce contexte ou pour se manifester sur les liens de faible qualité dont vous êtes responsable.
Êtes-vous dedans ou êtes-vous sorti?
Dans cet algorithme, il n’y a aucune chance de se classer pour des phrases de mots clés significatives à moins que la page ne soit associée à l’ensemble de semences et pas fortement associée aux cliques de spam. Le brevet fait référence à la résistance aux algorithmes contre les techniques de spam de liaison:
«Une variation possible de PageRank qui réduirait l’effet de ces techniques est de sélectionner quelques pages« de confiance »(également appelées pages de semences) et découvre d’autres pages qui sont probablement bonnes en suivant les liens des pages de confiance.»
Remarque C’est différent de l’ancien algorithme Yahoo Trustrank. Yahoo Trustrank s’est avéré biaisé vers de grands sites car l’ensemble de semences n’était pas diversifié. Un document de recherche ultérieur a démontré qu’un ensemble de semences diversifié est organisé par des sujets de niche était plus précis.
Note latérale
Tous les algorithmes de confiance ne sont pas les mêmes. La métrique de flux de confiance topique de Majestic est un exemple de métrique de confiance précise. La raison pour laquelle il est précis est parce qu’il utilise un ensemble de semences diversifié. À mon avis, le flux de confiance de Majestic est un outil utile pour évaluer la qualité d’une page Web ou d’un site Web dans le cadre d’un projet de création de liens.

Graphique de liaison réduite
Si je comprends bien, ce brevet Google calcule les distances entre un ensemble de semences de confiance et attribue des scores de confiance / distance qui sont ensuite utilisés comme superposition sur les sites régulièrement classés, presque comme un filtre appliqué aux sites de scored PageRank pour éliminer les sites moins autoritaires. Il en résulte ce que l’on appelle un graphique de liaison réduite. C’est très important. Examinons de plus près ce qu’un Graphique de liaison réduite signifie votre stratégie de marketing de recherche.
«Dans une variation de ce mode de réalisation, les liens associés aux distances les plus courtes calculées constituent un graphe de liaison réduit.»
Cela signifie qu’il existe une carte de l’ensemble de l’Internet communément appelé le graphique de lien, puis il existe une version plus petite du graphique de lien qui est peuplé de pages Web qui ont fait filtrer les pages de spam. Cette version filtrée du Web est le graphique de liaison réduit.
- À emporter 1: Les sites qui ont principalement des relations de liaison entrantes et sortantes avec des pages en dehors du graphique de liaison réduit ne pénétreront jamais et, par conséquent, seront exclus des dix premières positions de classement. Les liens de spam ne donnent aucune traction.
- À emporter 2: Étant donné que cet algorithme empêche les liens de spam d’avoir une influence (positive ou négative), les liens de spam n’ont aucun effet sur les sites de haute qualité. Dans cet algorithme, un lien aide à un classement du site, soit il n’aide pas un rang de site.
- À emporter 3: Les effets jumeaux de l’identification des sites de spam et de leur arrêt sont les effets inhérents au concept du graphique de liaison réduite.
Le point de Penguin, à mon avis, n’est pas de fixer une étiquette de spam sur les sites de spam et une étiquette de confiance sur les sites normaux. Le point est d’atteindre le graphique de liaison réduit. Le graphique de liaison réduit est l’objectif de Penguin car il filtre les sites qui essaient d’influencer injustement l’algorithme.
Cela signifie-t-il que les graphiques de liens réduits sont nouveaux?
Les graphiques de liaison réduits ne sont pas nouveaux. Des graphiques de liaison réduits ont probablement été utilisés dans le passé dans le cadre d’un processus de classement. La limitation d’un graphique de liaison réduit est qu’il n’est aussi bon que le filtre utilisé pour le créer. Vous trouverez ci-dessous un lien vers un PDF discutant d’un graphique de lien réduit créé en utilisant l’analyse statistique.
«Le succès précoce des algorithmes de classement basés sur les liens était fondé sur l’hypothèse selon laquelle les liens impliquent le mérite des pages cibles. Cependant, aujourd’hui, de nombreux liens existent à des fins autres que de conférer l’autorité. De tels liens apportent du bruit dans l’analyse des liens et nuisent à la qualité de la récupération. Afin de fournir des résultats de recherche de haute qualité, il est important de les détecter et de réduire leur influence… avec un lien, un lien, un lien, ces liens nul ne sont pas DÉCÉCÉS et DROBpés. Les algorithmes sont effectués sur le rgraphique de lien éduqué. «
Plus d’informations sur les graphiques de liens réduits ici.
Pourquoi les graphiques de liaison réduits sont un gros problème
Ce qui est intéressant dans le concept d’un graphique de lien réduit, c’est qu’il s’intègre parfaitement dans ce que nous savons sur le pingouin. Penguin exclut les sites du classement. Avec l’algorithme Penguin, vous êtes soit dans le jeu, soit vous êtes hors du jeu et vous n’avez aucune chance de se classer. Un graphique de lien réduit fonctionne comme ça. Si votre profil de lien vous exclut du graphique de lien réduit, vous ne vous classerez jamais pour vos phrases. En effet, votre site est exclu de la considération.

Qu’est-ce que l’ensemble de semences?
Il s’agit d’une question importante à répondre. Avoir une bonne notion de ce à quoi ressemble l’ensemble de semences pourrait vous aider à définir les meilleures cibles d’acquisition de liens et à aider à identifier les mauvais types de sites avec lesquels vous impliquer.
La division des sujets en seaux de niche est une technique ancienne et de confiance. DMOZ a été cité comme une inspiration pour une organisation taxonomique de sujets. Mais les chercheurs se tournent aujourd’hui vers Wikipedia lorsqu’ils ont besoin d’une taxonomie complète de sujets. Des chercheurs de Google, Microsoft et des scientifiques de l’intelligence artificielle se tournent vers Wikipedia lorsqu’ils ont besoin de classer les choses. Je crois qu’il est raisonnable de supposer que la structure de catégorie de Wikipedia est utilisée pour créer des catégories de niche pour les ensembles de semences.
L’utilisation par Google de Wikipedia pour classer les choses n’est pas sans précédent. Ce document de recherche Google intitulé Classifier les canaux YouTube: un système pratique décrit l’utilisation des catégories de sujets Wikipedia pour créer automatiquement des milliers de catégories YouTube sans aucune intervention humaine.
Voici plus d’exemples de la façon dont les chercheurs utilisent régulièrement Wikipedia pour générer des sujets (taxonomies):
- Les graines d’entrée humaine sont-elles suffisamment bonnes pour l’expansion des ensembles d’entités?
Semelles réécrit en tirant parti des connaissances sémantiques Wikipedia
Laboratoire national de reconnaissance de modèles (NLPR), Institut d’automatisation Chinese Academy of Sciences - Du Journal of Artificial Intelligence Research (2009)
Interprétation sémantique basée sur Wikipedia pour le traitement du langage naturel
https://www.jair.org/media/2669/live-2669-4346-jair.pdf - Un document de recherche Google:
Classifier les canaux YouTube: un système pratique
http://www2013.org/companion/p1295.pdf - Un article de recherche Google détaillant d’autres utilisations pour Wikipedia
Utilisation des connaissances encyclopédiques pour la désambiguïsation de l’entité nommée
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/70.pdf - Cette recherche Microsoft cartographie les catégories Wikipedia à l’intention des utilisateurs
Comprendre l’intention de la requête de l’utilisateur avec Wikipedia
https://pdfs.semanticscholar.org/6256/5909c930212b8236f519b8b0ac23df5c4a90.pdf
Comprendre et stratégie
Il est important de gagner une compréhension du pingouin, même dans les contours lâches, si prendre des décisions éclairées pour votre stratégie de recherche est une priorité. Le marketing de recherche n’a jamais connu exactement les détails spécifiques des algorithmes de recherche, uniquement les contours généraux. Traiter avec le pingouin ne devrait pas être différent.
Si ce contour du fonctionnement du Penguin est correct, alors avoir une bonne estimation du nombre de clics d’une page Web pour un site de semences est des informations utiles. Bien que la liste des sites de semences soit classée, nous pouvons prendre ce que nous savons de cet algorithme et d’autres comme ça et faire des estimations éduquées.
Sites de semences – Connectivité Web
La demande de brevet décrit les caractéristiques d’un site de semence typique en deux termes. Le premier terme est ce qu’il appelle, connectivité Web. C’est une autre façon de dire qu’il a de nombreux liens sortants vers d’autres pages Web. Voici comment la demande de brevet le décrit:
… Les graines… sont des pages de haute qualité spécialement sélectionnées qui fournissent une bonne connectivité Web à d’autres pages non graines.
Les exemples de ces sites de semences sont le New York Times et le «Google Directory», une référence au clone DMOZ de Google. Ce ne sont que des exemples et peuvent représenter ou non les sites de semences réels utilisés par Google. Nous savons déjà que Wikipedia est utile à l’IA et aux sciences de la récupération de l’information. Il n’est donc pas farfelu pour spéculer que Wikipedia peut être un site de semence. Une réfutation de cette spéculation peut être que tous les liens sortants ne sont pas suivis, ce qui signifie techniquement que tous les liens sont supprimés du graphique de liaison. Alors, comment quelque chose peut-il être un site de semence dans un graphique de lien tout en ayant simultanément une connectivité Web nulle?
Sites de semences – Diversité
Dans la section suivante, le document indique que l’ensemble de semences doit être diversifié. Ce que je crois qu’ils entendent par diversité, c’est de choisir des sites dans une gamme de niches topiques.
Une approche pour le choix des graines consiste à sélectionner un ensemble diversifié de graines de confiance. Le choix d’un ensemble de graines plus diversifié peut raccourcir les chemins des graines à une page donnée. Par conséquent, il serait souhaitable d’avoir un plus grand ensemble de graines possible qui incluent autant de types de graines différents que possible.
Après cela, il élabore que l’ensemble de semences doit par nécessiter une limite car ils estiment que trop d’ensembles de semences rendent l’algorithme ouvert au spam.
Stratégie de création de liens
S’il s’agit de l’algorithme Penguin, alors ce sont les éléments clés:
- Penguin travaille sur un graphique de lien réduit
- Penguin ne pénalise pas. Vous êtes soit dans ou vous êtes hors des SERP.
- Les sites de spam sont liés à des sites de qualité. Le lien vers les sites .edu ne vous sauvera pas si vous spammez.
- Penguin comme de nombreux autres algorithmes de détection de liens se concentre sur la direction du lien
- Les sites de qualité ne sont pas liés aux sites de spam. Cela signifie que la compréhension des liens sortants d’un site pourrait être important
Ce dernier, la recherche sur le surclassement est intéressante. La plupart des outils de création de liens / backlink sont axés sur les données de liaison. Mais si vous vous souciez vraiment du classement, il est peut-être temps de plonger en profondeur dans les données de la liaison. Xenu Link Sleuth peut faire l’affaire dans un pincement, mais les rapports sont spartiates. L’application FROG Screaming à un prix modeste le fait plus rapidement et génère des rapports propres qui peuvent vous aider à avoir une idée si votre prochain prospect de lien est utile ou contre-productif.
Nous ne pouvons pas être certain que c’est l’algorithme de pingouin. Il n’y a qu’un seul autre algorithme qui se rapproche le plus dans le délai approprié pour décrire ce qu’est le pingouin. Cet article de recherche sur un algorithme de classement des liens rédigé par Ryan A. Rossi en 2011. Il prétend être une toute nouvelle direction dans la détection des liens de spam avec un taux de réussite de 90,54%. On l’appelle, découvrir des graphiques latents avec des liens positifs et négatifs pour éliminer le spam dans la récupération des informations adversaires. C’est un algorithme fascinant et je vous encourage à le lire. Voici la description de cet algorithme:
Cet article propose une nouvelle direction dans la récupération des informations adversaires via des liens de classement automatiquement. Nous utilisons des techniques basées sur une analyse sémantique latente pour définir un nouvel algorithme pour éliminer les sites de spam. Notre modèle crée, supprime et renforce automatiquement les liens.
Il s’agit d’une approche révolutionnaire des liens de spam qui décrit un processus très similaire à celui décrit dans l’application de brevet de Google et qui vaut la peine d’être lu afin de comprendre l’état de l’art de la récupération des informations adversaires.
Sur la base de ce que nous savons de Penguin, l’application Google Patent fournit la meilleure description à ce jour de ce que peut être l’algorithme Penguin. Mis à part la recherche de classement des liens susmentionnée et dans une bien moindre mesure un brevet Microsoft 2012 sur un algorithme de classement de distance de clic, il n’y a pas d’autre application de brevet ou document de recherche sur le spam de liens de lutte qui est plus proche de la description de l’algorithme de pingouin. Donc, si nous allons épingler une queue sur un algorithme, c’est l’âne le plus probable à épingler.

Graphiques réalisés par l’auteur