Le PRISM du moteur de recherche

Puisque Google tente de filtrer les sites suspectés de manipuler son algorithme de classement (basé sur le PageRank : la comptabilité des liens), il devient nécessaire de regarder chaque site au travers de son prisme.

Mais comment savoir ?

Comment Google voit votre site

Bien que la réponse EXACTE à cette question relève du domaine de l’Intelligence Économique, et donc ne puisse être divulguée et donc connue, il est possible d’avoir des éléments de réponse.

Tout d’abord, si votre site utilise les outils fournis par Google :

Vous aurez accès à un certains nombre de critères pris en compte par l’algorithme du moteur :

  1. accessibilité de vos pages et de leurs contenus à ses robots crawlers (ce que j’appelle SEA),
  2. source de trafic vers votre domaine et nombre de liens pointant vers lui,
  3. analyse du contenu textuel et catégorisation thématique, etc

Ces informations sont aujourd’hui devenues la base d’une compréhension à minima du fonctionnement d’un moteur de recherche. Elles permettent de saisir l’approche globale du moteur envers votre site. Mais les indications précises sur la façon dont est perçue chacune des pages web constituant votre site ne sont pas fournies par ces outils.

Et il faut pour cela se livrer à un peu de reverse engineering, c’est à dire décortiquer l’ensemble des critères que peut analyser un logiciel. Nous avons précédemment repris une liste plus ou moins exhaustive de ces indicateurs. Penchons nous maintenant en détail sur le profil d’un document et ses points de contrôle :

Profil d’une page web

L’art délicat du Reverse Engineering consiste à « se mettre à la place de » afin de remonter à la source de la conception. Le but étant de trouver soit une faille dans la fabrication, soit une explication qui permette de trouver une clé. Dans le cas du référencement internet, il s’agit d’évaluer le plus précisément possible les indices de pondération appliqués par l’algorithme utilisé par Google sur un ensemble de critères trouvés dans une page web. Ces critères constituent son « profil ».

Pour dresser ce profil, il faut considérer une page web du point de vue d’un collectionneur. Ce qui donne de la valeur à un bien se définit assez facilement par des facteurs génériques :

  1. Sa rareté intrinsèque : le bien se trouve-t-il facilement ?
  2. La rareté formelle (de son information) : admettons que le bien soit commun, son traitement, sa forme sont-ils originaux ?
  3. Son état
  4. Sa côte

J’ai choisi cet ordre qui me semble le plus adapté, du plus important au moins important. En effet, la côte dépend elle-même des critères « rareté » et « état ». La côte est donc un résultat qui résume la situation puis est repris en tant qu’indicateur global.

Cependant, dans le cas qui nous intéresse, la côte est souvent reprise elle-même comme un élément constitutif de l’ensemble. Dans la course au META (« au dessus de »), les outils d’audit et d’analyse sont en effet des bases sur lesquels d’autres prennent appui. Bien souvent, ces outils se greffent directement à la source pour extraire les métriques selon leur propre schéma d’organisation et d’évaluation, au moyen des API si populaires aujourd’hui. Or beaucoup d’applications différentes se branchent sur la même source. (Lire le comparatif et l’analyse de la plupart des outils d’audit gratuits en ligne). Et même si chaque logiciel se fait sa propre lecture des données, il n’en reste pas mois qu’il est souvent préférable de vérifier/corriger l’analyse avec une source différente…

Points de contrôle

La nouveauté 2013 c’est le fait d’attribuer à chaque métrique un critère de pondération, comme on peut le voir sur le graphique ci-dessous (cliquez pour agrandir l’image) :

Légende : Spearman Correlation – Study of Google Search results

Pour en savoir plus sur cette analyse statistique, voir le portail Wikipédia : http://fr.wikipedia.org/wiki/Corr%C3%A9lation_de_Spearman et http://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

Ces critères essaient de couvrir les différents aspects du référencement : 

  • Accessibilité aux moteurs de recherche (ma définition du SEA)
  • Liens
  • Signaux sociaux
  • Contenu

Les infographies fleurissent sur le web à ce sujet, comme celle publiée par SearchMetrics ci-dessous et qui reprend peu ou prou les même métriques :

On remarque une très nette évangélisation au réseau social de Google ! Annoncer la suprématie de Google+ en 2016, soit 3 ans dans l’avenir, et l’afficher en début de document comme le critère le plus important pour positionner une page, est un parti-pris qui peut « passer » grâce au format léger propre aux infographies, mais qui ne trompe pas l’internaute averti. Attention à la propagande !

On peut constater que la plupart des points annoncés dans ces documents ne sont pas directement vérifiables par les outils listés au début de cet article. Et de toutes façons, Google tend à éliminer progressivement les sources d’informations qu’il livrait jusque-là (dernièrement encore, l’opérateur de recherche tilde ~ )

Publié par Yann Faurie

Je fais partie de la 1ère vague de référenceurs. J'ai débuté en 97 à faire mes premiers sites web à Londres dans le secteur de la musique indépendante. En 2000 j'étais référenceur en agence de communication RH à Paris. Après, tout s'est enchaîné. Aujourd'hui, je suis toujours là. Et je continue à apprendre des choses sur le SEO tous les jours. Elle est pas belle la vie ?