Idée reçue : Les premiers résultats de Google sont les meilleurs

Web

Il y a une réponse rapide à cette idée reçue : cela dépend de ce qu'on entend par « les meilleurs ». Ce n'est pas la réponse que vous attendiez ? Pourtant elle me paraît correcte... Et rapide avec ça ! Bien entendu, il y a une réponse plus détaillée, mais il faut un peu plus de temps pour la lire (et pour l'écrire...).

Pour commencer, soyons clairs : Google est une entreprise à but lucratif et son principal fonds de commerce est la publicité. La pertinence des résultats (est-ce que les premiers sont les meilleurs ? ) est donc un enjeu de taille car si le moteur n’est pas pertinent, les internautes iront cliquer sur les publicités d’un autre moteur. Et ils sont nombreux, les autres moteurs, à se battre pour la place de challenger.

Le principal défi auquel est confronté un moteur de recherche, c’est la masse de données à traiter. En 2010, Google traite plus d’un milliard de requêtes par jour et stocke des informations sur un nombre titanesque de pages (deux ingénieurs de Google parlent de mille milliards de pages parcourues par les robots de Google, mais ce chiffre ne peut pas être vérifié et depuis 2005, le moteur a décidé de ne plus le communiquer).

Pour mieux comprendre les solutions qu’utilise Google face à cette avalanche de données, je vous recommande la lecture du document Un moteur de recherche, pour le meilleur et pour le pire. Je vous livre ici une version de son fonctionnement en trois étapes. Cette version est très résumée et donc pleine de raccourcis (d ‘autant que les détails ne sont pas rendus publics).

Première étape : des « robots sont envoyés » sur le Web pour l’explorer. Dit comme ça, on imagine des bestioles rapides et futées qui se déplacent vraiment. En fait, en guise de robots, il s’agit de logiciels qui simulent une navigation sur le Web, depuis un ordinateur, en cliquant un peu partout sur les pages qui s’affichent. L’objectif étant d’explorer le plus grand nombre de pages possible (sans pour autant cliquer sur tous les liens, ce qui serait trop gourmand). Les pages trouvées par ces robots sont la matière première du moteur. Ces robots sont, en quelque sorte, les yeux du moteur. Si une page n’est explorée par aucun de ces robots, alors Google ne la verra pas. Ces pages, quand elles sont invisibles aux yeux de la majorité des moteurs, constituent ce qu’on appelle le « Web profond ».

Deuxième étape : les pages trouvées par les robots sont analysées et rangées en fonction des mots-clés qu’elles contiennent. L’objectif est de trouver, pour chaque page, les mots qui la caractérisent le mieux. Ces mots doivent être discriminants vis-à-vis des autres pages à classer. Il s’agit de l’indexation. À cette indexation, Google ajoute la formule qui a fait son succès : le PageRank. Le principe du PageRank repose sur la « popularité » d’une page parmi les autres pages. Plus une page reçoit de liens de la part d’autres pages sur le Web, plus elle est populaire. Et la popularité est héréditaire. Si une page très populaire crée un lien vers ma page, alors ma page monte encore un peu plus vite dans le classement de Google.

Troisième étape : vous entrez une requête sur le moteur et il vous répond, en triant les pages par ordre de « pertinence ». C’est l’étape qui nous intéresse le plus, mais elle dépend tellement des précédentes… D’abord, le nombre de pages qui peuvent correspondre à vos mots-clés est tellement grand, que Google ne va pas les explorer toutes. Seulement les premières qui se présentent. Après tout, vous avez envie d’une réponse rapide, alors on ne peut pas se permettre d’évaluer toutes les pages pour en faire un classement. D’ailleurs, vous aurez remarqué qu’en plus du résultat, Google affiche fièrement le nombre de pages envisagées et le temps nécessaire pour les traiter. On peut facilement vérifier le temps, mais pour le nombre de pages, c’est une autre histoire ! Avec Google, on obtient donc une réponse rapide (comme ma première phrase dans cette idée reçue), la plus correcte possible (la mienne l’était aussi), mais comment savoir s’il n’y en a pas de meilleure ? Vu le fonctionnement d’un moteur, la question est légitime…

Au-delà de l’approximation imposée par des contraintes de rapidité, on peut aussi envisager d’autres raisons pour lesquelles les premiers résultats ne sont pas les meilleurs. Et si la meilleure réponse était une page cachée dans le Web profond ? Dans ces conditions, il n’y a aucun moyen de la trouver avec un moteur de recherche.

Avez-vous déjà entendu parler du « bombardement Google » (Google Bombing) ? Il s’agit d’une action qui vise à détourner les résultats de Google. Cette technique désormais contournée par Google (pour combien de temps ? ) consistait à créer de nombreuses pages, liées entre elles, et contenant certains mots-clés. De cette manière, il était possible d’influencer le résultat de Google, jusqu’à faire monter une page voulue en tête des résultats. On a pu voir des chefs d’État ou de grandes entreprises ciblés par ces actions, avec des pages plus ou moins flatteuses en tête des résultats. Selon le point de vue de l’algorithme de classement utilisé par le moteur, ce sont les meilleures ! Elles contiennent les bons mots-clés et sont très populaires. Selon le point de vue des intéressés… c’est probablement discutable.

Dans le même ordre d’idée, si une page contient les mots-clés de ma requête et que sa popularité est élevée, alors cette page sera probablement classée première. Mais si cette page parle de vous (oui, vous, lecteur) ? Elle pourrait en parler en bien (j’en suis convaincu) mais… serait-ce toujours le cas ? Trouverez-vous d’office qu’elle est « la meilleure » ? En d’autres termes, il n’y a pas que le nombre de mots et le nombre de liens qui font la pertinence d’une page. Le sens de ces mots n’est pas pris en compte par le moteur, mais cela relève d’un autre domaine.

D’ailleurs, comment deviner l’intention de l’internaute avec sa requête ? Est-ce que la requête « Ferrari » fait de moi un fan de voitures de luxe ou bien d’une présentatrice de journal télévisé ? Si c’est la deuxième réponse, alors je risque d’être déçu par les premiers résultats de Google (jusqu’à la quatrième page, je le crains pour elle, en tout cas au mois d’octobre 2010). Alors je vais affiner ma requête, en précisant mieux ma pensée. Mais si je ne suis pas intéressé par la vie privée des « people », je risque encore d’être déçu…

De la même manière qu’on apprend à se servir d’un ordinateur, ou plutôt des logiciels qu’il propose, on apprend à se servir de Google. Comprendre le fonctionnement du moteur et choisir ses mots-clés afin de déjouer l’ambiguïté est un bon point de départ. Google offre également de nombreuses options dans ses requêtes (par exemple ne recevoir que les fichiers pdf dans les réponses, ou bien imposer que les mots-clés apparaissent de manière contigüe et dans le bon ordre, ou encore ne chercher les pages que sur un site précis…). On n’aura toujours pas la garantie d’obtenir les « meilleurs résultats » mais on gagnera du temps !

Enfin, à propos de la pertinence des premier résultats, je ne peux pas m’empêcher de revenir sur la publicité. Avez-vous remarqué le bouton « j’ai de la chance » ? Si vous cliquez sur ce bouton, Google vous enverra directement sur la première page de son classement (la première dans la liste des réponses) sans passer par la page des résultats. D’un côté, ce bouton coûte de l’argent à Google, puisqu’il vous fait « zapper » la publicité. D’un autre côté, il lui permet d’afficher fièrement sa confiance dans la pertinence de son classement. Malgré tout, il n’est utilisé que dans 1% des requêtes reçues par le moteur. D’une certaine manière, les internautes montrent ainsi leur attachement au libre arbitre dans le choix des pages qu’ils veulent consulter ou pas et ne se contentent pas des premiers résultats. Vous me direz « Oui… mais parmi les résultats renvoyés par Google ! ». Et c’est juste. Le libre arbitre, c’est aussi de multiplier les sources, y compris les moteurs de recherche.

Et puis… peut-on écrire sans états d’âme « oui, les premiers résultats sont les meilleurs » quand il s’agit d’une compagnie qui répond à la majorité des internautes dans le monde et qui garde le secret sur sa façon de classer ses réponses ?