Photo Simon Steinberger via pixabay, CC0

Publié le : 25/10/2010

Par : Michael Eisermann

Niveau intermédiaire

Niveau 2 : Intermédiaire

Comment Google classe les pages Web

Données

Algorithmes

Web Google

Depuis plus d’une décennie, Google domine le marché des moteurs de recherche sur internet. Son point fort est qu’il trie intelligemment ses résultats par ordre de pertinence. Comment est-ce possible ?

Depuis sa conception en 1998, Google continue à évoluer et la plupart de ses améliorations demeurent des secrets bien gardés. L’idée principale, par contre, a été publiée : le pilier de son succès est une judicieuse modélisation mathématique (voir S. Brin, L. Page : The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University 1998, 20 pages en PDF).

Que fait un moteur de recherche ?

Une base de données a une structure prédéfinie qui permet d’en extraire des informations, par exemple « nom, rue, code postal, téléphone… ». Le web, par contre, est peu structuré : c’est une immense collection de textes de nature variée. Toute tentative de classification semble vouée à l’échec, d’autant plus que le web évolue rapidement : une multitude d’auteurs ajoutent constamment de nouvelles pages et modifient les pages existantes.

Pour trouver une information dans ce gigantesque ensemble, l’utilisateur pourra lancer une recherche de mots-clés. Ceci nécessite une certaine préparation pour être efficace : le moteur de recherche copie préalablement les pages web en mémoire locale et trie les mots par ordre alphabétique. Le résultat est un annuaire de mots-clés avec leurs pages web associées.

Pour un mot-clé donné, il y a en général des milliers de pages correspondantes (plus de cinq millions pour « matrice », par exemple). Comment aider l’utilisateur à repérer les résultats potentiellement intéressants ? Comment classer les réponses par ordre de pertinence ? C’est ici que Google a apporté sa grande innovation.

un exemple de graphe

Le web est un graphe !

Profitons du peu de structure disponible. En effet, le web a une structure, il n’est pas une collection de textes indépendants, mais un immense hypertexte : les pages se citent mutuellement.

Afin d’analyser cette structure, nous allons négliger le contenu des pages et ne tenir compte que des liens entre elles. Ce que nous obtenons est la structure d’un graphe. La figure ci-contre montre un exemple en miniature.

Dans la suite, je note les pages web par P₁, P₂, P₃, …, P_n et j’écris j → i si la page P_j cite la page P_i. Dans notre graphe, nous avons un lien 1 → 5, par exemple, mais pas de lien 5 → 1.

Comment exploiter ce graphe ?

Les liens des pages web ne sont pas aléatoires, mais ont été édités avec soin. Quels renseignements pourrait nous donner ce graphe ?

L’idée de base, encore à formaliser, est qu’un lien j → i est une recommandation de la page P_j d’aller lire la page P_i. C’est comme un vote de P_j en faveur de l’autorité de la page P_i.

Analysons notre exemple sous cet aspect. La présentation suivante de notre graphe suggère une hiérarchie possible — encore à justifier.

présentation du graphe qui suggère une hiérarchie

Parmi les pages P₁, P₂, P₃, P₄, la page P₁ sert de référence commune et semble un bon point de départ pour chercher des informations. Il en est de même dans le groupe P₉, P₁₀, P₁₁, P₁₂, où la page P₉ sert de référence commune. La structure du groupe P₅, P₆, P₇, P₈ est similaire, où P₇ est la plus citée.

À noter toutefois que les pages P₁ et P₉, déjà reconnues comme importantes, font référence à la page P₅. On pourrait ainsi soupçonner que la page P₅ contient de l’information essentielle pour l’ensemble, qu’elle est la plus pertinente.

Premier modèle : comptage naïf

Il est plausible qu’une page importante reçoit beaucoup de liens. Avec un peu de naïveté,on croira aussi l’affirmation réciproque : si une page reçoit beaucoup de liens, alors elle est importante. Ainsi, on pourrait définir l’importance m_i de la page P_i comme le nombre des liens j → i. En formule, ceci s’écrit comme suit :

(1)

Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m₁ = m₉ = 4.

Autrement dit, m_i est égal au nombre de « votes » pour la page P_i, où chaque vote contribue par la même valeur 1.
C’est facile à définir et à calculer, mais ne correspond souvent pas à l’importance ressentie par l’utilisateur : dans notre exemple, on trouve m₁ = m₉ = 4 devant m₅ = m₇ = 3. Ce qui est pire, ce comptage naïf est trop facile à manipuler en ajoutant des pages sans intérêt recommandant une page quelconque.

Second modèle : comptage pondéré

Certaines pages émettent beaucoup de liens : ceux-ci semblent moins spécifiques et leur poids sera plus faible. Nous partageons donc le vote de la page P_j en ℓ_j parts égales, où ℓ_j dénote le nombre de liens émis. Ainsi, on pourrait définir une mesure plus fine :

(2)

calcul de m<sub>7</sub> avec le comptage pondéré

La page 7 reçoit des liens depuis les pages 5, 6 et 8. Venant de la page 5, il s’agit d’un lien parmi 3 liens émis, ℓ₅ = 3.
De même, ℓ₆ = ℓ₈ = 2. Donc avec le comptage pondéré,
m₇ = 1 / ℓ₅ + 1 / ℓ₆ + 1 / ℓ₈ = 1/3 + 1/2 + 1/2 = 4/3.

Autrement dit, m_i compte le nombre de « votes pondérés » pour la page P_i.
C’est facile à définir et à calculer, mais ne correspond toujours pas bien à l’importance ressentie : dans notre exemple, on trouve m₁ = m₉ = 2 devant m₅ = 3/2 et m₇ = 4/3.
Et comme le précédent, ce comptage est trop facile à truquer.

Troisième modèle : comptage récursif

Heuristiquement, une page P_i paraît importante si beaucoup de pages importantes la citent. Ceci nous mène à définir l’importance m_i de manière récursive comme suit :

(3)

Ici, le poids du vote j → i est proportionnel au poids m_j de la page émettrice. C’est facile à formuler, mais moins évident à calculer. (Une méthode efficace sera expliquée dans la suite.) Pour vous rassurer, vous pouvez déjà vérifier que notre exemple admet bien la solution suivante :

	P₁	P₂	P₃	P₄	P₅	P₆	P₇	P₈	P₉	P₁₀	P₁₁	P₁₂
m =	(2,	1,	1,	1,	3,	1,	2,	1,	2,	1,	1,	1 ).

Contrairement aux modèles précédents, la page P₅ est repérée comme la plus importante. C’est bon signe, nous sommes sur la bonne piste…

La page 1 reçoit des liens émis depuis les pages 2, 3, 4 et 6.
Donc m₁ = 1 / ℓ₂ m₂ + 1 / ℓ₃ m₃ + 1 / ℓ₄ m₄ + 1 / ℓ₆ m₆ = 1/2 m₂ + 1/2 m₃ + 1/2 m₄ + 1/2 m₆.

La page 2 reçoit des liens émis depuis les pages 1 et 4.
Donc m₂ = 1 / ℓ₁ m₁ + 1 / ℓ₄ m₄ = 1/4 m₁ + 1/2 m₄.

Et ainsi de suite… Pour notre exemple, on obtient le système de 12 équations à 12 inconnues suivant :

m₁ = 1/2 m₂ + 1/2 m₃ + 1/2 m₄ + 1/2 m₆
m₂ = 1/4 m₁ + 1/2 m₄
m₃ = 1/4 m₁ + 1/2 m₂
m₄ = 1/4 m₁ + 1/2 m₃
m₅ = 1/4 m₁ + 1 . m₇ + 1/4 m₉
m₆ = 1/3 m₅
m₇ = 1/3 m₅ + 1/2 m₆ + 1/2 m₈
m₈ = 1/3 m₅
m₉ = 1/2 m₈ + 1/2 m₁₀ + 1/2 m₁₁ + 1/2 m₁₂
m₁₀ = 1/4 m₉ + 1/2 m₁₂
m₁₁ = 1/4 m₉ + 1/2 m₁₀
m₁₂ = 1/4 m₉ + 1/2 m₁₁

Vérifions à présent que ce système admet bien la solution suivante :

	P₁	P₂	P₃	P₄	P₅	P₆	P₇	P₈	P₉	P₁₀	P₁₁	P₁₂
m =	(2,	1,	1,	1,	3,	1,	2,	1,	2,	1,	1,	1 ).

Cela fonctionne !

m₁ = 1/2 . 1 + 1/2 . 1 + 1/2 . 1 + 1/2 . 1 = 2
m₂ = 1/4 . 2 + 1/2 . 1 = 1
m₃ = 1/4 . 2 + 1/2 . 1 = 1
m₄ = 1/4 . 2 + 1/2 . 1 = 1
m₅ = 1/4 . 2 + 1 . 2 + 1/4 . 2 = 3
m₆ = 1/3 . 3 = 1
m₇ = 1/3 . 3 + 1/2 . 1 + 1/2 . 1 = 2
m₈ = 1/3 . 3 = 1
m₉ = 1/2 . 1 + 1/2 . 1 + 1/2 . 1 + 1/2 . 1 = 2
m₁₀ = 1/4 . 2 + 1/2 . 1 = 1
m₁₁ = 1/4 . 2 + 1/2 . 1 = 1
m₁₂ = 1/4 . 2 + 1/2 . 1 = 1

L’équation (3), qui s’écrit pour toutes les n valeurs de l’indice i, détermine un système de n équations linéaires à n inconnues. Dans notre exemple, où n = 12, il est déjà pénible à résoudre à la main, mais encore facile sur ordinateur. Pour les graphes beaucoup plus grands, nous aurons besoin de méthodes spécialisées.

Promenade aléatoire

Avant de tenter de résoudre l’équation (3), essayons d’en développer une intuition. Pour ceci, imaginons un surfeur aléatoire qui se balade sur le web en cliquant sur les liens au hasard. Comment évolue sa position ?

À titre d’exemple, supposons que notre surfeur démarre au temps t = 0 sur la page P₇. Le seul lien pointe vers P₅, donc au temps t = 1 le surfeur s’y retrouve avec une probabilité 1. D’ici partent trois liens, donc au temps t = 2 il se trouve sur une des pages P₆, P₇, P₈ avec une probabilité 1/3. Voici les probabilités suivantes :

	P₁	P₂	P₃	P₄	P₅	P₆	P₇	P₈	P₉	P₁₀	P₁₁	P₁₂
t=0	.000	.000	.000	.000	.000	.000	1.00	.000	.000	.000	.000	.000
t=1	.000	.000	.000	.000	1.00	.000	.000	.000	.000	.000	.000	.000
t=2	.000	.000	.000	.000	.000	.333	.333	.333	.000	.000	.000	.000
t=3	.167	.000	.000	.000	.333	.000	.333	.000	.167	.000	.000	.000
t=4	.000	.042	.042	.042	.417	.111	.111	.111	.000	.042	.042	.042
t=5	.118	.021	.021	.021	.111	.139	.250	.139	.118	.021	.021	.021
…
t=29	.117	.059	.059	.059	.177	.059	.117	.059	.117	.059	.059	.059
t=30	.117	.059	.059	.059	.177	.059	.117	.059	.117	.059	.059	.059

On observe une diffusion qui converge assez rapidement vers une distribution stationnaire. Vérifions cette observation par un second exemple, partant cette fois-ci de la page P₁ :

	P₁	P₂	P₃	P₄	P₅	P₆	P₇	P₈	P₉	P₁₀	P₁₁	P₁₂
t=0	1.00	.000	.000	.000	.000	.000	.000	.000	.000	.000	.000	.000
t=1	.000	.250	.250	.250	.250	.000	.000	.000	.000	.000	.000	.000
t=2	.375	.125	.125	.125	.000	.083	.083	.083	.000	.000	.000	.000
t=3	.229	.156	.156	.156	.177	.000	.083	.000	.042	.000	.000	.000
t=4	.234	.135	.135	.135	.151	.059	.059	.059	.000	.010	.010	.010
t=5	.233	.126	.126	.126	.118	.050	.109	.050	.045	.005	.005	.005
…
t=69	.117	.059	.059	.059	.177	.059	.117	.059	.117	.059	.059	.059
t=70	.117	.059	.059	.059	.177	.059	.117	.059	.117	.059	.059	.059

Bien que la diffusion mette plus de temps, la distribution stationnaire est la même ! Elle coïncide d’ailleurs avec notre solution m = (2, 1, 1, 1, 3, 1, 2, 1, 2, 1, 1, 1), ici divisée par 17 pour normaliser la somme à 1. Les pages où m_i est grand sont les plus « fréquentées » ou les plus « populaires ». Dans la quête de classer les pages web, c’est encore un argument pour utiliser la mesure m comme indicateur.

La loi de transition

Comment formaliser la diffusion illustrée ci-dessus ? Supposons qu’au temps t notre surfeur aléatoire se trouve sur la page P_j avec une probabilité p_j. La probabilité de partir de P_j et de suivre le lien j → i est alors (1 / ℓ_j) p_j . La probabilité
d’arriver au temps t + 1 sur la page P_i s’exprime donc par la formule suivante :

(4)

Étant donnée la distribution initiale p, la loi de transition (4) définit la distribution suivante p′ = T(p). C’est ainsi que l’on obtient la ligne t + 1 à partir de la ligne t dans nos exemples. (En théorie des probabilités, ceci s’appelle une chaîne de Markov.) La distribution stationnaire est caractérisée par l’équation d’équilibre m = T(m), qui est justement notre équation (3).

Attention aux trous noirs

Que se passe-t-il quand notre graphe contient une page (ou un groupe de pages) sans issue ? Pour illustration, voici notre graphe modifié.

graphe modifié avec une page qui absorbe toute la probabilité

L’interprétation comme marche aléatoire permet de résoudre l’équation (3) sans aucun calcul : la page P₁₃ absorbe toute la probabilité, car notre surfeur aléatoire tombera tôt ou tard sur cette page, où il demeure pour le reste de sa vie. Ainsi la solution est m = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1). Notre modèle n’est donc pas encore satisfaisant.

Le modèle utilisé par Google

Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle P_j et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page P_j, choisi de manière équiprobable.

Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe.

Dans ce modèle, la transition est donnée par la formule :

(5)

Le premier terme c/n provient de la téléportation, le second terme est la marche aléatoire précédente. La mesure d’équilibre vérifie donc l’équation :

(6)

Le paramètre c est encore à calibrer. Pour c = 0, nous obtenons le modèle précédent. Pour 0 < c ≤ 1, la valeur 1/c est le nombre moyen de pages visitées, c’est-à-dire le nombre de liens suivis plus un, avant de recommencer sur une page aléatoire.

Par exemple, le choix c = 0.15 correspond à suivre environ 6 liens en moyenne, ce qui semble une description réaliste.

Pour conclure l’analyse de notre exemple, voici la marche aléatoire partant de la page P₁ :

	P₁	P₂	P₃	P₄	P₅	P₆	P₇	P₈	P₉	P₁₀	P₁₁	P₁₂
t=0	1.00	.000	.000	.000	.000	.000	.000	.000	.000	.000	.000	.000
t=1	.013	.225	.225	.225	.225	.013	.013	.013	.013	.013	.013	.013
t=2	.305	.111	.111	.111	.028	.076	.087	.076	.034	.020	.020	.020
t=3	.186	.124	.124	.124	.158	.021	.085	.021	.071	.028	.028	.028
t=4	.180	.105	.105	.105	.140	.057	.075	.057	.057	.040	.040	.040
t=5	.171	.095	.095	.095	.126	.052	.101	.052	.087	.042	.042	.042
…
t=29	.120	.066	.066	.066	.150	.055	.102	.055	.120	.066	.066	.066
t=30	.120	.066	.066	.066	.150	.055	.102	.055	.120	.066	.066	.066

La mesure stationnaire est vite atteinte, et la page P₅ arrive en tête avec m₅ = 0.15, avant les pages P₁ et P₉ avec m₁ = m₉ = 0.12.

Le théorème du point fixe

Afin de développer un modèle prometteur, nous avons utilisé des arguments heuristiques et des illustrations expérimentales. Fixons maintenant ce modèle et posons-le sur un solide fondement théorique. Nos calculs aboutissent bel et bien dans notre exemple miniature, mais est-ce toujours le cas ? Eh bien oui, il existe un résultat mathématique, appelé théorème du point fixe, qui y répond en toute généralité. Voici comment il s’énonce :

Théorème du point fixe. Considérons un graphe fini quelconque et fixons le paramètre c tel que 0 < c ≤ 1. Alors l’équation (6) admet une unique solution vérifiant m₁ + ··· + m_n = 1. Dans cette solution, m₁, …, m_n sont tous positifs. Pour toute distribution de probabilité initiale, le processus de diffusion (5) converge vers cette unique mesure stationnaire m. La convergence est au moins aussi rapide que celle de la suite géométrique (1 − c)ⁿ vers 0.

Pour prouver ce théorème, les mathématiciens ont montré que la loi de transition (5) définit une application T : p ↦ p′ qui est contractante de rapport 1 − c. Le résultat découle ainsi du théorème du point fixe de Banach.

Conclusion

Pour être utile, un moteur de recherche doit non seulement énumérer les résultats d’une requête, mais les classer par ordre d’importance. Or, estimer la pertinence des pages web est un profond défi de modélisation.

En première approximation, Google analyse le graphe formé par les liens entre pages web. Interprétant un lien j → i comme « vote » de la page P_j en faveur de la page P_i, le modèle Page-Rank (6) définit une mesure de « popularité ».

Le théorème du point fixe assure que cette équation admet une unique solution, et justifie l’algorithme itératif (5) pour l’approcher. Celui-ci est facile à implémenter et assez efficace pour les graphes de grandeur nature.

Muni de ces outils mathématiques et d’une habile stratégie d’entreprise, Google gagne des milliards de dollars. Il fallait y penser !

Une première version de ce document a été publiée sur Images des Mathématiques.

Newsletter

Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !

Michael Eisermann

Professeur à l'Université de Stuttgart, Allemagne, chercheur à l'Institut für Geometrie und Topologie.

Voir le profil

Découvrez le(s) dossier(s) associé(s) à cet article :

Culture & Société

AlgorithmesDonnées

Information, recherche et biais

Culture & Société

Données