Dans The Good Wife, les classements sur le Web en procès

Données

Algorithmes Réseaux & Communication

Web Droit Films/Séries

The Good Wife est une série juridique. C’est surtout une série où l’on voit une femme s’émanciper d’un mari (très) politicien pour embrasser la fonction d’avocat. Dans l'épisode 3 de la saison 4, intitulé « Two girls, one code », l’intrigue fait le lien entre technologie et droit.

Cet article est publié en partenariat avec le blog Binaire, dans sa série Le divulgâcheur.

Cet épisode est centré sur le procès intenté par les héros de la série, les avocats Will Gardner et Alicia Florrick, à un géant du net, ChumHum : leurs clientes, fondatrices d’une petite startup, disent avoir fait faillite en raison de leur mauvais classement dans les moteurs de recherche de ChumHum. Crédible, ou pas crédible ?

Dans cette scène de procès (de 7’05 à 10′), nous voyons la mise en accusation de Neil Gross, PDG de l’entreprise ChumHum, dont l’économie est basée sur l’activité de son moteur de recherche. Dans la série, ChumHum est une sorte de personnage récurrent qui représente globalement les géants du net : ici, c’est l’activité de son moteur de recherche qui est visée, faisant de ChumHum un Google de la série. Il est reproché à Neil Gross de modifier l’algorithme sur lequel repose le moteur de recherche afin de défavoriser la position de certaines pages web dans les classements de résultats.

Deux éléments sont mis en avant dans cette scène. Tout d’abord, une vidéo promotionnelle de ChumHum montre le fonctionnement du moteur de recherche. Même si l’explication n’est que partielle, on voit bien que ce dernier, recevant la requête d’un utilisateur exprimée par des mots-clés, cherche à identifier des pages web pertinentes pour cette requête. Cette tâche nécessite de collecter l’ensemble des pages existantes et de les indexer (c’est-à-dire d’associer ces pages à des mots-clés) afin de pouvoir très rapidement déterminer la liste des pages web en lien avec la requête. Une fois cette liste obtenue, il reste une deuxième étape, cruciale pour la suite du procès : ordonner les résultats.

Le second élément qui est mis en avant pose la question d’un possible trucage de l’algorithme, et notamment de savoir s’il est possible pour ChumHum de faire arbitrairement descendre une page web dans un classement.

C’est précisément ce cas qui est discuté lors du procès car Julie Doyle et Elisabeth Sun, dirigeantes d’une startup développant un logiciel de reconnaissance vocale, reprochent à Neil Gross d’être à l’origine de la chute de la présence de leur startup dans le classement des pages associées précisément à la requête « logiciel de reconnaissance vocale », passant de la 1^ère à la 28^e position du jour au lendemain et déclenchant leur faillite. Or cette chute soudaine intervient moins d’une semaine après le refus par la startup de payer ChumHum pour obtenir des encarts publicitaires. On voit donc là une suspicion de détournement des résultats de l’algorithme à des fins économiques. Cette suspicion est d’ailleurs renforcée par le fait qu’un concurrent de la startup connaît les effets inverses : une rapide montée dans le classement concomitante avec l’acceptation d’utiliser le service de publicité de ChumHum…

L’accusé rétorque un peu plus tard qu’il n’est en rien responsable car aucune modification de l’algorithme n’est opérée. On voit un Neil Gross très catégorique sur ce point : « L’algorithme fonctionne tout seul, on n’y touche pas ! ».

Cette scène de procès est-elle réaliste ?

Tout à fait. L’explication donnée dans la vidéo promotionnelle décrit de façon correcte le fonctionnement d’un moteur de recherche. Et surtout, les questions posées ici et les enjeux du procès, qui imagine qu’un géant du net pourrait volontairement faire « disparaître » des entreprises de son moteur de recherche pour des raisons économiques, reviennent régulièrement dans le débat public. Les possibilités de trucage, par les moteurs de recherche eux-mêmes, des résultats de leurs classements, sont réelles.

Si l’on est rigoureux, on voit cependant que quelques aspects sont déformés dans la présentation du fonctionnement de l’algorithme. L’intuition qui est véhiculée dans la vidéo promotionnelle est que tout se passe au moment où l’utilisateur tape les mots-clés de sa requête, notamment que c’est à ce moment-là que le moteur de recherche commence son travail. En réalité, la phase de collecte de l’information, de même que celle de l’indexation, se fait en amont, de manière régulière et en continu, par des programmes (des crawlers) qui collectent et mettent à jour de gigantesques bases de données mémorisant le contenu des pages web. Cette étape est réalisée en permanence, justement pour que, lorsque le moteur de recherche reçoit une requête, il n’ait plus que la phase de classement à faire.

La partie la plus délicate du fonctionnement d’un moteur de recherche n’est donc pas discutée dans la scène, puisque la manière d’opérer le classement proprement dit n’est pas décrite. Or la véritable question ici est justement de savoir comment mesurer l’importance d’une page web pour établir un classement. L’arrivée de Google en 1998 a produit un tournant à la fois scientifique et technique. Jusque-là, la mesure de l’importance d’une page web se faisait principalement à l’aide d’indicateurs médiamétriques (nombre de personnes cliquant sur une page, nombre de visites régulières, etc.). C’étaient donc avant tout celles et ceux qui consultent les pages web qui, par leur activité, déterminaient cette notion d’importance.

Les fondateurs de Google, Larry Page et Sergey Brin, renversent ce point de vue en proposant de considérer l’activité non pas des personnes qui consultent le web, mais de celles et ceux qui créent le web et éditent des pages web. La notion clé devient le lien hypertexte entre deux pages web qui sert alors de marqueur d’autorité pour les algorithmes de classement : peu importe le nombre de visites que reçoit une page, pour qu’elle monte dans les classements, il faut qu’elle soit beaucoup référencée par des liens hypertextes de pages faisant elles-mêmes autorité.

La question qui se pose alors est de savoir comment opérer ce calcul. C’est là que réside le tour de force de Brin et Page qui, non seulement construisent un score (le PageRank) se basant sur la structure relationnelle entre les pages web, mais, surtout, mettent au point un algorithme capable de calculer ce score sur des graphes gigantesques.

En ce sens, comme l’indique Neil Gross, l’algorithme fonctionne effectivement de façon autonome, pas besoin d’y toucher. Mais cette remarque ne clôt pas le débat pour autant. Car si le principe de l’algorithme est bien connu et ne change pas, une multitude d’éléments déterminants se cachent dans les détails de son implémentation qui nécessite, au contraire, de « toucher » à l’algorithme quotidiennement. On assiste d’ailleurs à une belle passe d’armes rhétorique entre Will Gardner, avocat de la startup, et Neil Gross autour de la bonne formulation pour caractériser cette nécessaire mise à jour : « Donc vous ne modifiez jamais l’algorithme ? » demande à un moment Will Gardner ? Et l’accusé de répondre prudemment « Je n’ai pas dit ça… ».

On peut noter pour finir que, pour des raisons scénaristiques bien compréhensibles, cette scène campe volontairement les protagonistes dans des positions figées, laissant penser notamment qu’une entreprise comme ChumHum ne devrait sous aucun prétexte chercher à modifier les résultats de ses classements. L’actualité récente nous a montré que cette position n’est pas si évidente et que, parfois, nous voulons au contraire que les moteurs de recherche ne permettent pas à leur algorithme de rendre visibles certaines pages web. C’est précisément le sens d’un arrêt de la Cour de Justice de l’Union Européenne du 24 septembre 2019 qui rappelle que les pages web mentionnant les données à caractère personnel d’une personne physique, en particulier « [son] origine raciale ou ethnique, [ses] opinions politiques, [ses] convictions religieuses […] ainsi que [sa] vie sexuelle », peuvent faire l’objet d’un « déréférencement », à la demande de la personne concernée. Si la demande est légitime, les moteurs de recherche doivent alors exclure ces pages de leurs classements. C’est ce qu’on appelle communément le droit à l’oubli.

La Cour va même un peu plus loin dans l’analyse du fonctionnement d’un moteur de recherche en se penchant sur le cas particulier d’une personne qui voudrait faire disparaître des classements une référence à une procédure judiciaire le concernant. La Cour précise que, même s’il n’est pas tenu de faire disparaître la référence (parce qu’elle « s’avère strictement nécessaire pour protéger la liberté d’information » par exemple), le moteur de recherche doit en revanche « aménager la liste de résultats de telle sorte que l’image globale qui en résulte pour l’internaute reflète la situation judiciaire actuelle ». Ainsi, si une personne est acquittée d’un crime dont elle avait été accusée, le moteur de recherche est tenu de faire en sorte que les pages web mentionnant l’acquittement soient systématiquement mieux classées que celles mentionnant sa mise en accusation !

On voit là un exemple bien réel où, à l’inverse de ce qui est discuté dans la scène du procès, il est très clairement demandé aux moteurs de recherche de truquer les résultats de leurs algorithmes afin de respecter la législation en vigueur en Europe.

Décision de la CJUE
Article du Monde sur le droit à l’oubli, en lien avec la dernière partie
Sur le fonctionnement d’un moteur de recherche : chapitre 4 de Au cœur des réseaux, Éditions Le Pommier, 2019