Interstices


  Débattre

Person of Interest : la surveillance des données individuelles pour anticiper les crimes

Amateurs de la série TV Person of Interest ? Vous êtes-vous déjà interrogés sur la réalité des scénarios présentés du point de vue des sciences du numérique ? Aujourd'hui, Interstices inaugure sa rubrique « L'informatique - ou presque - dans les films » en décortiquant pour vous quelques éléments de cette série.

Person of Interest

Person of Interest. Série télévisée diffusée sur CBS depuis 2011, sur TF1 depuis 2013.
Prod. : Kilter Films, Bad Robot, Warner Bros. Television (durée des épisodes : 43 min.)

Commençons par le pitch de la série : Finch, un informaticien de génie, a conçu une « machine » afin d'aider le gouvernement des États-Unis à anticiper les actes terroristes. Pour cela, la dite machine collecte et exploite des données de surveillance de la population, en très grandes quantités : vidéosurveillance, communications vocales et écrites, transactions bancaires, déplacements, etc. Cet appareil détecte donc les moindres comportements suspects — quelqu'un essayant par exemple de passer sous le radar en cachant des transactions financières — pour prévoir les attaques terroristes. À la fin de son analyse, la machine identifie les personnes impliquées dans les actes terroristes mais aussi celles impliquées dans des actes criminels n'ayant aucun lien avec le terrorisme. Finch a donc livré au gouvernement cette machine fonctionnelle, capable de faire la différence et de ne donner que des alarmes relatives au terrorisme, tandis que les alarmes liées aux affaires criminelles d'ordre personnel sont discrètement redirigées vers lui. Cette intrigue mise en place, la série peut commencer, chaque alarme étant liée à un crime en puissance.

Maintenant, observons les domaines de recherche impliqués dans une telle affaire. Cette machine met en œuvre au minimum :

  • du traitement d'images de vidéosurveillance (la machine arrive à suivre un personnage ou un véhicule, d'une caméra à l'autre)
  • de la reconnaissance faciale (elle sait reconnaître des visages)
  • de la reconnaissance vocale (elle peut retranscrire les conversations téléphoniques)
  • du traitement du langage naturel (elle peut interpréter les textes pour en tirer des émotions et en comprendre le sens)
  • de la sécurité (la machine casse les sécurités de tous les réseaux dont elle a besoin, par exemple pour extraire des dossiers médicaux des patients d'un hôpital ou encore des caméras de surveillance privées)
  • de la gestion de réseau (elle peut faire communiquer toutes les machines, connectées ou pas, à l'insu de leurs propriétaires)
  • de la gestion de Big Data (les données traitées sont forcément très volumineuses).

Cette liste nous donne un aperçu de l'étendue des sujets possibles pour la rubrique « L'informatique - ou presque - dans les films », mais nous laisserons de côté ces domaines pour l'instant. Les scénaristes peuvent s'inspirer de faits réels et il ne s'agit pas de développer ici le débat sur les failles des téléphones mobiles qui permettraient des écoutes à distance par exemple. Nous allons simplement jouer une partie du jeu des scénaristes et nous projeter dans un monde où la fameuse machine peut faire tout cela.

De la fiction à la réalité...

Un phénomène récent inquiète les services départementaux d'incendie et de secours : le nombre d'appels ne relevant pas des pompiers explose. Un opérateur de ce centre de secours répond ainsi à près de 80 appels dans la journée. À chaque appel, il peut gérer une situation qui met des vies en danger. Dans ces conditions, il se passerait bien des « faux appels » ; un téléphone portable dans une poche qui passe un coup de fil tout seul par exemple, ou bien les blagues d'enfants. Ceux-là entrent dans la catégorie « on aurait vraiment pu éviter ce coup de fil ».

Il y a aussi ces appels « pas complètement impardonnables » de ceux qui cherchent une pharmacie de garde, ou bien de cette dame qui appelle les pompiers pour qu'ils viennent la débarrasser d'un nid d'abeilles — dans un tel cas, il serait plus judicieux de faire appel à un apiculteur par exemple —, ou encore de cette personne qui a un problème de carte SIM et ne peut contacter que les services d'urgence (et leur demande de prévenir un proche). Quelles que soient ces bonnes raisons, ces appels-là non plus ne devraient pas aboutir.

Au final, seuls les pompiers sont parfaitement capables de faire la distinction entre les appels réellement destinés à leurs services et ceux qu'on pourrait éviter. Pour un individu lambda par contre, ces erreurs, quand elles ne sont pas mal intentionnées, montrent que la frontière est difficile à trouver entre les appels justifiés et les autres, quoique le mot « urgence » pourrait tout de même fournir un indice assez clair.

Pour en revenir à ce qui nous intéresse ici, le phénomène des fausses alertes, tellement inquiétant pour les pompiers, peut rapidement prendre des proportions bien plus grandes lorsqu'il s'agit de détecter automatiquement des situations « d'urgence » en analysant des données. Plus les données à traiter pour trouver ces situations sont volumineuses, plus le nombre de fausses alarmes peut grandir, et pour certains, devenir explosif !

Détecter les fausses alertes

Imaginons la situation suivante : vous êtes en charge de sécuriser un site web pour le protéger des utilisations malveillantes. Pour ce faire, il y a plusieurs méthodes, la technique principale consistant à détecter des signatures d'attaques connues. C'est le cas par exemple des antivirus qui repèrent des signatures de virus dans les fichiers transitant par votre ordinateur. Mais cette technique a un inconvénient majeur : sa fiabilité dépend directement de la liste des signatures. C'est d'ailleurs ce qui fait la différence entre les systèmes de protection présents sur le marché puisque le « métier » d'un éditeur d'antivirus consiste principalement à mettre cette liste à jour 24h/24. Si la liste est à jour et exhaustive, alors le virus n'a aucune chance. S'il s'agit d'un nouveau virus, alors il n'est pas sur la liste et là, votre première pensée sera pour votre sauvegarde la plus récente. Pour un site web, le principe est le même.

Et si vous êtes paranoïaque et que vous voulez vraiment éviter les intrusions, même celles qui ne sont pas encore connues, il existe encore une possibilité, la détection de comportements anormaux. On appelle ça des « outliers » (ou valeurs atypiques). Ce sont des enregistrements qui se distinguent de la plupart des catégories connues. Par exemple, sur votre blog, il y a différentes catégories de visiteurs : ceux à la recherche d'informations, ceux intéressés par les vidéos, ceux qui viennent vous laisser un petit message, etc. Tous ces utilisateurs peuvent être classés dans une liste de « comportements typiques ». Puis, il y a un ou deux affreux qui veulent saccager votre site. Les systèmes de sécurité utilisant la détection d'outliers présument que ces deux affreux auront un comportement tellement différent des autres qu'on pourra les isoler facilement (ils n'entreront pas dans votre liste de comportements typiques) et inspecter leurs actions avant de les autoriser, ou bien de leur mettre un coup de Taser numérique. Malheureusement pour vous, les deux affreux en question ne sont pas les seuls à avoir un comportement atypique. Tout le monde n'entre pas dans l'un des moules prédéfinis par votre panoplie de comportements classiques.

Prenons un instant pour estimer le nombre d'alarmes que la machine de Person of Interest pourrait délivrer. Considérons un site de commerce que vous utilisez peut-être régulièrement, disons le site de la SNCF par exemple. Ce site recevait 7 millions de visiteurs uniques par mois au premier trimestre 2012 et 531 000 visiteurs uniques par jour. Imaginons que le système de surveillance de l'utilisation du site soit capable d'extraire 99% de comportements dits « normaux » et lève donc une alarme sur 1% des comportements « atypiques » (parmi lesquels nous avons donc, peut-être, quelques affreux). Cela représente 5 310 alarmes par jour. Et il faut surveiller le site jour et nuit parce que les affreux ne seront pas assez courtois pour vous laisser tranquille durant la nuit. Comme pour les pompiers, l'expert en sécurité du site de la SNCF n'a pas forcément envie qu'on le sature avec 5 310 alarmes par jour. Et surtout, il veut qu'on lui délivre des alarmes correspondant à de véritables menaces pour la disponibilité de son site, afin que les usagers puissent accéder au site en permanence.

Il reste alors un domaine essentiel pour cette machine, qui lui permet de lever des alarmes, et sur lequel nous nous concentrerons : la fouille de données (ou data mining). Effectivement, une fois les données collectées, il faut bien les analyser pour en extraire les comportements anormaux. Cela relève des techniques de fouille de données, qui sont capables de trouver ces fameux outliers pour les transformer en alarmes à partir de très grandes quantités de données.

Les limites des méthodes de fouilles de données

Le premier problème que pose cette collecte de données à des fins d'analyse est d'ordre sociétal. Peut-on collecter des données relatives aux activités des individus, et les analyser, sans les en informer ? En anglais, on parle de « privacy » (vie privée) pour ces questions liées à la confidentialité des données, à leur sécurité et à ce qui relève de la sphère de la vie privée. En 2008, le gouvernement des États-Unis a commandé une étude sur la faisabilité d'un système de surveillance global des données individuelles dans un but de lutte contre le terrorisme. Le comité académique consulté à ce sujet a émis un document dans lequel les problèmes de confidentialité des données sont très clairement mis en relief comme étant un obstacle parmi d'autres à ces méthodes. Pour autant, des doutes persistaient sur l'abandon réel de ces projets de surveillance par le gouvernement des USA, soupçons confirmés par les affaires récentes (Snowden, NSA...).

Les problèmes suivants — il y en a deux facilement identifiables — sont d'ordre scientifique : le pré-traitement des données et les faux-positifs (les fausses alarmes). La fouille de données ne peut s'envisager que sur des données propres. Or des données sont considérées comme propres quand elles sont, au minimum, présentées sous un format clair, c'est-à-dire prêtes à être « avalées » par le logiciel de fouille, quand elles sont ciblées (sélectionnées pour enlever des données non pertinentes à l'étude) et quand elles sont transformées (par exemple unifiées si elles viennent de plusieurs sources). Il s'agit de tout un domaine de recherche sur la qualité des données. Si les sources de données ne changent jamais dans une situation d'analyse précise, par exemple un supermarché qui analyse des données de ventes issues des caisses enregistreuses qui sont toujours les mêmes et toujours gérées par le même système, alors on peut imaginer régler le problème du pré-traitement une fois pour toutes. Dans le cas de « Person of Interest », la machine exploite des données de sources extrêmement nombreuses et évolutives. Considérer que ces données puissent être rangées, proprement formatées et unifiées dans ces conditions dépasse largement ce que les travaux les plus récents en pré-traitement de données permettent actuellement de faire.

Le second problème que laisse entrevoir l'exemple des pompiers, est celui des fausses alarmes. Pour l'illustrer, inspirons-nous d'un exemple tiré du livre libre de droit « Mining massive datasets ». Afin d'évoquer les limites des méthodes de fouille de données, les auteurs se penchent justement sur le cas de la surveillance de masse dans un objectif de lutte contre le terrorisme. Souvenez-vous que le gouvernement des États-Unis a envisagé une telle surveillance à partir de toutes les données dont il pourrait disposer (transactions bancaires, voyages, vidéosurveillance, hôtels, etc.). Cette volonté a grandi suite aux attentats du 11 septembre. Des projets comme TIA (Total Information Awareness) projetaient de collecter des données sur les activités de la population de manière massive afin de les analyser et d'y détecter des menaces terroristes. Même si ce projet a, comme d'autres avant lui, été invalidé par le congrès des USA, nous savons aujourd'hui qu'une surveillance de masse (au moins des communications) a été mise en place. Rend-elle pour autant crédible un scénario comme celui de Person of Interest ? C'est ce que nous allons estimer maintenant, en nous mettant dans la peau d'un analyste en charge de construire les règles qui vont émettre des alarmes.

Nous construisons ainsi le scénario suivant, volontairement simpliste : on sait qu'il existe des personnes malveillantes fortement décidées à faire le mal et que, pour faire le mal en question, elles doivent se rencontrer à l'hôtel au moins deux fois. Ce sera notre connaissance experte de base. L'objectif est donc de trouver les paires d'individus ayant séjourné dans le même hôtel un jour donné et qui ont recommencé un autre jour (et pas forcément dans le même hôtel que la première fois). Au-delà des questions de vie privée, et certainement des conséquences qu'une telle analyse pourrait avoir sur certains couples, imaginons la faisabilité, en pratique, d'une telle approche.

Voici quelques chiffres qui semblent raisonnables. Nous surveillons un milliard de personnes. Chacun, dans cette population, séjourne à l'hôtel un jour sur 100 (1%). Un hôtel peut accueillir 100 personnes. Il faut donc 100 000 hôtels pour couvrir les besoins en hébergement des 1% mentionnés plus haut. Notre analyse de données se fera sur 1000 jours (soit environ 3 ans).

La question des fausses alarmes revient à savoir combien de supposés méchants bien décidés à faire le mal nous allons suspecter avec cette approche. Déroulons le calcul. Nous savons que chacun va à l'hôtel un jour sur 100. La probabilité que deux personnes séjournent dans un hôtel (pas forcément le même), un jour donné, est de 0,012 soit 0,0001. La probabilité que ces deux personnes séjournent dans le même hôtel est de 0,0001/100 000 soit 10-9. Et celle que ces deux personnes reproduisent cela (donc un autre jour dans un autre hôtel ou dans le même hôtel) est de 10-9x2 soit 10-18.

Comment en déduire le nombre de méchants potentiels ? Nous savons que le nombre de paires d'individus est de 1 000 000 0002/2. Le nombre de paires de jours est de 1 0002/2. Il nous reste donc à multiplier la probabilité que deux personnes séjournent dans un même hôtel deux fois par le nombre de paires d'individus et par le nombre de paires de jours.

Cela fait 1 000 000 0002/2 x 1 0002/2 x 10-18. C'est-à-dire 250 000.

Potentiellement, nous pouvons donc glorieusement identifier 250 000 paires de méchants dans notre population ! Faut-il envoyer la police contrôler tous ces individus au cas où ? Et encore, notre « analyse » n'utilise que les données des séjours dans les hôtels. Imaginez l'explosion de ce nombre si nous utilisons d'autres sources d'informations... La détection d'outliers est un outil puissant capable d'identifier des données demandant une attention particulière, parmi un ensemble très volumineux. Mais cette détection doit, la plupart du temps, être liée à une interprétation humaine et le principal problème reste donc de ne pas saturer l'humain dans cette interaction. Telle qu'elle est présentée dans « Person of Interest », la machine de surveillance qui se base sur les comportements atypiques pour lever des alarmes est donc peu réaliste.

Predpol, un logiciel pour prévenir les crimes

Il existe, en revanche, une méthode de prédiction des crimes qui, sous forme d'un logiciel baptisé « PredPol », fonctionne actuellement dans plusieurs pays. PredPol est une méthode développée par un anthropologue, un criminologue et un mathématicien. L'idée de cette méthode est d'utiliser des modèles mathématiques comme ceux bien connus en météorologie ou encore ceux qui servent dans la prévision de tremblements de terre. Les données utilisées sont liées à l'environnement, comme le type de quartier (résidentiel, commercial, etc.), les données des crimes passés (une maison cambriolée est susceptible de l'être à nouveau, et cela augmente les risques de cambriolage dans le quartier) ou la densité de population, par exemple. Mais la méthode utilise également des données liées aux activités de la population comme les flux (déplacements de piétons, de voitures, de transports en commun), les jours de la semaine ou encore la météo. Ces données sont utilisées par PredPol dans deux composantes principales dont les détails sont gardés secrets. La première composante est un modèle mathématique permettant d'établir les prévisions. La deuxième est un système multi-agents permettant de simuler les activités de la population afin de compléter les résultats du modèle mathématique.

À partir de ces calculs, PredPol est capable de lever des alertes très localisées, comme le ferait une méthode de prévision des tremblements de terre, en pointant une zone d'alerte de 100 m² sur une carte de la ville. Cette zone indique qu'un crime pourrait survenir dans cette zone, et dans une période précise. Cela permet d'orienter les patrouilles de police qui, au lieu de se dérouler dans des zones « intuitives » pour les policiers, se déroulent dans des zones pointées par la méthode comme étant à risque d'après le modèle mathématique mis en œuvre.

Penchons-nous sur deux différences majeures entre PredPol et la « machine » de « Person of Interest ». La première différence est l'utilisation de données qui simulent les activités d'une population dans PredPol, contre des données individuelles réelles, collectées par la machine dans « Person of Interest ». La deuxième différence est la prévision de zones d'alertes (sans possibilité de désigner un individu) dans PredPol, contre la désignation précise d'un individu (sans identifier de lieu) dans « Person of Interest ». La machine de « Person of Interest » extrait donc des motifs, des corrélations ou encore des outliers, à partir de données réelles et considère qu'un individu dont les données dévient de la normale représente un danger. PredPol utilise un modèle mathématique et considère que son exploitation dans la prévision des crimes se rapproche de celle de la prévision de tremblements de terre.

Malgré tout, même PredPol peut générer des fausses alertes. Cependant, le modèle est utilisé pour orienter les patrouilles de police et tenter d'optimiser leurs déplacements. La question des fausses alarmes reste alors préoccupante, et toujours très liée à celle des « faux négatifs », c'est-à-dire les crimes qui n'ont pas été prévus. Les outils de prédiction, qu'ils soient basés sur la fouille de données ou bien sur des modèles mathématiques, sont évidement limités. Les criminels seront peut-être déstabilisés par l'arrivée de ces méthodes mais, au jeu du chat et de la souris, ils pourraient en tenir compte plus vite que prévu. Tous ces éléments laissent supposer que vouloir une méthode de « prévision » n'est pas un objectif réaliste et que ces méthodes devraient plutôt être vues comme une aide que comme un oracle.

À ce sujet, en octobre 2012, sept membres de la « Commission Italienne Grands risques » ont été condamnés à six ans de prison pour n'avoir pas assez alerté la population contre un risque de tremblement de terre à l'Aquila. Alors, puisqu'on parle ici de cinéma et de raccourcis dans les scénarios, est-ce que demain, après un crime non prévu (et non résolu), les scientifiques chargés de cette « prévision » seront condamnés à la place des criminels ?