À propos de la fouille de données
Ecoutez l'interview Florent Masseglia
Florent Masseglia
Revenons une dizaine d’années en arrière. Les téléphones mobiles, les ordinateurs portables, les baladeurs MP3, Internet… Ces technologies font leur apparition dans notre quotidien et ouvrent la voie à l’ère de la communication. À la fois supports et vecteurs d’information, ils transforment chacun de nous en producteur et consommateur de données. Dans un contexte où les données deviennent omniprésentes, la fouille de données est un domaine de recherche qui prend tout son sens.
Dans cet entretien, Florent Masseglia dresse un large panorama des enjeux de la fouille de données. S’intéressant notamment à l’analyse des usages des sites web, le chercheur nous explique à travers quelques exemples comment les « fouilleurs de données » procèdent pour extraire des connaissances à partir de données et à quoi ces connaissances peuvent servir.
Mise à jour en avril 2015
Ce podcast a été enregistré en 2010. Une époque à laquelle, vous vous en souvenez peut-être, on pouvait dire que « sur Internet, personne ne sait que tu es un chien ». Cinq ans plus tard, de nombreux événements montrent que les données sont un élément sensible, car elle peuvent en dire beaucoup sur notre vie privée. Il y a eu les fuites et les attaques de grandes entreprises qui ont laissé des millions d’informations personnelles circuler sans protection (fuites répertoriées dans la base de de données DataLossDB). Les révélations d’Edward Snowden ont montré les pratiques des agences de surveillance aux États-Unis. En avril 2015, en France, un projet de loi sur le renseignement vise à officialiser la collecte massive de données personnelles, qui seront analysées pour des questions de sécurité. Tous ces éléments contrastent radicalement avec le contexte dans lequel ce podcast a été enregistré et Florent Masseglia tenait à remettre son propos en perspective, en répondant à quelques questions.
)i( : Est-ce que le contenu de ce podcast est devenu obsolète ?
FM : Sur un plan technique non, pas tellement. On pourrait le mettre à jour en parlant de calcul distribué car certaines données sont devenues tellement massives qu’on ne peut pas les traiter sur une simple machine. Par contre, sur un plan sociétal, le ton que j’emploie dans ce podcast est assez décalé. Il ne correspond pas aux enjeux actuels.
)i( : Par exemple, quand vous dites que « tout ça, ce n’est que des statistiques » ?
FM : Oui, exactement ! Quand il s’agit, par exemple, d’analyser les tendances des clics d’utilisateurs d’un site web, alors on se fiche complètement de savoir que « monsieur Bidule a cliqué sur la page « Broderie » ». Ce qu’on cherche ce sont des indicateurs significatifs comme le fait que « Si un utilisateur clique sur la page « Broderie », alors il va cliquer sur la page « Pâte à sucre » avec 25% de chances et 10% des utilisateurs cliqueront sur les deux pages ». C’est utile quand on veut prévoir des usages, par exemple pour un site web, pour un supermarché ou pour un opérateur télécom. Mais aujourd’hui je ne le dirais pas comme ça et je ferais absolument un lien avec les enjeux liés aux données personnelles.
)i( : Une mise en garde, en quelque sorte ?
FM : Oui, parce qu’avec les risques liés aux données personnelles, on voit bien que beaucoup de monde (les agences de surveillance au premier plan) ne se fichent pas du tout de savoir que « monsieur Bidule » a cliqué sur la page « Broderie ». Même si les techniques restent identiques, on peut dire qu’elles sont inutiles pour la sécurité et ne justifient pas une collecte d’informations personnelles massives (voir l’article Person of Interest : la surveillance des données individuelles pour anticiper les crimes). Cette collecte devra être justifiée autrement. Et compte tenu de l’utilisation qui en est faite aujourd’hui, ce serait trop ambigu de dire simplement que « tout ça, ce n’est que des statistiques » !
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !
Florent Masseglia
Chargé de recherche Inria, chercheur en analyse de données dans l'équipe ZENITH.
Joanna Jongwane
Rédactrice en chef d'Interstices, Direction de la communication d'Inria