Les données en question

Données

Intelligence artificielle

Fondements Big data

Au cœur de la connaissance et de l'information, les données ont peu à peu pris une importance qui nous dépasse. Mais qu'entend-on exactement par données ? Quels sont les enjeux autour de leur gestion ou de leur analyse ? Quels impacts sur la société ?

Une donnée est la description élémentaire d’une réalité ou d’un fait, comme par exemple un relevé de température, la note d’un élève à un examen, l’état d’un compte, un message, une photo, une transaction, etc. Une donnée peut donc être très simple et, prise isolément, peu utile. Mais le recoupement avec d’autres données devient très intéressant. Par exemple, une liste de températures pour une région donnée sur une longue période peut nous renseigner sur le réchauffement climatique. Ou bien la note moyenne d’un élève dans une matière sur une année nous informe du niveau d’acquisition des connaissances de l’élève dans cette matière. Il y a donc une relation subtile entre donnée et information, termes qui sont d’ailleurs souvent confondus dans le langage courant. Mais obtenir de l’information demande un travail d’analyse et d’interprétation des données (ex. une liste de notes) pour leur donner un sens dans un certain contexte (ex. une matière sur une année). Ainsi, les données sont la matière brute qui permet de produire des informations, qui, elles, sont exploitables pour diverses activités quotidiennes : évaluation, recommandation, prise de décision, prévision, recherche, etc. Inversement, pour comprendre d’où vient une information, il faut pouvoir retrouver les données initiales, d’où la nécessité d’enregistrer ces données dans une mémoire.

Pendant longtemps, le papier a fourni une mémoire pratique pour stocker et organiser les données. En effet, les documents sont faciles à transporter, partager, ranger et archiver. Et on peut les organiser, par exemple sous forme de répertoires, registres, annuaires ou tableaux pour faciliter la recherche de données. Afin d’enregistrer correctement les données, il faut aussi pouvoir les identifier précisément, de manière unique, ce qui demande un travail d’uniformisation des identifiants, comme le numéro de sécurité sociale en France, afin d’éviter les problèmes d’homonymie. Enfin, pour pouvoir retrouver des données dans de grandes collections, des métadonnées (données décrivant des données), comme des mots-clés, permettent de faire des index, en associant par exemple chaque mot-clé aux identifiants des données correspondantes.

Cependant, l’utilisation du papier pour stocker les données se heurte à un problème majeur : le lien indissociable entre la donnée et son support. Si le support disparaît, la donnée aussi. On peut bien sûr faire des copies, mais avec un coût non négligeable. Si l’on veut extraire une donnée d’un document pour l’utiliser dans un autre document, il faut la réinscrire, ce qui est fastidieux et peut conduire à des erreurs de saisie, et donc des incohérences. Enfin, les méthodes ou algorithmes pour rechercher et manipuler les données doivent être réalisés par des êtres humains, ce qui prend du temps.

Avec l’informatique et le monde numérique, la donnée peut être séparée de son support, ce qui offre des possibilités nouvelles de traitement. Notons que cela n’a pas toujours été le cas : les premiers ordinateurs ne disposaient que d’une petite mémoire de travail et les données devaient être stockées sur des cartes perforées. Une donnée numérique est codée dans un format binaire (une suite de 0 et de 1) et il y a des formats pour représenter toutes sortes de données : des nombres bien sûr, mais aussi des caractères, des graphiques, des images, etc. Par exemple, le format ASCII (American Standard Code for Information Interchange) développé dans les années 1960, et encore très répandu aujourd’hui, représente les caractères sur un octet (8 bits), soit 256 caractères possibles. Les caractères chinois à l’inverse nécessitent un code sur deux octets, soit 65.536 possibilités. Ainsi, les données numériques peuvent être stockées sur différents supports (disque dur d’un ordinateur, clé USB, mémoire flash d’un smartphone, etc.), répliquées à l’infini et être échangées aisément sur le réseau. Ces possibilités ont été exploitées pour créer Internet et le Web, qui ont profondément modifié notre rapport aux données et à l’information.

Photo : janneke staaks/ Flickr – Licence Creative Commons CC BY-NC 2.0

On utilise souvent le terme « data » pour parler des données numériques échangées sur le réseau, dans des expressions comme « forfait data » pour télécharger une quantité de données en internet mobile. Le terme « data » a pour origine le pluriel du mot latin datum (don, présent), mais est utilisé en anglais comme nom indénombrable, donc soit au singulier soit au pluriel. La gestion de données (ou data management) est devenu un domaine important qui désigne le stockage, l’organisation, la recherche et la manipulation de données de toute sorte. Ce domaine a permis le développement des systèmes de fichiers et des bases de données, au cœur de tout système d’information d’entreprise pour gérer des données structurées. Il a aussi contribué aux moteurs de recherche, et plus généralement aux systèmes de gestion de documents web.

Avec le développement du Web, la quantité de données a augmenté subitement et massivement. Tout le monde a été en capacité de produire des données comme les pages web par exemple. Dans un deuxième temps, de nouveaux protocoles sont apparus qui ont permis les interactions entre personnes en ligne. C’est ce qu’on appelle le Web 2.0, avec les outils de communication, les réseaux sociaux, les plates-formes d’échange ou de partage, le commerce en ligne… Enfin, dans un troisième temps, sont apparus les appareils de la mobilité qui nous suivent partout, et que l’on qualifie d’intelligents, comme les smartphones. Ils nous permettent d’accéder aux services en ligne à n’importe quel moment, n’importe où. Ils permettent également au réseau de savoir où nous sommes et ce que nous faisons de manière continue. Finalement, avec l’Internet des objets, ce ne sont plus seulement les personnes qui sont connectées au réseau, mais également les objets qui nous entourent, dans lesquels sont embarqués des puces qui permettent de produire, de traiter et d’échanger des données. Le volume et la variété des données – ex. tweets, position GPS, photos, paroles, etc. – ont explosé.

On parle aujourd’hui de « Big Data ». L’abondance des données suffit à justifier ce terme. La quantité de données se mesure désormais avec des métriques introduites récemment, les zetta-octets (10²¹ octets). On parle même de yotta-octets (10²⁴ octets), des ordres de grandeur jamais atteints dans le passé par l’activité humaine. Pour l’informaticien, ces données constituent une chance et un défi. Une chance, parce qu’il y aura du travail pendant longtemps pour être capable de les traiter de manière satisfaisante. Un défi également, tant ces données posent des problèmes de tous ordres. Les données du big data sont de nature différente de celles que l’on pouvait stocker sur le papier. Il s’agit surtout d’un flux de données, comme d’une fontaine, qui coulerait en permanence et dont nous ne prélèverions qu’une petite partie pour notre usage. Une partie qui peut être vue comme l’information qu’on extrait, parfois à grand coût, de ce flux. Comme dans le domaine des moteurs, on parle de 3V, 5V, ou même 7V – avec le volume, la variété, la vélocité, la valeur, la véracité, la visualisation, la viabilité, etc. – pour caractériser le big data.

Les données n’ont d’intérêt ou de sens qu’avec les algorithmes qui les traitent. Contrairement aux données stockées sur support papier, les données numériques sont manipulées par des algorithmes codés dans des programmes, et tournant sur des ordinateurs sans cesse plus puissants. L’explosion de la quantité de données a donc été directement accompagnée d’une explosion de la capacité des algorithmes soutenus par des architectures parallèles pouvant supporter des quantités de données croissantes et dans une logique de meilleur effort (de l’anglais best effort), garantissant un temps d’exécution maitrisé. De plus, des problèmes de grande complexité ont pu être résolus grâce au développement de l’intelligence artificielle. Depuis la victoire du programme joueur d’échecs Deep Blue contre Garry Kasparov en 1997, les algorithmes accumulent les victoires : la conduite automobile, le jeu de Go, pourtant si combinatoire, etc. De nombreuses tâches sont appelées à être automatisées pour être réalisées par des machines directement à partir des données, comme la rédaction d’articles de presse par exemple, et petit à petit un nombre croissant de tâches qui paraissaient relever de l’intelligence humaine. Il faut noter de surcroît le cercle vertueux entre les données et les algorithmes. Plus il y a de données, meilleurs sont les algorithmes d’apprentissage.

Le changement qui résulte de la libération des données est toutefois bien plus profond que la simple mécanisation de tâches considérées comme difficiles. Il ne s’agit plus seulement de la réduction progressive de l’utilisation de la force humaine dans le travail, mais des principes même de l’organisation de nos sociétés qui sont remis en question. Les données récoltées par tous les capteurs permettent en effet l’émergence d’un monde virtuel, une sorte de reflet du monde physique, purement constitué de données numériques. Cette couche virtuelle permet désormais d’appréhender le monde à une granularité très fine. Si on pouvait autrefois connaître le monde entier avec une approximation grossière et une petite zone, autour de soi, avec une granularité fine, on peut désormais percevoir l’ensemble de la planète et de ses habitants avec une granularité très fine, savoir où ils sont, ce qu’ils font, etc.

Les conséquences sont multiples. Tout d’abord, de nombreuses activités réalisées précédemment par les acteurs du monde physique peuvent être exécutées par les acteurs du monde virtuel, purement dans le monde virtuel et avec une efficacité accrue. C’est précisément ce qu’un acteur comme la société de service de voitures de tourisme avec chauffeur Uber propose. Il met en relation passagers et chauffeurs, avec un service d’une telle qualité qu’il est largement adopté sur l’ensemble de la planète et rend caduques les sociétés de taxi. Sa supériorité sur les services antérieurs repose précisément sur le fait qu’il travaille sur les données et seulement sur les données. Grâce aux données, Uber peut satisfaire ses utilisateurs de manière personnalisée et exploiter au mieux les connaissances de contexte comme le trafic. Et parce qu’il travaille seulement dans la couche virtuelle, il n’a pas les nombreuses contraintes du monde physique et peut concevoir un service au plus près des besoins.

Cette mise en relation des producteurs et consommateurs de biens et de services est bien connue des économistes, qui parlent de marchés bifaces, mettant en relation deux types d’agents qui ont un intérêt à interagir. L’une des conséquences les plus fondamentales de la disponibilité des données est l’émergence de nouvelles formes d’intermédiation algorithmique (réalisée directement par des algorithmes) et qui pénètreront l’ensemble des marchés bifaces qui structurent notre société, parmi lesquels, outre les activités commerciales bien sûr, la presse, l’éducation, la santé, etc.

Le monde numérique qui émerge sous nos yeux a été rendu possible par les développements de la recherche dans de nombreux domaines, et tout particulièrement en informatique, science qui s’occupe des données et des algorithmes. Le numérique et l’informatique se nourrissent l’un l’autre de manière vertueuse, le monde numérique générant de très nombreux nouveaux problèmes de recherche liés aux données ou à l’automatisation de tâches de plus en plus complexes. Et parce que le numérique conduit à une remise en cause profonde de nos modes d’organisation, il suscite également des recherches au carrefour des disciplines, pour penser les nombreuses questions juridiques, économiques, environnementales, politiques, etc. qu’il soulève.

Newsletter

Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité