•   Bienvenue
  •   De la recherche
  •   Découvrir
  •   Approfondir
  •   Itinéraires
  •   C'était hier
  •   Débattre
  •   Ludique
  •   Lire et voir
 
Recherches en cours et résultats marquants
 
  • partager par courriel
  • twitter
  • facebook
  • netvibes
  • delicious
  • viadeo
  • Partager
 Imprimer
Contactez-nous !
 
Auteur(s)
Jean-Daniel Fekete (Chercheur)
Date de parution
05/05/2011
Sommaire du document
  1. Représenter une profusion de données
  2. Du graphique à l’interaction
  3. Visite guidée de visualisations par type de données
Mots-clés
  • Information
  • Utilisateur
http://interstices.info/vismaster

La visualisation analytique, pour comprendre des données complexes  

Depuis une dizaine d’années, nous sommes entrés dans une nouvelle période : celle de la profusion de données. La visualisation analytique est une méthode qui utilise les capacités visuelles humaines pour accélérer l’exploration de ces quantités importantes de données.

Page 1 / 3 suivant   

Pourquoi a-t-on besoin d’utiliser les capacités visuelles ? Lors de notre scolarité, nous avons tous utilisés nos capacités symboliques pour calculer et lire, pourquoi ces capacités ne sont-elles pas suffisantes ?

Projet européen VisMaster.
Le but de la visualisation analytique ? Rendre aux experts leur autonomie, afin qu'ils puissent contrôler et maîtriser les outils d'analyse et d'exploration nécessaires aujourd'hui pour faire des découvertes ou prendre des décisions à partir de grandes quantités de données.
Auteurs scientifiques : Fanny Chevalier, Jean-Daniel Fekete - Réalisation : Christian Blonz
Visionner la vidéo - Durée : 07 min 39 s - Voir les différentes versions.

1. Représenter une profusion de données

Nous disposons aujourd'hui de quantités de données considérables, en conséquence de trois phénomènes :

  1. la capacité de stockage a augmenté de façon exponentielle et nous pouvons trouver des disques durs de plusieurs téraoctets (milliers de milliards d’octets) pour moins de 100 €,
  2. nous capturons des données à une vitesse jamais égalée avec nos satellites, nos capteurs de pollution, nos dossiers médicaux informatisés, nos enregistrements de transactions informatisées, les articles mis en ligne sur le Web, etc.
  3. les archives de données collectées depuis la nuit des temps sont maintenant mises à disposition sur Internet, DVD ou serveurs de données accessibles en ligne.

Ces nouvelles opportunités changent les perspectives scientifiques et industrielles.

Par exemple, dans les années 1990, les biologistes ont lancé le projet de séquençage du génome humain. Il leur a fallu dix ans pour y arriver, alors qu'aujourd’hui, quatre heures suffisent pour faire pratiquement le même travail de séquençage. Les données génomiques sont maintenant disponibles, mais l’analyse de la fonction des gènes – à quoi servent les fragments dans le génome ? – n’en est qu’à son balbutiement. Comment va-t-on analyser les nouveaux génomes séquencés qui arrivent à grande vitesse ?

Dans les années 1990, les entreprises qui voulaient savoir comment leurs produits étaient perçus par le public devaient demander des études à des entreprises spécialisées qui mettaient des mois à recueillir les données et à les analyser. Aujourd’hui, une exploration du Web permet de trouver toutes les pages faisant référence à des produits. Mais comment peut-t-on analyser ces milliers de pages rapidement pour en tirer des informations utiles aux entreprises ?

À l'époque où les données étaient moins abondantes, les scientifiques et les entreprises suivaient le processus suivant : ils partaient de questions (comme : « Que contient le génome humain ? ») et mettaient en place des méthodes pour recueillir les données nécessaires à leurs analyses, des méthodes pour mener à bien leurs analyses, cherchaient du financement pour réaliser tout cela, puis lançaient la procédure et attendaient le résultat.

De nos jours, les données sont déjà disponibles et en quantités bien plus importantes qu’auparavant. Il est toujours possible d’y appliquer des analyses pour obtenir des réponses à des questions connues. Cependant, on peut aussi explorer ces données pour trouver des informations nouvelles auxquelles personne n’avait pensé. C’est l’approche exploratoire.

Une représentation efficace

Lorsqu’on a de grandes quantités de données à découvrir et comprendre, des représentations graphiques peuvent être bien plus efficaces que des représentations symboliques.

Voici par exemple un tableau de données démographiques sur les États-Unis, qui donne, pour chaque état, le pourcentage de personnes ayant un diplôme de l'enseignement supérieur ainsi que le revenu moyen.

Etat% de diplômésRevenu par foyerEtat% de diplômésRevenu par foyer
Alabama20.611486Montana25.411213
Alaska30.317610Nebraska2612452
Arizona27.113461Nevada21.515214
Arkansas1710520New Hampshire32.415959
California31.316409New Jersey30.118714
Colorado33.914821New Mexico25.511246
Connecticut33.820189New York29.616501
Delaware27.915854North Carolina24.212885
District of Columbia36.418881North Dakota28.111051
Florida24.914698Ohio22.313461
Georgia24.213631Oklahoma22.811893
Hawaii31.215770Oregon27.513418
Idaho25.211457Pennsylvania23.214068
Illinois26.815201Rhode Island27.514981
Indiana20.913149South Carolina2311897
Iowa24.512422South Dakota24.610661
Kansas26.513300Tennessee20.112255
Kentucky17.711153Texas25.512904
Louisiana19.410635Utah3011029
Maine25.712957Vermont31.513527
Maryland31.717730Virginia3015713
Massachusetts34.517224Washington30.914923
Michigan24.114154West Virginia16.110520
Minnesota30.414389Wisconsin24.913276
Mississippi19.99648Wyoming25.712311
Missouri22.312989

 
Ce tableau est parfaitement complet et permet de répondre à de nombreuses questions en le regardant. Mais si je vous demande quel est l’état ayant le pourcentage de diplômés le plus élevé, il vous faudra un certain temps pour répondre. Si je vous demande alors le moins élevé, il vous faudra approximativement le même temps pour répondre. Ce temps est proportionnel au nombre d’entrées dans le tableau. Et après plusieurs questions, vous trouverez ce petit exercice lassant.

Si maintenant je vous montre la même information représentée graphiquement, alors les choses changent. La réponse aux questions précédentes saute aux yeux : les états extrêmes sont le « District of Columbia » pour le niveau d’éducation, le « Connecticut » pour le salaire moyen. Vous pouvez aussi voir instantanément les états les plus pauvres et les moins éduqués. Mais, plus intéressant encore, vous pouvez vous rendre compte que le salaire moyen est approximativement proportionnel au niveau d’éducation : plus le niveau moyen est élevé, plus le salaire moyen est élevé. Une telle information motiverait peut-être les enfants à mieux travailler...

Diagramme de points ou semis montrant le revenu moyen sur l’axe horizontal et le pourcentage d’études du supérieur sur l’axe vertical, pour chaque point représentant un état américain.

 
Une fois ce constat général effectué, on détecte aussi les exceptions : l’Utah – qui a un pourcentage de diplômés élevé et un salaire moyen moins élevé que les autres états au même niveau de diplôme – et le Nevada – qui a un salaire moyen très supérieur aux autres états ayant le même niveau de diplôme. Voici deux nouvelles questions qui viennent de la représentation graphique. Ce graphique permet de voir très rapidement des phénomènes intéressants qu’on ne connaissait pas et de répondre à des questions qu’on ne se posait pas préalablement. Ce que la représentation symbolique n'offrait pas !

Une explication cognitive

D'où vient cette efficacité de la représentation graphique ? Une explication a été trouvée par la psychologue américaine Anne Treisman en 1985 : la perception préattentive.

Un rond rouge parmi les ronds bleus
Percevoir le rond rouge parmi un grand nombre de ronds bleus est immédiat et ne requiert aucun effort cognitif, quel que soit le nombre.

Anne Treisman a étudié notre perception visuelle et a découvert que nous pouvions, en regardant un graphique pendant une fraction de seconde, répondre à des questions sur le contenu de ces graphiques de manière très fiable. Par exemple, si on regarde la figure ci-contre pendant 250 ms (1/4 de seconde), n’importe quelle personne ne souffrant pas d’un handicap visuel pourra percevoir qu’il y a bien un rond rouge parmi tous les ronds bleus. Si on avait mis un rond vert, on l’aurait trouvé aussi rapidement. Anne Treisman a montré que le système perceptif humain était capable de faire des traitements « en un clin d’œil », sans effort et cela de manière indépendante du nombre d’objets affichés. Lorsque des données sont affichées de manière adéquate, l’œil humain peut percevoir un grand nombre de propriétés sans effort, quelle que soit la quantité de ces données. Si on n’utilise pas une représentation adéquate, il faudra alors un temps proportionnel au nombre d’objets à étudier, ce qui devient vite pénible voire impossible. Nous pouvons percevoir un grand nombre de caractéristiques visuelles de manière préattentive : la couleur, l’orientation, les lignes de front et bien d’autres. Des informations très complètes au sujet de cette théorie sont disponibles sur la page Web (en anglais) de Christopher G. Healey.

Choisir les bonnes variables visuelles

Les recherches en psychologie cognitive nous guident dans les choix possibles pour représenter graphiquement une information abstraite composée d’objets ayant des caractéristiques multiples, comme les états américains et leurs caractéristiques statistiques.

D’autres travaux issus de la cartographie, puis des statistiques, et enfin propres au domaine de la visualisation d’information, nous guident dans le choix des variables visuelles à utiliser selon la nature des caractéristiques à visualiser. Jacques Bertin, cartographe français, décrit un système de variables visuelles, c'est-à-dire l’ensemble des primitives graphiques que l’on peut percevoir visuellement : la position, la longueur, l’angle, la pente, la surface, la couleur séparée en intensité, saturation et teinte, et la forme. Selon la nature des caractéristiques à représenter, il a déterminé les variables les plus efficaces.

Système de variables visuelles proposé par Jacques Bertin et raffiné par Cleveland&McGill puis par Card&Mackinlay.
 

Ainsi, pour le tableau des états américains contenant des caractéristiques quantitatives, la position est la variable visuelle la plus précise, et c’est ce que nous avons utilisé. Mais sur un écran ou sur une feuille de papier, on est limité à deux dimensions, alors qu'on pourrait vouloir visualiser des données supplémentaires, comme la durée moyenne de vie par état. Selon le système de Bertin, il est alors préférable d’utiliser des traits de longueur variable pour cette troisième dimension.

Ces préconisations sont certes très utiles, mais elles ne suffisent pas à spécifier des représentations. Nous pouvons toujours imaginer des méthodes très différentes pour représenter une information abstraite sous forme de variables visuelles. Sans connaître les études en psychologie cognitive ou celles de Bertin, de très belles visualisations ont été réalisées dans le passé.

Carte de Minard sur la campagne de Russie de Napoléon.
 

Déjà en 1869, Charles Joseph Minard a dessiné ce qu’on pourrait appeler une visualisation de la campagne de Russie de Napoléon de 1812. Cette carte améliorée permet de répondre à un grand nombre de questions d’un seul coup d’œil. Le chemin parcouru par l’armée est dessiné sur un fond de carte ; en beige lors de la marche vers Moscou, en noir lors de la retraite. L’épaisseur du trait est proportionnelle à la taille de l’armée : partant avec 400.000 hommes, ils n’étaient plus que 10.000 à l’arrivée. À l'aller, le manque de nourriture (en partie dû à une stratégie russe de terre brûlée) et les épidémies sont responsables de la mort de 300.000 soldats. La température basse pendant la retraite est représentée en bas du graphique. On comprend immédiatement la corrélation entre le froid et les pertes humaines. Enfin, le passage de la rivière Bérézina (en bas à gauche de la carte) a causé la perte de 15.000 hommes, passant d’un effectif de 40.000 à 25.000 soldats. Ce graphique raconte une histoire de manière globale ainsi que dans ses détails numériques.

Page 1 / 3 suivant   
 
 
 
 
  • fr Français
  •  
eNrNV21v2jAQ/r5fEeV7XqCltFNotXXthtSqjIK2b8gkFzAzdmo7FPbrdwm0CyhRS8BSPxFyzr35nrvngqvlnFkLkIoK3rEbrm9bwEMRUT7p2MPBrXNuX11an4IZWZDiuZbrj5pN2woZUapjZ2J3DIQr9/f93TdADSBt/NAKxHgGod46mGrK3B9ETe9Jkh+ygoWgkTUHPRVRx05SvX5tBUpLdOWSqh6RBOUg8ZueFAsaQRR4G/HW2ZgwBVuiwMvUv9PQteAalrpH9NSgnVAvr4mGiZAUVLn++iF0+a3EKB7imIZQrlzLtLbvqQJ5J0LCKnTHsq7mMVEwlKxc7VTr5LPnUbweqTRGplzKY+EdFAbhk2MHgfm/MVAxZEaWfXjqVlTjFxRf66V2fKdxctI+O2k1281G86KuOQlPjyAXDHIklNv0IqoSRlbuTCX1s9VLx4yGRGNnMQi4jaubmI4PijCVErjegHpVbmBGGBVq1PJ9v36+fgn5RyUkBIPZSoTUpAKH83h0etZu144gKXTyHQvvmhXVFgpZ2kkKSoiUZLWlmiH43cf8lG0x4BM9xdH2qmtjhvIIlh3b///+1QoftRrnfnvXVDEZ+b/c9IvvBVngrQPevwawSRq8/XTfFjwL58rbZMNjxFlQlWKpqxzUDuGErTR9SsFJRCqdUMwTxEokwYlAOZHgHPA3e81guTMO92sledm+YNBghuLnCHtxCkoP+92K5vgxkoKeFhjNsZnG1/XANkmUTDkvQWHesYtWav4oVd0veGow0zjx36zpIwz8v4JX8MY1Eaifp+GG0Bmfi8aH/PPLiK+wMDo9YL8pbh5mN6ltSmS2Hb9NVjM41773dFyutYwC7Ie5nynI1ZqFlJugUedAK8gZkcWIZ2Wma2Q5H0jc/RnedMX1eixbGEdTMYciffDWYPH6Dw+Dj0MgjKJi+Lo9m+3lxqb+WlKu8/vN4AAMZ752kU9WlJDp+ijQ8cDLNgR8+AfZ/C4U