Grimage : une plate-forme d’interactions 3D sans marqueurs
La plate-forme immersive Grimage associe la modélisation 3D multi-caméra, la simulation physique et le parallélisme pour proposer une nouvelle expérience d’immersion virtuelle.
Placez vos mains dans l’espace d’interaction, elles seront instantanément modélisées en 3D et transposées dans un monde virtuel peuplé d’objets solides ou souples. Vous pouvez immédiatement pousser ces objets ou les attraper. De même, vous pouvez placer n’importe quel objet réel dans cet espace, et il entrera en interaction avec les objets virtuels.
Si ce n’est déjà fait, regardez la vidéo associée à ce document. La lecture du texte vous en sera grandement facilitée. La plate-forme présentée dans cette vidéo est la version portable de Grimage. La plate-forme fixe installée à l’INRIA Grenoble Rhône-Alpes permet de modéliser en 3D plusieurs personnes complètes.
Développée à l’INRIA Grenoble Rhône-Alpes conjointement par les équipes MOAIS, PERCEPTION et EVASION, Grimage explore de nouvelles formes d’interactions entre le réel et le virtuel.
Très classiquement, nous utilisons tous le clavier et la souris pour interagir avec les programmes exécutés par les ordinateurs. Ces périphériques sont suffisants pour la plupart des applications, mais ne sont pas parfaitement adaptés lorsqu’elles nécessitent des informations 3D. Par exemple, pour un traitement de texte, il y a une correspondance immédiate entre le mouvement de la souris sur le bureau et le déplacement du curseur sur l’écran d’une part, la frappe d’une touche sur le clavier et l’insertion d’un caractère à la position du curseur d’autre part. Par contre, pour un jeu basé sur un mouvement dans l’espace tridimensionnel, comme un simulateur de vol, il est nécessaire de combiner clavier et souris ou alors d’utiliser un périphérique spécialisé comme un joystick.
Il existe un grand nombre de méthodes d’interaction encore plus sophistiquées, comme par exemple la capacité à utiliser des mouvements du corps humain pour interagir avec l’application. La plupart du temps, il est nécessaire de munir l’utilisateur de capteurs dont le suivi permet de reconstituer son mouvement. Grimage est basé sur une telle interaction gestuelle, mais sans utiliser de système de marquage. L’utilisateur peut interagir naturellement avec les objets virtuels sans devoir manipuler de périphérique complexe : il interagit directement avec les objets du monde virtuel par le biais de son modèle 3D, c’est-à-dire de son double numérique. Ce double numérique peut être utilisé pour interagir avec des programmes simulant des situations variées, allant du jeu à l’apprentissage d’assemblage de pièces par exemple. Il peut aussi être transporté sur le réseau, offrant ainsi à l’utilisateur la possibilité d’être représenté et d’interagir à distance.
Comment cela fonctionne-t-il ?
Un ensemble de caméras vidéos calibrées filment en permanence l’espace d’interaction. Pour chaque jeu d’images acquises, le système utilise les informations 2D issues de chaque caméra pour calculer un modèle 3D des objets réels de la scène. Le document d’Interstices De la deuxième à la troisième dimension présente ce principe de reconstruction 3D à partir d’images 2D. Le modèle 3D ainsi obtenu est un maillage. Ce processus se répète environ 30 fois par seconde, produisant des clones 3D virtuels et animés des objets réels. Le résultat obtenu est en fait une vidéo 3D de la scène filmée. Elle pourrait être enregistrée, mais, dans le cas de Grimage, elle est envoyée au fur et à mesure qu’elle est produite à la simulation et l’affichage. C’est ainsi que l’utilisateur peut interagir avec des objets virtuels.
Le calcul des modèles 3D s’effectue sans recourir à des marqueurs intrusifs. L’utilisateur n’a pas besoin de s’équiper de capteurs passifs ou actifs. Le système ne nécessite pas non plus de phase d’apprentissage ou de reconnaissance des objets présents dans l’espace d’interaction. Il n’est ainsi pas limité par les objets ou personnes qu’il peut reconstruire en 3D. C’est une différence importante de Grimage par rapport à des systèmes de capture de mouvement qui permettent de suivre les marqueurs dont est équipé l’utilisateur, mais ne fournissent pas de modèle 3D global de cet utilisateur.
Les modèles 3D des objets réels sont calculés par l’algorithme EPVH — Exact Polyhedral Visual Hull — développé par Edmond Boyer et Jean-Sébastien Franco de l’équipe PERCEPTION. Cet algorithme calcule l’enveloppe visuelle des objets à partir des silhouettes issues des flux vidéos. Une enveloppe visuelle est le résultat de l’intersection des cônes issus de la projection dans l’espace 3D des silhouettes 2D vues par les caméras. L’algorithme EPVH est exact : la projection du modèle 3D calculé sur les images provenant des caméras produit des silhouettes qui correspondent exactement à celles des objets réels vues par les caméras. Ces modèles 3D sont ensuite envoyés vers la simulation pour le calcul des interactions avec les objets virtuels. Pour l’affichage à l’écran, les silhouettes sont aussi texturées par plaquage des informations photométriques issues des caméras.
Cette étape de reconstruction du modèle 3D par EPHV nécessite de nombreux calculs qui doivent être réactualisés pour chaque nouveau jeu d’images produit par les caméras, c’est-à-dire environ 30 fois par seconde. Pour atteindre de telles performances, les équipes PERCEPTION et MOAIS ont développé une version parallèle de l’algorithme EPHV qui s’exécute sur une grappe de PC (un ensemble de PC reliés en réseau).
Le logiciel d’animation du monde virtuel calcule les trajectoires et les déformations des objets virtuels en accord avec les lois physiques simulées telles que la gravité. Les clones 3D des objets réels sont eux aussi représentés dans cet espace virtuel et constituent des obstacles pour les objets virtuels. Le simulateur les intègre comme des objets qu’il ne peut déplacer ou déformer. Pour permettre la simulation à grande échelle d’une variété d’objets complexes, rigides ou souples, l’animation des objets utilise la librairie de simulation SOFA, développée par plusieurs équipes de recherche dont EVASION. Avec SOFA, les composants d’une simulation peuvent avoir plusieurs représentations (modèle de déformation, modèle de collision, etc.). Cette structuration facilite entre autres l’optimisation des calculs associés à chaque représentation. Les composants SOFA sont organisés dans une structure hiérarchique similaire à celle utilisée pour les graphes de scène. Cette structure est traversée plusieurs fois par itération, par exemple pour le calcul de l’accumulation des forces ou encore l’extraction de données nécessaires au calcul des images de la scène. Pour accélérer certains de ces calculs, SOFA les envoie s’exécuter sur le processeur de la carte graphique qui, pour certains types de calculs, est plus performant qu’un processeur standard.
C’est en faisant appel au parallélisme que la plate-forme Grimage parvient à mettre en œuvre en temps réel une telle application interactive nécessitant des calculs informatiques lourds. L’intergiciel FlowVR, développé par l’équipe MOAIS, couple les différents composants logiciels de l’application, les répartit et assure leur exécution sur une grappe de PC. FlowVR est un intergiciel à composants hiérarchisés favorisant le développement d’applications modulaires. Cette modularité permet de maîtriser le développement et la maintenance d’applications complexes tout en permettant d’extraire du parallélisme pour des exécutions performantes.
Vers de multiples applications
La plate-forme Grimage ouvre la voie vers des applications dans de nombreux domaines. La vidéo 3D est un premier domaine d’application. Le point de vue sur la scène n’est pas fixé par le cameraman, mais par le spectateur qui peut le choisir librement. Le téléspectateur d’un match de foot pourrait ainsi décider d’observer le match selon le point de vue qui l’intéresse et non pas celui imposé par le diffuseur. De nombreuses difficultés restent à surmonter pour que cela devienne opérationnel. Mais déjà lors du Super Bowl 2001, l’équipe de Takeo Kanade de l’université Carnegie Mellon avait placé plus de 30 caméras autour d’un terrain de football américain pour produire en direct des effets de caméras proches de ce qui peut être fait avec de la reconstruction 3D (lire à ce sujet, en anglais, Carnegie Mellon goes to the Super Bowl).
La modélisation produit du contenu 3D qui peut être utilisé pour des effets spéciaux pour le cinéma ou les jeux vidéos. La capture de mouvement utilisée habituellement consiste à suivre en 3D le déplacement d’une série de marqueurs placés sur l’acteur. Connaissant le mouvement de ces marqueurs dans l’espace 3D, on anime un personnage virtuel en lui faisant suivre les mouvements des marqueurs. La reconstruction 3D utilisée avec Grimage permet non pas de suivre le déplacement dans le temps et l’espace de points de repère particuliers, mais de capturer l’apparence de l’acteur, son enveloppe visuelle texturée. Les effets spéciaux réalisables sont ainsi différents. On peut par exemple enregistrer un acteur en costume pour ensuite l’intégrer dans une scène virtuelle. Disposer de contenu 3D et non plus 2D facilite le mixage entre réel et virtuel et permet de choisir le point de vue sans être limité aux seules positions des caméras réelles.
Pour les applications de réalité virtuelle, la reconstruction 3D temps-réel peut être vue comme un périphérique d’entrée non intrusif. Grimage donne un aperçu du potentiel offert pour l’interaction. Les points forts sont l’absence de marqueurs qui pourraient entraver les mouvements de l’utilisateur ou simplement lui demander un temps de préparation important, et le fait que l’information extraite sur la position de l’utilisateur soit globale. Ainsi, on peut imaginer cette approche pour former des équipes de secours en simulant des situations dangereuses.
Le dernier domaine d’application prometteur est la télé-présence. Deux personnes distantes, chacune disposant d’un environnement similaire à Grimage, pourraient envoyer par le réseau leurs clones pour se retrouver dans un espace virtuel commun. Par rapport à la visio-conférence classique, disposer de clones 3D renforcerait la sensation de présence de l’autre. Il serait simple d’ajouter dans cet espace des objets virtuels que pourraient partager les interlocuteurs.
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !