Interstices


  De la recherche

Réalité augmentée : entre mythes et réalités

Intégrer des éléments virtuels dans des images réelles, en temps réel et en trois dimensions : comment fait-on ? À quoi cela sert-il ?

Au musée d'Orsay, les dispositifs de réalité augmentée au service de l'art ont rapidement séduit le public !
Photo by Jean-Pierre Dalbéra, sur Flickr.

La réalité augmentée vise à accroître notre perception de l'environnement par ajout d'informations de différentes natures. Bien qu'elle puisse concerner les cinq sens, les informations ajoutées sont le plus souvent visuelles (textes, symboles ou images 3D). L'expression est apparue au début des années 1990, mais n'a connu de réel succès qu'après l'arrivée sur le marché de téléphones portables et de tablettes compatibles avec cette technologie. Passée une certaine période d'engouement, la réalité augmentée est aujourd'hui perçue de diverses manières par le grand public. Certains doutent de son utilité et de son avenir, d'autres la considèrent comme une menace pour le respect de la vie privée et des libertés individuelles. Des technophiles convaincus y voient à l'inverse un potentiel immense, sans être parfaitement conscients de ses limites intrinsèques. Ces différentes réactions, bien que légitimes, sont selon nous essentiellement dues à une méconnaissance de ce qu'est exactement la réalité augmentée, de ce qu'elle permet ou ne permet pas de faire, des applications utiles qu'elle a déjà rendu possibles, et de celles auxquelles on peut raisonnablement s'attendre dans les années à venir.

L'expression « réalité augmentée » est définie de manière relativement précise : il s'agit d'incruster des éléments virtuels dans des images réelles (et non l'inverse), en temps réel et en trois dimensions. Selon cette définition stricte, afficher des informations confidentielles sur la personne assise en face de soi à travers des lunettes connectées comme les Google Glass ne relève pas à proprement parler de la réalité augmentée, au sens où cela ne requiert pas d'aligner spatialement les parties réelle et virtuelle de l'image. Les Google Glass n'exploitent pas encore à pleine puissance le principe de la réalité augmentée, des informations contextualisées y sont simplement affichées en surimpression de notre vision.

L'intégration d'un élément virtuel doit être géométriquement correcte, ce qui signifie que l'élément ajouté doit être projeté dans l'image avec le point de vue adopté par la caméra réelle. Pouvoir inférer le point de vue de la caméra à partir de l'image est ainsi le premier besoin fondamental d'un système de réalité augmentée. Ceci ne suffit cependant pas à assurer le réalisme géométrique, car il faut gérer les éventuelles occultations entre l'objet ajouté et la scène.

figure1

Comment intégrer de manière cohérente un objet virtuel 3D dans une image réelle. (a) Image réelle représentant une carte mère sur
laquelle on souhaite ajouter une barette mémoire virtuelle. (b) La barette virtuelle est positionnée par rapport à un modèle 3D, clone virtuel de l'objet à augmenter. Entre l'image (a) et l'image (b), le point de vue est différent. (c) Le modèle 3D est projeté dans l'image (a), de manière à être parfaitement aligné avec l'objet réel : c'est l'étape cruciale du calcul du point de vue. (d) La barette mémoire est finalement affichée par-dessus l'image réelle, en respectant la perspective de l'image.

figure2

Le problème des occultations du virtuel par le réel. (a) Une partie de la barette (virtuelle) semble dépasser du slot mémoire (réel) : il s'agit
d'une incohérence visuelle liée au fait que le dessin de l'objet virtuel se fait entièrement par-dessus l'image réelle. (b) C'est encore une fois la connaissance du modèle 3D qui va nous permettre de résoudre ce problème : comme le modèle est correctement projeté dans l'image, on sait quelle partie de l'objet virtuel est censée être occultée par l'objet réel. (c) Nouvelle représentation de l'objet virtuel, tenant compte de cette connaissance.

Le rôle du modèle dans un système de réalité augmentée

Par ailleurs, la perception réaliste de la scène augmentée dépend fortement de la prise en compte des interactions lumineuses, donc des ombrages, entre réel et virtuel. À titre d'exemple, un objet correctement positionné sur un plan sans prise en compte des effets d'ombrage semblera flotter, alors que l'ajout d'une ombre portée permettra d'avoir la sensation que l'objet est bien ancré sur le sol.

Toutes ces tâches nécessitent de posséder un modèle 3D de la scène, mais la nature de ce modèle n'est pas identique selon le problème considéré. Pour le calcul du point de vue, la formation d'une image étant modélisée par une projection perspective, il suffit d'identifier dans l'image un ensemble de points 2D qui correspondent à des points 3D du modèle. Ainsi, un modèle de type « nuage de points » suffit à se positionner par rapport à l'environnement. Dans le cas des occultations ou des inter-réflexions lumineuses, un modèle structuré est nécessaire. En effet, pour vérifier qu'un pixel de l'objet ajouté est ou n'est pas occulté par un élément de la scène réelle, il faut comparer les profondeurs respectives de la scène et de l'objet ajouté. Une connaissance surfacique de la scène est donc nécessaire. Il en est de même pour la gestion des inter-réflexions lumineuses, puisque l'ombrage est calculé à partir d'un modèle global de la scène, ou lors de la gestion de l'interaction entre l'utilisateur et les objets de la scène. La précision requise sur le modèle n'est pas identique selon la tâche considérée. Si un modèle précis est nécessaire pour la gestion des occultations, un modèle grossier suffit pour les ombrages car, s'il est important qu'on perçoive l'ombrage pour comprendre la scène, sa précision n'a que peu d'impact sur cette compréhension.

L'acquisition d'un modèle structuré est donc fondamentale pour la prise en compte de l'interactivité dans un système de réalité augmentée. Il existe aujourd'hui des méthodes automatiques de construction de nuages de points 3D à partir d'images. L'arrivée de la Kinect a également permis d'acquérir des modèles relativement denses pour des scènes peu profondes. Cependant, la construction de modèles structurés et précis nécessaires à l'interactivité est plus délicate et est souvent réalisée hors ligne.

Des exemples de systèmes effectifs

Pour réaliser un système qui fonctionne, il n'est pas toujours indispensable de résoudre l'ensemble des problèmes évoqués ci-dessus. Les musées et sites historiques sont des exemples d'espaces clos et balisés dans lesquels il est relativement aisé d'introduire de la réalité augmentée. Des « tags » ou marqueurs visuels, utiles au positionnement, peuvent être placés à différents endroits de la visite et visés à travers l'écran d'une tablette numérique pour voir la scène augmentée.

La réalité augmentée est ainsi expérimentée au quotidien par des centaines de visiteurs dans des musées et lieux historiques tels que le château de Chambord, le château de Selles-sur-Cher ou le musée de Bibracte... pour ne citer que quelques exemples en France. Dans l'industrie, il est également envisageable de mesurer et de préparer l'environnement dans lequel un système de réalité augmentée sera utilisé. Des répliques virtuelles des lignes de productions, incluant les objets fabriqués ou les pièces assemblées (sous forme de modèles de conception assistée par ordinateur par exemple), mais aussi les automates programmables et les machines-outils, sont de plus en plus fréquemment exploités dans l'industrie à des fins de simulation, d'estimation des coûts, de formation et de diagnostic. Dans ce contexte de digitalisation croissante de l'usine, la réalité augmentée semble toute indiquée pour « aligner » au plus près l'usine numérique et l'usine réelle, offrant à l'opérateur humain des informations visuelles et contextuelles de nature à lui faciliter la tâche, notamment dans les domaines de la conception, de l'assemblage, de la maintenance et du contrôle qualité. Récemment, Airbus a ainsi décidé d'implanter la réalité augmentée de façon industrielle pour le marquage au sol des emplacements de fixation les sièges des cabines de l'A330. Une expérience réalisée sur cinq appareils en cours d'assemblage a permis de réduire par cinq le temps de travail tout en conservant un taux d'erreur nul y compris chez les techniciens les moins expérimentés. Un autre exemple, toujours chez Airbus, est la vérification de l'emplacement des « brackets » de l'A380. Ces pièces, qui fixent dans chaque appareil les parois intérieures au fuselage, sont très nombreuses (plus de 60 000 dans un A380). Grâce à la réalité augmentée, les opérateurs munis de tablettes numériques procèdent à leur vérification en deux jours au lieu de plusieurs semaines auparavant.

Le problème fondamental du calcul du point de vue

Dans ces applications, des « tags » ou « marqueurs » facilement détectables dans l’environnement sont souvent utilisés pour faciliter la détection de correspondances 2D/3D et assurer la fiabilité de l’incrustation. Néanmoins, une telle instrumentation de l’environnement s’avère impossible dans de nombreuses applications, notamment celles se tenant en extérieur, soit parce que la scène est protégée, s'il s'agit d'un lieu historique, soit parce qu’elle est vaste et qu’on ne sait pas où va se concentrer l’action de l’utilisateur. On ne peut évidemment pas truffer la scène de milliers de « tags » ! Des méthodes de calcul de point de vue dites « sans marqueur » ont donc fait l’objet de nombreux travaux depuis une quinzaine d’années. Elles visent à établir directement des correspondances entre le modèle et l'image sans l’aide d’indices facilement détectables. La difficulté majeure vient du fait qu’il existe beaucoup d’hypothèses erronées de mise en correspondance, dues en particulier à la présence de motifs répétés dans les environnements urbains et industriels.

Des solutions existent désormais via, d'une part, le développement de méthodes statistiques robustes permettant de ne pas prendre en compte les mises en correspondance erronées, et d'autre part, grâce à une évolution dans l'idée de ce que doit contenir un modèle 3D. Les modèles initiaux étaient de type CAO, et décrivaient seulement des transitions géométriques, qui n'étaient souvent que peu détectables sur l'image. Aujourd'hui, la tendance est à la conception de modèles intégrant la géométrie du modèle et sa photométrie, facilitant ainsi grandement la mise en relation entre le modèle et l'image. Le problème de la mise en correspondance est ainsi converti en un problème de classification, chaque classe étant représentée par les différents aspects que peut prendre ce point dans une séquence d'apprentissage. Cependant, un certain nombre de difficultés subsistent, en particulier pour établir des similarités géométriques ou photométriques entre modèles et images. Ces difficultés surviennent en particulier lorsque les images acquises pour construire le modèle et l’image courante sont prises sous des points de vue très différents. En ce qui concerne la photométrie, de nombreux facteurs dont l’ensoleillement et les conditions climatiques, comme la saison ou le temps pluvieux, contribuent à rendre les images prises lors de l’application très différentes de celles utilisées pour construire le modèle. Par ailleurs, les scènes « bougent » fréquemment entre l’acquisition et l’application, en raison de la présence de voitures, de modifications du mobilier urbain ou de déplacements d’objets. Les recherches dans le domaine du calcul du point de vue sont toujours très actives, afin de rendre les algorithmes robustes à de forts changements de points de vue, de conditions climatiques et de modifications partielles du modèle. De plus, n’oublions pas que la réalité augmentée est par nature interactive et qu’une difficulté supplémentaire est de développer des algorithmes temps réel et si possible portables sur architecture mobile.

figure3

Prise en compte de la photométrie dans la description des modèles 3D. Ici, un descripteur de points invariant aux rotations et changements
d'échelle (SIFT) permet de mettre en correspondance des points extraits de la texture du modèle avec les mêmes points détectés dans une
image vidéo où la déformation perspective de la façade est importante. Une méthode statistique robuste est utilisée pour distinguer les
correspondances correctes (en vert) des correspondances erronées (en rouge).

La réalité augmentée pour le médical : une application prometteuse

Un champ d'applications dans lequel la réalité augmentée semble extrêmement prometteuse est le domaine médical, en particulier en chirurgie. Pouvoir visualiser une tumeur extraite dans des données pré-opératoires sur des images per-opératoires acquises au bloc n'est plus de la science-fiction. Dans le cas d'organes non déformables, des prototypes existent depuis longtemps. Cependant, le véritable défi est d'étendre la capacité d'augmentation à des organes déformables (foie, rein) et d'ajuster le positionnement de la tumeur pendant le geste chirurgical qui peut soumettre l'organe à de fortes déformations. Ce domaine de recherche est actuellement en plein essor, mais le problème est rendu difficile par le faible champ de vue disponible en chirurgie mini-invasive et la difficulté de construire des modèles d'organes déformables réalistes. L'utilisation de modèles bio-mécaniques est de ce point de vue une voie prometteuse.

figure4

Superposition du réseau vasculaire du foie sur des images endoscopiques pendant
la déformation de l'organe. Coopération entre les équipes de recherche Magrit et Shacra
[Haouchine 2013, Int. Symp. on Mixed and Augmented Reality].

Pour conclure, soulignons qu'un objet recalé correctement sur le visuel est nécessaire mais pas suffisant pour qu'un système de réalité augmentée soit accepté par l'utilisateur. Pour cela, il faut que le rendu de l'image augmentée lui permette facilement d'interpréter la scène augmentée pour pouvoir ensuite faire un geste clinique. Concevoir des moyens de rendu permettant une meilleure perception, notamment de la profondeur, est aujourd'hui la préoccupation d'un nombre croissant de chercheurs, de manière à ce que les systèmes de réalité augmentée puissent réellement entrer dans le quotidien du clinicien.

Plus généralement, dans les divers secteurs d'activités concernés, des améliorations sont encore attendues avant que la réalité augmentée puisse être d'abord introduite puis acceptée. Ces améliorations portent sur l'utilisabilité, c'est-à-dire la facilité de mise en œuvre des systèmes de réalité augmentée et l'acquisition des modèles, sur la fiabilité du tracking en environnements non contrôlés et sur l'ergonomie, en particulier le confort visuel et la liberté de déplacements.