Interstices


  De la recherche

Simulation de scènes sonores spatialisées complexes

Simuler des milliers de sources sonores virtuelles spatialisées tout en exploitant les limites de la perception auditive, tel est le but de la technologie Audile. Cette vidéo en offre une démonstration.

 
Visionner la vidéo - Pour un meilleur rendu de l'effet binaural, il vous est recommandé de suivre la démonstration au casque.
Durée : 4 min 47 s.
 

La spatialisation du son consiste à simuler des sources sonores virtuelles dans un environnement 3D de synthèse et de les rendre audibles pour un utilisateur. Le son « surround », fréquemment utilisé dans les jeux vidéos ou au cinéma, en est un exemple simple et bien connu.

En synthèse d'image, on s'intéresse à la simulation des ombres, ou de l'éclairage dans des scènes virtuelles qu'on visualise ensuite sur un moniteur ou un dispositif plus immersif avec des lunettes 3D par exemple. De la même manière, le rendu sonore simule les effets de réverbération des sources sonores dans l'environnement synthétique puis permet leur écoute spatialisée à l'aide d'un casque stéréophonique ou de systèmes multi haut-parleurs. Les sons sont ainsi perçus en 3D autour de l'auditeur qui se trouve alors immergé dans l'environnement sonore généré. Pour cela, on enregistre individuellement des sources sonores réelles auxquelles on applique des algorithmes spécifiques en fonction de la position qu'on souhaite leur donner dans le monde virtuel. Elles peuvent être aussi atténuées en passant derrière un mur ou amplifiées par des échos dans une grande salle.

Pour un effet optimal, les sons à traiter doivent donc être enregistrés en isolation et dans un environnement avec le moins d'écho possible. Pour bien faire, il est préférable de se placer à courte distance des sources voulues et d'utiliser des microphones directionnels. Si possible, on réalisera également les enregistrements en « chambre anéchoïque », une pièce traitée acoustiquement de manière à supprimer les réflexions du son sur les parois. Dans le cas de véhicules en mouvement rapide, il est préférable d'utiliser des dispositifs spécifiques permettant de le faire rouler sur place, ou bien d'y fixer directement les microphones en prévoyant des bonnettes anti-vent très efficaces ! Cela permettra de reproduire correctement l'effet Doppler durant la simulation, sans qu'il soit présent à l'origine dans les enregistrements. Réaliser des prises de son pour des applications de simulation interactive ou de réalité virtuelle n'est donc pas toujours simple. On peut donc utiliser alternativement des sons entièrement synthétisés par ordinateur, à l'aide de modèles physiques par exemple, ce qui permettra d'éviter ces problèmes.

Un environnement sonore naturel est composé de nombreuses sources sonores qu'il faut pouvoir traiter. Historiquement, il n'était possible de simuler qu'une petite quantité de sources sonores. L'habillage audio des jeux vidéos par exemple se restreint souvent à une musique ou ambiance, à quelques sons et bruits de premier plan qui seront spatialisés. Mais des bruits comme ceux d'un train, d'une rivière, des flammes, d'une foule ou d'un trafic routier peuvent nécessiter des centaines de sources sonores pour être simulés de manière convaincante, comme l’illustre la vidéo associée à ce document. Les attentes des utilisateurs poussent également les chercheurs à développer des environnements de plus en plus complexes et immersifs. Les nouveaux jeux vidéos utilisent des simulateurs physiques pour gérer les très nombreuses collisions entre objets suivant les actions du joueur. Ces évènements sont également la source de très nombreux sons dont la gestion est délicate. Tout comme les aspects visuels dont la qualité a été décuplée ces dernières années, il est nécessaire de développer des algorithmes efficaces pour améliorer la spatialisation du son.

L’équipe REVES, à Sophia Antipolis, développe des techniques efficaces en exploitant des connaissances sur les limitations de la perception sonore humaine.

Pipeline de traitement sonore avec les optimisations perceptives de la technologie Audile.
Audile utilise des descripteurs sonores pour déterminer interactivement quelles sont les sources sonores inaudibles qui peuvent être éliminées. Les sources audibles sont ensuite dynamiquement regroupées et leurs signaux ajoutés. C’est l’étape de pré-mixage. Enfin, chaque groupe est spatialisé à une position représentative avant restitution.

 

En particulier, comme cela est déjà utilisé dans des techniques de compression telles que le MP3, ces techniques exploitent les masquages sonores entre des sources fortes et des sources plus faibles pour éviter de traiter inutilement les sources sonores inaudibles. Cela impose de savoir très rapidement déterminer quelles sources vont être audibles à chaque instant de la simulation. Pour cela, la technologie Audile exploite les connaissances sur les seuils de masquages perceptifs et utilise des descripteurs sonores complémentaires aux données audio qui sont pré-calculés pour chaque son. Ces descripteurs sonores peuvent être vus comme un « aperçu » des données perceptives importantes du signal sonore au cours du temps. Ils permettent aux algorithmes implémentés par Audile de s’adapter efficacement au contenu sonore des sources présentes dans l’environnement virtuel tout en n’utilisant que très peu de mémoire supplémentaire par rapport aux sons d’origine.

On peut également regrouper les sources sonores proches spatialement de manière à pouvoir traiter un groupe entier de sources comme une source unique plutôt que chaque source individuellement, ce qui permet un gain en temps de calcul. Pour chaque groupe, les signaux de toutes les sources sont tout d’abord sommés avant le traitement de spatialisation final. Ce « prémixage » des sources dans chaque groupe peut être réalisé de manière très efficace. L’approche développée dans l'équipe-projet REVES permet cette simplification spatiale de la scène sonore de manière imperceptible pour l'auditeur. Lorsque l’on se déplace dans la scène, le regroupement des sources est continuellement ré-adapté à l'importance relative de chaque source sonore.

Le regroupement des source sonores s’adapte dynamiquement à la position de l’auditeur (en rouge) et à l’importance perceptive des signaux sonores.
Dans cet exemple, 4 groupes sont utilisés pour rendre les nombreuses sources sonores utilisées pour le camion, le feu, l’hélicoptère et le train. Dans la configuration à gauche, chaque objet correspond à un groupe de sources. Lorsque l’utilisateur s’approche du train (image de droite), celui-ci devient prépondérant et 3 groupes lui sont dédiés, contre 1 seul pour l’ensemble des autres sources. Les sphères violettes indiquent les positions représentatives depuis lesquelles chaque groupe est spatialisé.

 

La combinaison de ces techniques permet de simuler des centaines voire des milliers de sources sonores simultanées en s'adaptant aux capacités de calcul disponibles sur nos ordinateurs et suscitent l'intérêt de nombreux secteurs industriels.

Simulation, voix sur IP et jeux vidéos : de multiples applications

Ces techniques de spatialisation sonore efficace trouvent de nombreuses applications dans le domaine de la simulation interactive et du jeu video. Ainsi ont-elles déjà été mises en œuvre dans « Test Drive Unlimited » et « Alone in the Dark : Near Death Investigation », deux jeux vidéos du studio Eden Games / ATARI.

Le nouveau jeu Alone in the Dark utilise la technologie Audile.
© Eden Games / ATARI

 

Elle ont aussi été utilisées pour des simulations de design urbain, par exemple avec les architectes du projet Tramway de Nice en collaboration avec la « Mission Tramway » qui était responsable de l'ensemble des travaux. Le Centre Scientifique et Technique du Bâtiment (CSTB) est également utilisateur de ces algorithmes. Enfin, un prototype d’application à du « chat » 3D spatialisé pour des jeux multi-joueurs distribués a également été réalisé dans le cadre du projet RNTL OPERA en collaboration avec Orange Labs et Virtools.