Robot, as-tu du cœur ?

Calcul Jeu

Avant de côtoyer des robots au quotidien, il va nous falloir leur apprendre à comprendre les émotions humaines... Ou, du moins, à les imiter.

Une première version de cet article est parue dans la rubrique « Technologie » de la revue Pour la Science, n°461, en mars 2016.

L'essentiel

Les gens interagissent de plus en plus souvent avec des machines commandées par la voix.

Ils attendent d'elles spontanément qu'elles saisissent leurs émotions, y compris les plus complexes, tels l'humour ou la moquerie.

C'est pourquoi des chercheurs travaillent à doter les intelligences artificielles de logiciels capables d'extraire des émotions de la voix et des mots.

Même si ces recherches débutent, de premiers robots empathiques existent et s'améliorent de jour en jour.

Les robots intelligents sont aujourd’hui répandus et ils sont parfois étranges. Demandez à votre téléphone : « Siri, est-ce que tu m’aimes ? ». Il vous répond : « Disons que vous avez toute mon estime… ». Siri est l’agent conversationnel développé par la société Apple pour aider nos iPhones à nous trouver un restaurant, une information ou encore à appeler un ami lorsque nous avons les mains prises. Tous les téléphones de dernière génération intègrent désormais de tels agents, mais la présence de ces derniers dans nos vies n’est pas nouvelle. Depuis longtemps, que vous appeliez la Fnac ou la SNCF, vous avez d’abord affaire à une machine parlante.

Pour autant, ces intelligences artificielles ne répondent pas toujours de façon… intelligente, notamment parce que les logiciels de reconnaissance de la parole ne sont pas encore assez performants ; et elles ne saisissent pas non plus les émotions, l’humour, les sarcasmes ou encore l’ironie. Or nous allons avoir de plus en plus souvent affaire à de telles machines ; et bientôt, certaines auront des corps ! Nous connaissons déjà les aspirateurs robots, nous aurons probablement bientôt des robots infirmiers… C’est pourquoi il est important que ces intelligences artificielles progressent dans leur compréhension de nos mots et qu’elles nous « comprennent ». Il faut donc parvenir à les doter de moyens efficaces d’appréhender, de partager et de traiter les émotions humaines : en deux mots, nous avons besoin de robots empathiques.

Quelques robots imitant l’émotion humaine sont déjà sur le marché : Pepper, par exemple, est un petit compagnon humanoïde fabriqué par la société française Aldebaran Robotics afin d’accueillir les visiteurs dans les points de vente de l’opérateur téléphonique japonais Softbank Mobile. Autre cas, Jibo est un assistant personnel domestique de 2,7 kilogrammes. La « robotique empathique » n’en est encore qu’à son avènement, mais les outils et les algorithmes qui amélioreront spectaculairement les machines en les dotant d’une « empathie artificielle » de qualité sont en cours de développement.

C’est ce sur quoi travaillent les équipes du laboratoire que je dirige à l’université des sciences et technologies de Hong Kong. Mon intérêt pour les robots empathiques est né il y a six ans, lorsque j’ai lancé mon équipe dans la mise au point de l’équivalent chinois de Siri. D’emblée, la façon dont les utilisateurs développent naturellement des réactions émotionnelles vis-à-vis des assistants personnels et leur frustration lorsque ces machines n’arrivent pas à les comprendre m’a fascinée. J’ai vite pris conscience que la clé de la conception de machines empathiques était la mise au point d’algorithmes efficaces de reconnaissance de la parole. Or je venais justement de passer vingt-cinq ans de ma carrière à en développer…

Le module d’empathie

Toute machine intelligente est, par essence, un ensemble de composants logiciels, tels des bases de données, des fichiers de configuration, des programmes… Chacune des composantes d’un tel « système logiciel » remplit une fonction unique. Ainsi, un robot intelligent pourra être doté d’un module de traitement de la parole, d’un programme de reconnaissance des objets présents dans les vidéos qu’il a enregistrées, etc. Toutefois, le « cœur » d’un robot empathique sera le composant logiciel conçu pour analyser les signaux faciaux et acoustiques des humains, puis le contenu du discours afin d’en dégager les émotions humaines… C’est ce « module d’empathie » qui traitera les informations émises par les humains et dictera au robot ses réactions.

Ces informations sont complexes. Deux humains qui communiquent envoient et reçoivent de nombreux signaux émotionnels. Qu’ils en aient conscience ou pas, chacun les exploite pour saisir l’état émotionnel de l’autre et pour lui faire comprendre le sien. Ces signaux sont notamment les mimiques faciales, tous les éléments du langage corporel (attitude, gestes…), le ton de la voix, mais aussi, évidemment, le contenu du discours. La mise au point d’un module empathique implique donc d’identifier les traits de la communication humaine exploitables par les machines, puis d’« entraîner » des algorithmes d’apprentissage automatique.

Du moins est-ce ainsi que s’y est prise mon équipe pour développer des machines capables non seulement d’identifier les mots et leur sens, mais aussi d’extraire plusieurs caractéristiques fondamentales du signal acoustique qu’est la voix. Ainsi, même si nous la considérons peu sous cet angle, la communication entre humains est aussi une forme de traitement du signal. Le cerveau est entraîné à détecter les émotions convoyées par la voix à partir des caractéristiques des signaux acoustiques qui leur sont associés, qu’il s’agisse de stress, de joie, de peur, de colère, de dégoût… Une personne joyeuse parlera plus vite et sur un ton aigu ; stressée, elle adoptera au contraire une voix plate et sèche. Doté d’un algorithme d’apprentissage automatique convenablement entraîné, un ordinateur peut, comme un cerveau, détecter ce genre de caractéristiques, un peu comme un détecteur de mensonges mesure la tension artérielle, les pulsations cardiaques et la conductivité de la peau.

Pour obtenir une machine ayant, par exemple, la capacité de détecter le stress, nous avons supervisé l’entraînement d’un algorithme en lui faisant analyser des enregistrements de la voix de personnes stressées.

Déceler la détresse dans la voix

C’est ainsi que nous avons commencé à apprendre aux machines à déceler la détresse dans des extraits vocaux d’étudiants de notre université, lesquels s’y connaissent puisque, entre eux, ils surnomment notre établissement l’« université du stress et de la tension de Hong Kong ». Pour obtenir ces extraits, nous leur avons posé une série de douze questions de plus en plus stressantes et avons obtenu ainsi un premier corpus de signaux vocaux stressés en anglais, mandarin et cantonais. Dix heures d’enregistrement ont suffi pour que nos algorithmes reconnaissent le stress dans 70 % des cas où il est présent dans la voix. Ce niveau de performance est comparable à celui des auditeurs humains.

Pendant que nous effectuions ces travaux, une autre équipe du groupe apprenait aux machines à reconnaître l’humeur exprimée par la musique d’un morceau de musique de variété, indépendamment des paroles. Contrairement à l’émotion, l’humeur est une ambiance qui reste généralement pendant toute la durée d’un morceau. Nos chercheurs ont commencé par rassembler quelque 5 000 morceaux en tous genres dans les principales langues européennes et asiatiques. Les musicologues avaient d’ailleurs déjà classé plusieurs centaines de ces morceaux en quatorze catégories d’humeur.

À l’aide d’ordinateurs, nous avons extrait de ces chansons 1 000 caractéristiques fondamentales — par exemple l’énergie ou des propriétés acoustiques telles la fréquence fondamentale, les harmoniques… —, puis nous avons utilisé ce corpus pour entraîner quatorze programmes « classificateurs », chacun spécialisé dans une humeur particulière. L’un d’eux décèle par exemple l’humeur mélancolique d’une chanson, un autre l’humeur joyeuse, etc. Comme ces quatorze classificateurs peuvent être employés en même temps, leurs résultats peuvent être combinés, mais il arrive qu’ils se contredisent, par exemple que le détecteur d’humeur joyeuse trouve joyeuse une chanson mélancolique. Dans un tel cas, nous le réentraînons au cycle d’apprentissage suivant. D’anomalie en anomalie, nous avons ainsi fini par rendre performant le système formé des quatorze détecteurs d’humeur. Nous avons ainsi obtenu une machine capable d’extraire l’humeur de n’importe quel morceau de musique juste en « l’écoutant ».

Depuis, nous nous sommes appuyés sur ces recherches pour fonder avec d’anciens étudiants la société Ivo Technologies de développement de machines empathiques utilisables à domicile. Moodbox, son premier produit, sera un centre de contrôle d’ambiance, qui réglera la musique et la lumière de chaque pièce en fonction des émotions de ses utilisateurs.

Toutefois, pour saisir l’humour, le sarcasme, l’ironie et d’autres caractéristiques complexes de la communication verbale interhumaine, une machine aura besoin de plus que juste un logiciel de reconnaissance des émotions véhiculées dans le son. Il lui faudra aussi comprendre la signification sous-jacente d’un discours et en comparer le contenu avec l’émotion qui le baigne.

Depuis les années quatre-vingts, des chercheurs ont développé des systèmes perfectionnés de reconnaissance de la parole, de sorte que cette technologie atteint sa maturité. Pour autant, il y a loin entre transcrire un discours et le comprendre ! Songez à la complexité de la chaîne d’événements cognitifs, neurologiques et musculaires qui se combinent quand deux personnes se parlent. L’un des interlocuteurs formule ses pensées, choisit des mots puis articule, tandis que l’autre reçoit les sons et les autres signaux envoyés, avant d’y décoder le message qui y est enfoui.

La chaîne qui s’établit lors d’un dialogue entre un humain et une machine est plutôt la suivante : les ondes sonores associées à la parole sont d’abord numérisées, puis de nombreux paramètres caractérisant le discours sont extraits de la série numérique obtenue ; ensuite, un logiciel de reconnaissance de la parole convertit ces paramètres en mots et un décodeur sémantique transforme la série de mots ainsi extraite en sens.

Au début de nos recherches sur les robots empathiques, nous nous sommes aperçus que des algorithmes similaires à ceux conçus pour analyser les émotions exprimées par des utilisateurs dans leurs commentaires en ligne pourraient nous aider. Ces algorithmes d’apprentissage automatique traquent la présence, dans leur contenu, de signaux révélateurs de la présence d’émotions. Des mots-clés tels que « chagrin » et « crainte » suggèrent la solitude. L’utilisation répétée d’expressions familières (« Let’s go ! », par exemple) révèle qu’une chanson est énergique. L’information donnée par le style du discours est aussi à prendre en compte : les réponses d’une personne sont-elles assurées et claires, ou hésitantes, parsemées de silences et de formulations non compromettantes ? Élaborées et détaillées, ou brèves et sèches ?

Au cours de nos recherches sur la reconnaissance de l’humeur dans la musique, nous avons entraîné des algorithmes à repérer des signaux émotionnels dans les paroles. Au lieu d’extraire des signatures sonores de chaque morceau de musique, nous avons tiré, à partir des paroles, des séries de mots — des n-grammes — dont nous nous sommes servis pour entraîner quatorze classificateurs, chacun responsable de la détection de l’une des quatorze humeurs définies précédemment.

Nous avons aussi défini ce que nous nommons des « étiquettes de partie de discours », que nous avons prises en compte dans nos définitions des signatures de telle ou telle humeur. Sur la base d’une collection suffisante de jeux de ces paramètres extraits de discours humain, un ordinateur peut inférer des approximations statistiques des règles grammaticales de n’importe quelle langue. Ce sont ces règles élaborées au cours d’un entraînement qui permettent à des programmes tel Siri de comprendre à leur manière un discours ou encore à un programme tel Google Translate de traduire un texte.

Dès qu’une machine peut comprendre le contenu d’un discours, elle peut comparer ce contenu avec la façon dont il est émis. Un algorithme pourra détecter la contradiction entre le sens d’un discours et les signaux émotionnels qui l’accompagnent. C’est le cas, par exemple, quand la phrase « Je suis si heureux de passer le week-end à travailler » est accompagnée d’un soupir. Dans un tel cas, l’ordinateur calculera la probabilité que la déclaration humaine soit en réalité un sarcasme.

Intentions complexes

Afin de détecter les intentions plus complexes, une machine capable d’appréhender le contenu d’un discours et les émotions qui le baignent pourra aussi associer les informations recueillies à des données extérieures susceptibles d’aider à son interprétation. Si quelqu’un s’exclame « J’ai faim ! », elle tiendra compte, pour déterminer la meilleure réponse à apporter, de l’heure ou du lieu ainsi que de sa mémoire des usages et préférences de la personne. Au milieu du Sahara, elle s’abstiendra de proposer la recherche d’une « pizzeria dans le quartier » ; à la maison à l’heure du déjeuner, en revanche, elle pourrait répondre : « Souhaitez-vous que je vous prépare un en-cas ? »

Début 2015, des étudiants et des chercheurs postdoctoraux de mon laboratoire ont commencé à réunir nos différents modules de reconnaissance de la parole et de reconnaissance de l’émotion pour créer une machine empathique prototype que nous appelons Zara la Supergirl. Il a fallu des centaines d’heures de données pour entraîner Zara, mais aujourd’hui, ce programme tourne sur un ordinateur de bureau. Pour l’instant, Zara est un robot virtuel, représenté sur un écran par un personnage de dessin animé.

Au début de toute conversation, elle demande toujours : « Patientez s’il vous plaît pendant que j’analyse votre visage. » Les algorithmes de Zara exploitent en effet les images prises par une caméra afin de déterminer le sexe et l’origine ethnique de son interlocuteur. Elle tente d’en déduire sa langue (Zara comprend l’anglais et le mandarin, et apprend le français) afin de l’interroger dans celle-ci : « Quel est votre plus ancien souvenir ? Parlez-moi de votre mère. Comment se sont passées vos dernières vacances ? Racontez-moi une histoire mettant en scène une femme, un chien et un arbre. » Exploitant les expressions du visage de son interlocuteur, les caractéristiques acoustiques de sa voix et le contenu de ses réponses, Zara évolue ainsi vers une forme d’empathie artificielle à l’égard de son interlocuteur.

Après cinq minutes de conversation, elle jauge à sa manière la personnalité de son interlocuteur, qu’elle interroge ensuite sur son attitude envers les machines empathiques. Zara n’est qu’un prototype, mais comme elle est constituée d’algorithmes d’apprentissage automatique, elle ne peut que devenir plus « intelligente » et donc plus empathique à mesure que ses interactions avec de plus en plus de personnes l’entraîneront. Pour l’heure, sa « connaissance » des humains découle du seul entraînement que représentent ses interactions avec les étudiants de troisième cycle de mon laboratoire. Cette année, nous prévoyons de donner un corps à Zara en l’installant dans un robot humanoïde.

Il serait prématuré de dire que nous entrons dans l’ère des robots empathiques. Même quand les premiers descendants de Zara seront sur le marché, ils seront loin d’être parfaits. Du reste, j’en suis venue à penser que se concentrer sur la fabrication de machines parfaites nous éloignerait du but. L’important est de rendre nos robots plus humains, même s’ils sont imparfaits, ce qui, après tout, est très humain ! Si nous y parvenons, les robots empathiques ne deviendront pas les machines dominatrices que certains redoutent. Ils seront au contraire nos soignants, nos enseignants et une nouvelle sorte d’amis.

D. Su, P. Fung et N. Auguin, Multimodal music emotion classification using Adaboost with decision stumps, présentation à la conférence ICASSP 2013 (International Conference on Acoustics, Speech and Signal Processing), Vancouver, 26 au 31 mai 2013.

X. Zuo, T. Li et P. Fung, A multilingual database of natural stress emotion, présentation à LREC 2012 (8th International Conference on Language Resources and Evaluation), Istanbul, 21 au 27 mai 2012.

M. Anderson et S. Leigh Anderson, Robot be good, Scientific American, n° 303, octobre 2010.

Newsletter

Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité