Produire des données pour la recherche en jouant aux zombies

Données

Culture & Société

Utilisateur Jeu

La qualité des applications d’analyse des langues dépend très largement de la quantité et de la qualité des ressources langagières utilisées pour les entraîner. De ce fait, la production massive de données linguistiques de qualité est devenue un défi majeur de recherche.

De nombreuses applications et projets de recherche ont montré qu’il est possible de profiter des capacités cognitives innées comme la vision, et des connaissances de base de la foule pour lui faire produire des données. Avec ZombiLingo, un jeu de zombies, l’idée est de profiter des capacités d’apprentissage des participantes et participants pour leur faire réaliser une tâche réputée complexe, mais indispensable à la désambiguisation linguistique : l’annotation de relations de dépendances syntaxiques entre les mots.

La myriadisation pour la production de données

Depuis l’avènement du Web 2.0, dit « social », les internautes peuvent participer facilement à la production de données en ligne : on parle alors de myriadisation (ou crowdsourcing en anglais). Ces personnes le font bénévolement, comme sur Wikipédia, en travaillant sur des plates-formes de travail parcellisées (comme Amazon Mechanical Turk) ou en jouant, par exemple sur FoldIt , à replier des protéines, ou sur JeuxDeMots, à associer des idées.

Ces jeux « ayant un but » ont montré leur efficacité pour faire produire à leurs adeptes des données en profitant de leurs capacités physiques (par exemple, la vision en 3D pour FoldIt) ou de leur culture générale (par exemple, un chat est un animal, dans JeuxDeMots). ZombiLingo va encore plus loin dans la myriadisation : la tâche à effectuer étant complexe, il faut avoir suivi une formation afin de pouvoir y jouer. Grâce à cela, nous produisons d’importantes quantités de données langagières de qualité.

Des textes annotés pour nourrir l’apprentissage

Les méthodes par apprentissage (machine learning) sont efficaces mais gourmandes en données. Pour entraîner et évaluer les outils d’analyse de textes qui font aujourd’hui le quotidien des internautes, de grandes masses de données annotées sont nécessaires. Les traitements de haut niveau comme l’extraction d’informations s’appuient en effet sur des briques de base, comme l’étiquetage en parties du discours, c’est-à-dire NOM, VERBE, etc. Or, pour entraîner un outil réalisant cet étiquetage automatiquement, il faut environ 100 000 mots annotés par l’humain, ce qui correspond à plus d’un livre comme « Le Tour du Monde en 80 jours ».

Exemple d’annotation en parties du discours de l’alsacien (laisser tremper les lentilles pendant 12 heures)

Dans de nombreux outils de traitement automatique des langues, l’étape qui suit l’étiquetage est l’analyse syntaxique (des exemples sont donnés plus loin). Cette analyse de la syntaxe permet ensuite de construire des représentations sémantiques du contenu des phrases et des textes qui améliorent grandement les applications comme les moteurs de recherche ou les traducteurs automatiques. Par exemple, en 2008, l’Union européenne a publié un rapport dont le titre est « La lutte contre la discrimination et la promotion de l’égalité ». Parle-t-on de lutte pour ou contre la promotion de l’égalité ? Pour le savoir, il faut pouvoir disposer des relations syntaxiques constituant la phrase. C’est pourquoi de nombreuses équipes dans le monde travaillent actuellement au développement de ressources annotées en syntaxe : le projet Universal Dependencies propose par exemple plus d’une centaine de corpus annotés dans plus de soixante langues différentes.

Or, non seulement ces données coûtent très cher à faire construire par des humains (le corpus de Prague, annoté en syntaxe, de 1,5 million de mots, a ainsi coûté 600 000 dollars), mais les spécialistes qui pourraient apporter leur expertise pour produire la masse d’annotations nécessaire aux outils ne sont pas en nombre suffisant. Ces données sont encore plus difficiles à obtenir pour certaines langues, dites « peu dotées », du fait qu’elles sont relativement peu pratiquées, c’est le cas par exemple de l’alsacien parlé par environ 500 000 personnes seulement.

Citoyennes et citoyens à la rescousse !

Sur ZombiLingo, jouer revient à participer à l’analyse syntaxique de phrases. A priori, tout le monde a déjà réalisé durant sa scolarité des analyses de phrases en cours de grammaire, mais il ne s’agit souvent que d’un lointain souvenir. De plus, les analyses qui nous intéressent dans ZombiLingo sont des analyses en syntaxe de dépendances, qui diffèrent de la grammaire scolaire. La syntaxe en dépendances consiste en effet à relier entre eux les mots de la phrase en fonction de leur rôle grammatical. Par exemple, « J’ » est le sujet d’« espère » dans la phrase suivante.

Exemple d’annotation en syntaxe de dépendances du français.

Si vous jouez, vous ne pourrez pas directement réaliser cette tâche, nous utilisons donc votre capacité d’apprentissage en vous formant à ce type de modélisation linguistique. Dans ZombiLingo, le but est de trouver la bonne « tête » (le bon mot) à dévorer. Si une grande partie de ces relations peut être calculée automatiquement, pour un nombre limité mais non négligeable de cas, cela ne suffit pas, il faut « comprendre » la phrase.

Interface de jeu de ZombiLingo.

Il faut par exemple voir que dans la phrase « L’éclipse du 11 août expliquée au centre Marie Marvingt », le lien entre « expliquée » et « au » n’est pas le même que dans « L’éclipse expliquée aux enfants ». L’annotation en dépendances est une tâche réputée complexe pour les humains. Non seulement la quantité d’informations à garder en mémoire est très importante (le guide, rédigé par et pour des spécialistes, comprend 50 pages et décrit 29 types de relations), mais les solutions recherchées sont souvent contre-intuitives. Ainsi, dans la phrase « avoir recours au type de mesures que vous suggérez », l’objet de « suggérez » n’est pas « mesures », mais « que ». Pour permettre aux non-spécialistes de contribuer, il faut alléger la complexité et la lourdeur de la tâche. Dans ZombiLingo, les novices se consacrent pendant un temps à un seul type de relation qu’on leur propose de rechercher dans des séries de phrases. Par exemple, une personne peut se concentrer sur la relation qui relie un verbe à son sujet. La décomposition par type de relation permet ainsi de dompter la complexité de la tâche.

Écran de sélection de relation à jouer.

Par ailleurs, vous devez suivre une formation avant de pouvoir commencer à annoter un type de relation. Il vous faudra en effet passer par un tutoriel durant lequel on vous demande d’annoter des phrases de référence, pour lesquelles les annotations sont connues. Chaque fois que vous vous trompez, on vous en informe et vous pouvez ainsi progresser en apprenant de ces exemples. La formation initiale n’est pas suffisante et, pour assurer la qualité des données produites, des phrases de référence sont régulièrement insérées dans le jeu. Cela permet non seulement de vérifier que les joueurs et joueuses n’ont pas oublié les consignes et éventuellement de les leur rappeler, mais surtout de déterminer un niveau de confiance pour chaque personne sur chaque relation. Ce niveau de confiance est ensuite utilisé pour pondérer les réponses de chacun.

Erreur lors de la formation.

À la différence de nombreux autres jeux ayant un but, ZombiLingo ne repose donc pas uniquement sur le vote d’une masse d’individus indifférenciés, mais sur l’identification de bénévoles experts (de la tâche) dans la foule.

Les zombies sont parmi nous !

La première surprise est que ZombiLingo fait de nombreux adeptes qui se prennent facilement au jeu et annotent des quantités très importantes de données textuelles (à ce jour, 1 200 personnes ont créé un compte et produit plus de 400 000 annotations).

Le laboratoire.

En y regardant de plus près, on observe toutefois un phénomène classique dans les activités humaines : beaucoup de monde s’inscrit pour finalement peu jouer, et seul un faible nombre participe beaucoup. Les six bénévoles les plus actifs ont ainsi réalisé 51 % de l’ensemble des annotations. Pour augmenter notre communauté et trouver parmi les membres nos « expertes et experts », il nous faut faire connaître le jeu, puis relancer fréquemment l’intérêt de nos recrues. Nous organisons donc régulièrement des challenges : les joueurs et joueuses ont deux semaines pour faire un maximum de points, sur des textes sélectionnés pour l’occasion (par exemple, Star Wars, Game of Thrones ou les affaires politiques). Nous faisons également de la publicité autour du jeu sur les réseaux sociaux, dans les médias grand public et dans les publications de vulgarisation.

Nous avons mené une étude auprès de nos bénévoles et il en ressort que les personnes les plus actives restent pour le jeu, et non pour la satisfaction de participer à un projet de recherche. Pour les garder et les faire revenir, la ludification est donc essentielle. De nombreux mécanismes de jeu (tableau des scores, duels, objectifs à atteindre, collection de pierres tombales) existent déjà, mais ZombiLingo garde un aspect répétitif. La ludification doit donc être améliorée sans cesse.

Des résultats surprenants

La seconde découverte est que lorsqu’un type de relation est joué par suffisamment de personnes, la qualité produite est tout à fait satisfaisante, et ce malgré la complexité de la tâche. Dans la figure ci-dessous, pour les relations qui ont été suffisamment jouées (plus d’une personne en moyenne par élément à annoter), on observe que les données produites par le jeu (la troisième colonne, en vert) sont systématiquement meilleures que celles produites par des outils automatiques (les deux premières colonnes, en bleu et orange).

Scores obtenus par les deux analyseurs puis le jeu (en vert) sur les relations qui ont été jouées plus d’une fois en moyenne.

Les humains restent meilleurs que les outils automatiques, en particulier sur les relations les plus difficiles, comme les coordinations. Par exemple, dans la phrase « Giacomo n’avait eu que deux filles et la famille Crispo avait décidé d’appliquer la loi salique. », si on regarde localement autour du « et », on peut croire que la partie droite de la coordination est la famille Crispo alors que c’est toute la fin de la phrase.

Comment aller plus loin ?

Contrairement à un jeu classique et comme tous les jeux ayant un but, ZombiLingo a une finalité masquée derrière le jeu, la production de données annotées de qualité. Comme on l’a évoqué précédemment, un autre défi est de produire beaucoup de données. La conception du jeu doit donc prendre en compte ces deux aspects — qualité et quantité — et gérer des compromis : si plus de joueurs et joueuses donnent leur avis sur la même phrase, la qualité augmente mais la quantité produite peut diminuer, et réciproquement.

Une bonne façon d’accrocher nos recrues (pour qu’elles produisent davantage) est de leur proposer régulièrement de nouvelles fonctionnalités. Dans ZombiLingo, il est désormais possible de défier ses « adversaires » : vous pouvez ainsi provoquer des adversaires en duel sur un même ensemble de questions et comparer vos résultats. Par ailleurs, un forum a été intégré dans le jeu, vous permettant à tout moment de communiquer avec les membres de la communauté ou avec les animateurs et animatrices du jeu. Des erreurs ont ainsi pu être débusquées dans les données de référence annotées par les spécialistes !

Cependant, la production de données est une contrainte forte qui limite la ludification, car une nouvelle fonctionnalité ne peut être intégrée que si elle ne brise pas le cercle vertueux « les joueurs ou joueuses gagnent des points en ayant créé des données de qualité ». Créer un bon jeu n’est déjà pas si simple, mais créer un bon jeu ayant un but est une gageure ! Venez en juger par vous-même sur la plate-forme et participez au challenge spécial Interstices sur un corpus de textes tirés de la revue !

FORT K., GUILLAUME B. & LEFÈBVRE N. (2017). Who wants to play Zombie ? A survey of the players on ZOMBILINGO. In Using Games and Gamification for Natural Language Processing (Games4NLP), Valence, Espagne.

GUILLAUME B., FORT K. & LEFEBVRE N. (2016). Crowdsourcing complex language resources : Playing to annotate dependency syntax. In Proceedings of the International Conference on Computational Linguistics (COLING), Osaka, Japon.

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !

Karën Fort

Maîtresse de conférences en informatique au sein de l'unité de recherche STIH de Sorbonne Université, membre de l'équipe Sémagramme au LORIA (laboratoire lorrain de recherche en informatique).

Voir le profil