Traitement automatique des langues : d’une lente progression à des bouleversements fulgurants
Propos recueillis par Nolwenn Le Jannic.
Commençons par poser le décor : qu’est-ce que le TAL ?
Le traitement automatique des langues (TAL ou, en anglais, NLP, pour Natural Language Processing) consiste, comme son nom l’indique, à effectuer un traitement, donc un calcul, sur des données langagières, qu’il s’agisse de textes ou de paroles. Il aboutit soit à de l’analyse, soit à de la génération, c’est-à-dire que le traitement va nous permettre de passer du plus concret au plus abstrait, ou inversement. Et toutes les applications que nous connaissons du TAL aujourd’hui – du correcteur orthographique à ChatGPT en passant par les traducteurs automatiques — entrent dans l’une ou l’autre de ces catégories, voire dans les deux.
Comment s’est développé ce domaine de recherche ?
Dans les années 1950, plusieurs dynamiques convergent. D’une part, avec des chercheurs comme Alan Turing, l’idée d’intelligence artificielle émerge. D’autre part, certains chercheurs en linguistique tentent de formaliser la langue au service du calcul. Enfin, la machine Enigma, utilisée par les Allemands pendant la Seconde Guerre mondiale pour crypter leurs messages, a fait jaillir dans l’imaginaire collectif l’idée que la traduction pouvait passer par le calcul mathématique et donc, un peu plus tard, que l’informatique ouvrait la voie à la traduction automatique. Les prémices du TAL se dessinent et quelques outils de traitement voient le jour, comme celui mis en scène lors de l’expérience d’IBM-Georgetown, en 1954 : grâce à un dictionnaire de 250 mots et 6 règles de grammaire, 49 phrases russes sont automatiquement traduites en anglais. Mais les espoirs suscités sont assez vite dissipés : la capacité de calcul est largement insuffisante à l’époque pour aller plus loin et les théories capables de représenter la langue naturelle dans toute sa complexité n’existent pas.
La progression du TAL est donc très lente par rapport aux attentes que la discipline a pu faire naître. Il faudra attendre les années 1980 pour que l’augmentation de la capacité de calcul permette d’obtenir de premiers résultats. Au Canada par exemple, un générateur de bulletins météorologiques en anglais et en français est mis au point. Cela semble anodin aujourd’hui, mais c’était alors une avancée significative ! À la même époque, les premiers ordinateurs personnels arrivent sur le marché et font émerger des besoins nouveaux et des applications pour y répondre. Le correcteur orthographique et grammatical, relativement simple à mettre en œuvre, représente l’illustration parfaite des développements et des capacités du TAL à l’époque. Un autre facteur d’accélération de la recherche naît du développement de la Communauté économique européenne (CEE). Celle-ci exige de faire travailler ensemble des professionnels de langues différentes et elle va donc financer le développement de traducteurs automatiques.
Dans les années 1990, la discipline continue sa lente évolution et se structure, comme en France, sous l’impulsion notamment de Laurence Danlos, malheureusement décédée récemment. Première professeure en France à avoir obtenu un poste à l’interface entre la linguistique et l’informatique, elle a fait autant progresser les aspects techniques, en créant par exemple un générateur automatique de rapports boursiers, précurseur à l’époque, que la place de la discipline en elle-même, à travers sa contribution à l’organisation des conférences TALN (Traitement Automatique de Langues Naturelles) ou encore à la vie de l’ATALA (Association pour le traitement automatique des langues). Jusqu’en 2000 à peu près, le TAL repose cependant encore principalement sur des systèmes symboliques. Quelques voix avaient bien soulevé la possibilité de faire appel à des apprentissages automatiques préfigurant les réseaux de neurones, mais n’avaient alors pas été entendues…
Ce n’est donc qu’à partir des années 2000 que la discipline évolue vraiment ?
Il se produit en effet un gros tournant dans ces années-là pour deux raisons : d’une part, les calculateurs deviennent peu à peu vraiment plus puissants et d’autre part, grâce à l’arrivée d’Internet, les chercheurs disposent désormais de vastes jeux de données. Nous changeons alors de méthode et d’échelle : le TAL peut à présent s’appuyer sur l’apprentissage automatique et les applications s’avèrent plus robustes que celles permises par les approches symboliques.
Une nouvelle évolution majeure intervient en 2010 avec le basculement vers les réseaux de neurones, dont l’architecture permet de considérer plus d’éléments en même temps et donc d’intégrer davantage de complexité. Par exemple, là où les techniques d’apprentissage automatique classiques prenaient en compte quelques mots pour déterminer par probabilité le mot suivant, les réseaux de neurones, eux, peuvent englober des phrases entières.
Apprentissage automatique, réseaux de neurones… Le TAL serait-il devenu un synonyme de l’IA ?
Oui, aujourd’hui il s’avère très difficile de distinguer les deux, mais cela est loin d’avoir toujours été le cas, car au départ, l’IA et le TAL ont évolué chacun de leur côté. Cependant, avec le développement de l’apprentissage automatique, et plus encore des réseaux de neurones, le rapprochement est devenu tellement fort qu’à présent, les deux domaines utilisent les mêmes outils, les mêmes méthodes, presque les mêmes données et rencontrent d’ailleurs les mêmes problématiques. Les agents conversationnels de type ChatGPT, dans lesquels TAL et IA ont complètement convergé, en sont une illustration.
La création de modèles de type Transformer constitue un autre exemple de cette proximité : cette évolution des réseaux de neurones a été créée pour le TAL, afin de permettre d’effectuer des « sauts » entre les mots et de sortir du traitement strictement linéaire des phrases. Les modèles Transformer permettent de paralléliser le calcul à l’intérieur des réseaux de neurones, puis de reconnecter entre elles les différentes parties ainsi traitées. Or cette architecture technique est aujourd’hui aussi utilisée par l’IA, puisque ces outils ont de très grandes capacités de généralisation… En fait, dès que l’une des deux disciplines avance, l’autre progresse aussi.
D’autres avancées techniques sont-elles attendues dans un futur proche ?
L’enjeu le plus immédiat est celui de la multimodalité. Comme les outils sont dotés de plus en plus de capacités, on peut leur demander d’effectuer plus de choses en même temps. Par exemple, on pourrait imaginer qu’ils puissent intégrer à la fois la parole et les gestes pour mieux saisir le sens du discours.
À plus long terme, la question de la complexité de la langue naturelle va sans doute de nouveau se poser. Nombreux sont les chercheurs qui estiment que, bien que remarquables, les réseaux de neurones n’atteignent pas encore ce niveau de complexité : il leur manque toujours une certaine capacité d’abstraction. Celle-ci pourrait peut-être résulter d’une hybridation entre systèmes d’apprentissage et systèmes symboliques. C’est assez logique : en tant qu’humains, nous comprenons la langue, et donc le monde, à la fois en nous basant sur des règles théoriques et à la fois en apprenant par l’observation ; il faudrait donc des théories mathématiques qui retranscrivent cette dualité.
Enfin, la prise en compte des langues plus rares représente un enjeu majeur : les systèmes fonctionnent très bien pour l’anglais, le chinois, le français… mais aucun traducteur automatique de l’arabe vers l’anglais n’est vraiment performant par exemple. Il existe deux solutions possibles : doter enfin ces langues des jeux de données indispensables au TAL, ou créer des outils capables d’apprendre avec très peu de données.
D’un point de vue scientifique, tous ces sujets sont extrêmement enthousiasmants car ils portent des questions de haut niveau qui peuvent avoir un véritable impact sur la société !
Justement, d’un point de vue sociétal, quels sont à vos yeux les enjeux du TAL dans les années à venir ?
Le plus important est de faire comprendre au grand public ce que ces outils sont réellement capables de faire. Quand je vois des étudiant·e·s qui utilisent ChatGPT pour faire des recherches, je trouve cela aberrant ! Il faut comprendre que ce type de modèle n’est pas fait pour dire le vrai. Les réponses générées sont en adéquation avec la langue et non pas avec le contenu. Il y a une forme de hasard dans le fait que le contenu semble directement correspondre à ce qui est attendu. Mais l’utiliser comme un moteur de recherche, c’est prendre le risque de se faire tromper par ce hasard, c’est se méprendre sur les fonctionnalités des outils. De manière générale, le mésusage de ces outils, parce qu’on attendra d’eux des choses qu’ils ne peuvent réaliser, risque de générer une défiance à leur égard et à l’égard des développements scientifiques en général. Par ailleurs, nous n’avons pas les outils pour expliquer pourquoi les réponses sont produites et cette opacité est un obstacle de plus à leur bon usage.
Ensuite, les outils de TAL et d’IA soulèvent de grands enjeux sur les plans éthique et déontologique : ils sont aujourd’hui entraînés sur toutes les données disponibles, y compris sur des données volées. La question qui se pose est la suivante : est-il acceptable de disposer de bons outils, mais obtenus grâce à de mauvais comportements ? En outre, il a été montré que ces super modèles n’ont absolument pas la position de neutralité qu’on voudrait leur prêter : ils ont plutôt tendance à renforcer les biais de comportements et peuvent se montrer notamment misogynes, racistes, élitistes… Là encore, une question s’impose : peut-on accepter de tels outils ?
Ils provoquent par ailleurs, comme toute évolution technique, une transformation du travail : des métiers apparaissent, d’autres sont remis en question, c’est un phénomène classique et connu. Mais la spécificité de ces outils est qu’ils ont tendance à favoriser un travail invisibilisé. Par exemple, celui effectué par des employés dans des pays en développement pour regarder et annoter pendant des jours entiers des images de tortures, de pédopornographie, de meurtres, etc., afin d’aider les réseaux sociaux à établir leurs algorithmes de filtrage de contenus. Ces populations-là ont œuvré dans l’ombre, sans aucune protection, et pour un salaire misérable.
Enfin, sur le plan environnemental, l’usage massif et planétaire de tels outils produit évidemment un impact. L’entraînement seul de GPT3 aurait consommé 552 tonnes équivalent CO2, selon une étude de l’université américaine de Berkeley, soit l’équivalent de 260 allers-retours Paris-New York en avion. Tout cela pour un outil qui sert à rédiger des lettres de motivation ou des recettes de cuisine ? Il existe une véritable inadéquation entre les capacités et les usages, car la préservation de l’environnement est restée un impensé complet chez les informaticien·ne·s.
Face à tous ces défis, si nous voulons que le TAL et l’IA aient un avenir, une véritable réflexion sociétale et une règlementation sont indispensables, afin de prendre en compte ce que ces outils font à la société et dans la société. Ce sont des questions difficiles à poser, mais ne pas chercher à y répondre nous mènerait à la catastrophe. L’IA et le TAL ne sont évidemment pas négatifs en soi, et ils ouvrent la voie à de nombreuses applications qui pourraient bénéficier à la société, dans le domaine de la médecine ou du soutien aux personnes en situation de handicap par exemple en développant l’autonomie et l’émancipation. Mais malheureusement aujourd’hui, ce n’est pas dans cette direction que leur développement semble s’orienter.
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !
Maxime Amblard
Professeur des universités à l'Université de Lorraine, chercheur en traitement automatique des langues au Loria, dans l'équipe Inria Sémagramme.