Les Newsletters Interstices
    Niveau intermédiaire
    Niveau 2 : Intermédiaire

    Gérard Huet, d’une frontière à l’autre

    Histoire du numérique
    Algorithmes
    Pour Gérard Huet, ténacité n'est pas synonyme d'enfermement, bien au contraire. Après s'être passionné pour des disciplines aussi abstraites que la logique et l'informatique théorique, sa passion personnelle pour la culture indienne et le sanskrit le conduit à innover dans le domaine de la linguistique computationnelle.
    « Le savoir [dans la civilisation indienne], c'est avant tout la parole sonore. L'écrit ne donne accès au savoir que s'il donne accès à la connaissance des sons. » (Charles Malamoud)

    À n’en pas douter, ce rappel de quelques grandes étapes de l’itinéraire scientifique de Gérard Huet parlera plus à l’initié qu’au profane. Reste que pour ce dernier, il évoquera la diversité des thèmes abordés par ce chercheur, et plus généralement la diversité des sujets qui s’offrent à un scientifique un tant soit peu curieux, en Sciences de l’information et de la communication.

    De 1970 à 1976, Gérard Huet travaille sur l’unification dans le lambda-calcul typé et d’autres langages logiques, thème sur lequel il passera sa thèse. Dès 1972, il fait partie des chercheurs de l’institut qui s’appelle alors IRIA (l’ancêtre de l’INRIA), et qui prend une dynamique nouvelle sous la houlette du professeur Jacques-Louis Lions. De 1973 à 1978, avec Gilles Kahn notamment, il conçoit et réalise l’éditeur structuré Mentor. Il s’engage ensuite dans des recherches sur la démonstration automatique en logique équationnelle et sur la réécriture algébrique, jusqu’en 1983. Il profite de son année sabbatique au Stanford Research Institute (États-Unis), en 1980, pour mettre au point, avec Jean-Marie Hullot, le système de preuves KB, en VLISP.

    De retour à l’INRIA, c’est entre 1982 et 1989 qu’il participe au développement du langage de programmation fonctionnelle Caml, dans le cadre du projet FORMEL. Pendant cette période, en 1985, il s’envole pour une autre année sabbatique, à l’université Carnegie Mellon cette fois. Et dans les années quatre-vingt-dix, il conçoit et réalise avec Thierry Coquand et Christine Paulin-Mohring, la première version du système Coq, assistant de preuves. En parallèle, il coordonne les travaux d’un consortium européen (Logical Frameworks puis Types), et invente les structures de focus en contexte.

    Puis pendant trois ans, il devient le délégué aux relations internationales de l’INRIA, avant de revenir à la recherche. C’est alors qu’il conçoit une boîte à outils Zen de manipulation phonologiques et morphologiques en Objective Caml, qui permet la segmentation et l’étiquetage du sanskrit. En 2003, il est dans l’équipe SIGNES de linguistique computationnelle, et étudie l’interface syntaxe / sémantique.

    Entre l’Institut de France et la culture indienne

    Son élection comme membre de l’Académie des sciences, en novembre 2002, couronne ces résultats, et bien d’autres non évoqués ici, dans le domaine de la logique et de la mécanisation du raisonnement. Il s’est en outre déjà fait une solide réputation dans le domaine du sanskrit, avec le premier dictionnaire sanskrit-français en ligne. A-t-il ainsi tourné le dos à l’édifice conceptuel qu’il avait patiemment construit, pendant une trentaine d’années ? Loin de là : « Le traitement de la langue naturelle, ce qu’on nomme linguistique computationnelle, se situe au carrefour entre la linguistique, la logique et l’informatique ». Avec la logique et l’informatique, il est en pays de connaissance. Reste à mettre en œuvre les outils théoriques dont il dispose pour parvenir à « segmenter » le texte sanskrit de manière cohérente, au regard de sa sémantique, de sa syntaxe, de sa morphologie.

    On trouve dans la Bhagavadgita, le texte le plus sacré de l’Inde, le vers suivant (24[2]17) :

    Texte sanskrit

    En caractères latins, la transcription est la suivante : nasatovidyatebhavonabhavovidyatesata.h.

    Un manuscrit sanskrit ancien sur feuille de palmier, de l'Oriental Research Institute (Mysore). © Gérard Huet

    Un manuscrit sanskrit ancien sur feuille de palmier, de l’Oriental Research Institute (Mysore).
    © Gérard Huet.

    Le philosophe advaita (non dualiste) Shankara (VIIIème siècle) l’interprète ainsi :

    « NA ASATA.H VIDYATE BHAVA.H NA ABHAVA.H VIDYATE SATA.H »

    Soit : « DE L’IRRÉEL NE VIENT PAS L’ÊTRE, LE NÉANT NE VIENT PAS DU RÉEL ».

    Son adversaire dvaita (dualiste) Madhva (XIIIème siècle) lit ce vers ainsi :

    « NA ASATA.H VIDYATE ABHAVA.H NA ABHAVA.H VIDYATE SATA.H »

    Soit : « DE L’IRRÉEL NE VIENT PAS LE NÉANT, LE NÉANT NE VIENT PAS DU RÉEL ».

    Il ne s’agit pas juste d’une interprétation philosophique différente, il s’agit d’abord d’une lecture grammaticale différente permise par les règles de transformation phonétique, qui induisent un non-déterminisme de la segmentation de la phrase en mots. On voit la difficulté de l’analyse de la phrase sanskrite, qui peut comme ici introduire une négation, ou ne pas l’introduire. De la présence ou de l’absence de cette négation vient ici le néant ou l’être.

    Gérard Huet

    Les problèmes d’ambiguïtés ne sont pas les moindres. Ces ambiguïtés de sens, on les rencontre de manière similaire en reconnaissance de la parole, quelle que soit la langue. Contrairement à l’écrit en effet, la segmentation en mots de la langue parlée, et donc sa compréhension, suppose implicitement la connaissance du vocabulaire et de la syntaxe. S’ajoute à cela l’utilisation volontaire, par les auteurs de textes sanskrits, de mots polysémiques. L’informaticien se trouve alors confronté à l’identification d’un procédé productif déterministe, celui intentionnel de l’écriture d’une phrase, par des techniques d’analyse nécessairement non déterministe : celles-ci doivent permettre d’évaluer la probabilité des différentes solutions possibles. Parmi les outils utilisés : des concepts logiques, algorithmiques, des techniques d’automates finis…

    Réapprendre à déchiffrer le texte ?

    Mais comment valider la « lecture » de l’ordinateur ? Comment savoir si cette mécanisation d’un processus, traditionnellement considéré comme intelligent, conduit à l’interprétation juste ? C’est-à-dire à la restitution rigoureuse du texte voulu par son auteur ? C’est un problème de linguistique, pour lequel Gérard Huet s’efforce de monter une collaboration avec des collègues sanskritistes. Quant à la méthodologie mise en œuvre, est-elle transposable pour d’autres problèmes de linguistique computationnelle ? Il l’espère. Ce détour par une langue si étrangère, a priori, aux langues occidentales pourrait bien porter ses fruits là où on ne s’y attendait pas. Un regard neuf, de l’étranger, sur nos langues alphabétiques.

    Newsletter

    Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité

    Niveau de lecture

    Aidez-nous à évaluer le niveau de lecture de ce document.

    Si vous souhaitez expliquer votre choix, vous pouvez ajouter un commentaire (Il ne sera pas publié).

    Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !

    Dominique Chouchan

    Journaliste scientifique.
    Voir le profil