Faire l’inventaire du vivant : informatique et systématique
Parmi les disciplines qui tentent de répondre à ces questions, celle qui s’assigne pour tâche l’inventaire, la classification, et la reconstruction des relations de parentés entre espèces s’appelle la « systématique ». Mais attention, oubliez les scarabées épinglés sous verre et les feuilles d’herbiers sur cahiers d’écoliers jaunis, car aujourd’hui pour faire de la systématique il faut un ordinateur puissant, quelques bons logiciels, et un très bon réseau connecté à internet. L’informatique est ainsi devenue indispensable à cette science en plein essor, pour mener à bien la tâche pharaonique de l’inventaire raisonné du vivant, mission nécessaire pour mieux connaître et préserver la biodiversité.
Qu’appelle-t-on « biodiversité » ?
Le terme de biodiversité est apparu pour la première fois au début des années 1990, comme contraction de « diversité biologique » sous la plume du célèbre entomologiste Edward Wilson, puis a reçu une définition officielle en 1992 lors du Sommet de Rio. On distingue trois niveaux différents de la diversité du vivant : celui des gènes, celui des espèces, et celui des écosystèmes. Au niveau des gènes, la biodiversité renvoie à la différence entre les individus au sein d’une même espèce. Au niveau des espèces – le sens le plus courant – c’est l’éventail de toutes les espèces vivantes. Au niveau des écosystèmes, la biodiversité désigne la diversité des interactions qui se mettent en place entre différentes espèces dans un habitat donné. Chaque niveau est abordé par une discipline différente : la génétique pour premier niveau, la systématique pour le deuxième niveau, et l’écologie pour le troisième. Nous allons nous attacher ici au deuxième niveau, celui de la diversité des espèces.
L’Union Internationale pour la Conservation de la Nature (IUCN) tient à jour la « liste rouge » des espèces menacées d’extinction dans le monde, qu’elle réactualise tous les 4 ans.
Voici quelques chiffres concernant les espèces vivantes sur Terre.
- Nombre d’espèces connues à l’heure actuelle : 1,9 millions.
- Estimation du nombre d’espèces sur Terre : de 5 à 50 millions.
- Proportion d’espèces ayant existé et actuellement éteintes : on pense que 99% des espèces ayant existé ne sont plus actuellement existantes.
- Rythme actuel d’extinction : de 25000 à 50 000 espèces disparaissent chaque année (soit entre 100 et 1000 fois plus que le rythme d’extinction « normal », hors période de crise, basé sur les données paléontologiques).
- Estimation de la durée de vie d’une espèce : entre 1 et 10 millions d’années.
- Durée de vie actuelle d’une espèce : 10 000 ans.
- Nombre d’espèces menacées : 44 000 espèces animales et végétales « menacées » dont 17000 sont « menacées d’extinction » dans le monde : 1 mammifère sur 4, un oiseau sur 8 et 1 amphibien sur 3 sont menacés d’extinction.
La systématique
Pour décrire la diversité des espèces vivantes, il faut d’abord les recenser. Faire l’inventaire du vivant est une entreprise titanesque. La systématique se partage grosso modo en deux activités complémentaires : la « taxonomie » qui consiste à décrire les espèces et les « taxons » – unité de base de la classification, dont l’espèce est le premier rang – ; et la phylogénie, qui consiste à faire des hypothèses et des modèles pour reconstruire les relations de parenté entre les espèces et les classes.
Systématique et informatique main dans la main
La systématique a aujourd’hui un besoin constant de l’informatique, à tel point qu’une nouvelle systématique « assistée par ordinateur » s’est développée, selon les quatre axes suivants :
- La représentation et la formalisation des connaissances
- L’informatisation et la gestion des données
- L’identification taxonomique
- La phylogénie
Représentation et formalisation des connaissances
« Représenter » les connaissances veut dire exprimer les connaissances de manière non ambiguë afin qu’elles puissent être utilisées par un ordinateur. Cela signifie réaliser un énorme travail de clarification logique et sémantique de définition des concepts et des objets. En d’autres termes, cela nécessite de se débattre avec l’interprétation du langage naturel et la multiplicité des usages en cours dans la communauté des taxonomistes, et impose la difficile tâche d’adopter un langage strict, formel, mais en même temps riche et compréhensible.
Auparavant, les taxonomistes utilisaient un vocabulaire riche et très spécialisé avec des termes pouvant être très nombreux et subtils pour décrire un même organe (par exemple pour décrire la forme des feuilles), ou des termes très imagés (par exemple « en forme de bec de cormoran »), mais où l’interprétation du lecteur pouvait être grande, et les expressions manquaient de rigueur.
De plus, pour être mise en œuvre, cette formalisation des connaissances s’accompagne de la définition d’ontologies (systèmes de concepts hiérarchisés), de standards (par exemple « Biodiversity Information Standards »), de formats d’échanges communs. C’est ainsi le recours à l’informatique qui oblige les systématiciens à se poser les questions suivantes : qu’est-ce qu’on considère comme un « objet » dans une collection paléontologique ? Le caillou sur lequel il y a une empreinte fossile ? ou l’empreinte elle-même ? ou bien encore la trace de matière organique recueillie entre lame et lamelle ? Il y a en fait trois notions d’objet : celui qu’on collecte, celui qu’on étudie, et celui qu’on range. Ou encore, que doit-on considérer comme « descripteur », c’est-à-dire comme caractère destiné à décrire une espèce ? Si l’on n’avait pas voulu informatiser et automatiser les méthodes, ces questions de clarification et de définition n’auraient pas pris tant d’importance.
Informatisation et gestion des données
L’informatisation des données est peut-être l’étape la plus facilement imaginable. Devant la masse des données, il est en effet impossible de se passer du recours à l’informatique. Les systématiciens ont besoin de stocker et de retrouver facilement les informations de nature hétérogène qui leur sont nécessaires : par exemple les différents noms utilisés pour une même espèce, les millions de photos des spécimens (un spécimen est un individu concret choisi pour représenter une espèce) ; des informations sur le lieu ou la date où un spécimen a été collecté, et des détails sur la façon dont il a été collecté, sur son habitat…
Pour mener à bien une telle tâche, les systématiciens font appel aux « systèmes de gestion de bases de données » (SGBD). Ces systèmes utilisent des bases de données relationnelles, où chaque table est une relation définie par ses colonnes. Par exemple, une table met en relation « espèce », « pays », « date », « rang classificatoire ».
D’autres puissants outils sont à disposition des systématiciens : les bases de connaissances. Alors que les bases de données assignent simplement une valeur à une case, les bases de connaissances sont capables d’intégrer des données plus élaborées, comme des règles d’inférence entre colonnes : si tel paramètre p n’est pas présent, alors le paramètre q ne sera pas présent non plus. Par exemple, pour un végétal, si les feuilles ne sont pas composées, on ne peut pas compter le nombre de folioles.
Le problème essentiel qui se pose est que, de par le monde, les bases de données sont hétérogènes, dispersées, et largement incomplètes eu égard aux ressources à informatiser.
Face aux énormes besoins d’accès et de partage des bases de données sur la biodiversité, des réseaux se constituent pour les mettre en commun. C’est ainsi qu’en 2001, à l’initiative de l’OCDE, est mise en place une infrastructure internationale pour offrir un accès commun et ouvert à tous sur les données de la biodiversité. C’est la naissance du Global Biodiversity Information Facility (GBIF). Concrètement, il s’agit de se mettre d’accord au niveau mondial sur un format commun d’échanges de données, de développer un portail web commun et de mobiliser au niveau de chaque état membre – 54 pays membres en 2010 – les bases de données existantes. Aujourd’hui, le GBIF offre plus de 200 millions d’enregistrements accessibles. Mais de nouveaux problèmes techniques et logistiques doivent être résolus devant l’accroissement de plus en plus rapide des données.
L’informatique a aussi profondément fait évoluer la façon dont les taxonomistes interagissent. Avec internet et les évolutions du web, le travail collaboratif s’organise peu à peu. Le succès immédiat des « Scratchpads », adaptation d’un système de gestion de contenu (Drupal) aux besoins des taxonomistes, montre l’énorme attente et promet de rapides évolutions dans ce domaine.
Identification taxonomique
La description et l’identification taxonomique constituent un autre axe important. Identifier veut dire être capable face à un individu concret (végétal, animal) de pouvoir le « ranger » dans une classe taxonomique. Auparavant, le talent des taxonomistes consistait à être de très bons naturalistes, très bons observateurs, capables de décrire les plus minimes différences d’anatomie et de morphologie. Mais hélas, cette tendance a conduit à des excès de création de taxons à la moindre micro différence anatomique.
Pour mener à bien leur difficile tâche, les systématiciens produisent ce qu’on appelle des « clés d’identification ». Une clé d’identification est un ensemble de questions à se poser dans un certain ordre pour pouvoir identifier un spécimen. Par exemple, pour une plante, on va d’abord chercher la présence ou l’absence de feuilles, ensuite le type de feuilles, etc. Auparavant, les systématiciens produisaient des clés d’identification sur papier. Depuis les années 1980, l’informatique est utilisée pour aider à construire des clés d’identification pertinentes, sous la forme d’arbre de décision.
La théorie des graphes montre qu’en moyenne la structure qui prend le moins de temps à être résolue, et permet de poser le minimum de questions est un arbre « balancé » : c’est-à-dire un arbre symétrique autour d’une racine ou question initiale qui a deux réponses possibles mutuellement exclusives, qui à leur tour permettent chacune la partition en deux autres solutions mutuellement exclusives.
Mais il n’existe pas de critère universel d’une « bonne » clé d’identification, car aux critères topologiques s’ajoutent des critères sur la commodité d’utilisation : selon les espèces, certains descripteurs sont difficiles à observer. Par exemple, tel champignon possède-t-il un anneau ? La pondération des descripteurs (le type de feuilles, la couleur des feuilles…) dépend alors du contexte.
Au-delà de l’assistance fournie par les algorithmes de construction de clés, l’informatique apporte toute une palette d’autres méthodes pour l’identification. Des logiciels interactifs (par exemple Intkey, Xper2, Lucid) permettent des démarches d’identification bien plus souples que les clés traditionnelles à parcours fixe, s’adaptant aux contextes de leur utilisation et aux compétences des utilisateurs (on parle de clé à accès libre, ou de systèmes apparentés aux systèmes experts de l’intelligence artificielle). Les méthodes d’analyse de forme et l’analyse d’images permettent des identifications de plus en plus abouties (par exemple l’identification de lignées d’abeilles par soumission en ligne de photos standardisées).
Il faut noter aussi que sans l’informatique, les analyses moléculaires (« barcoding ») ne pourraient venir compléter la panoplie des méthodes pouvant aider à l’identification en biologie.
Le projet « Barcode of life » (BCOL) a pour but de promouvoir la généralisation et la standardisation de l’outil génomique pour l’expertise taxonomique afin d’offrir une méthode d’identification d’espèces rapide et fiable. Pour établir ces « codes-barres » du vivant, une courte séquence d’ADN située à une position standard du génome a été sélectionnée ; il s’agit d’une portion d’environ 600 paires de bases d’un gène mitochondrial (CO1). Ce gène a été choisi pour répondre aux critères nécessaires à un code-barre global : être universel (présent chez tous les organismes), posséder une variabilité intraspécifique faible par rapport à sa variabilité interspécifique, et être séquençable facilement. Le BCOL poursuit son objectif tout en évoluant sur les séquences retenues en raison des difficultés rencontrées pour certains types d’organismes et de la complexité du vivant.
Phylogénie
Le dernier axe qui fait un recours important à l’informatique est la « phylogénie », c’est-à-dire la reconstruction des relations de parenté entre espèces vivantes. Il s’agit de faire des hypothèses sur l’histoire évolutive du vivant et de reconstruire des arbres de parenté compatibles avec cette histoire.
Il existe différentes méthodologies pour parvenir à un tel but. La première, la méthode « phénétique », qui est aujourd’hui abandonnée, se base sur la ressemblance globale entre espèces comme d’un critère pour mesurer la relation de parenté entre deux espèces. Le critère n’est pas complètement faux, mais s’est montré profondément inopérant face à la complexité de la tâche de reconstruction de l’évolution phylogénétique.
Ensuite, la méthode « probabiliste », qui est utilisée en phylogénie moléculaire, cherche l’arbre de parenté le plus probable par rapport à un modèle d’évolution : à partir de fréquences de mutations, on calcule la probabilité d’apparentement entre deux espèces, et ensuite on reconstruit un arbre probable.
Enfin, la méthode « cladistique » consiste à construire des arbres de phylogénie reliant entre eux, non pas les espèces elles-mêmes, mais les caractères distinguant les taxons (par exemple, la présence ou l’absence de poils). Il s’agit ensuite de compter le nombre de changements ou « pas » évolutifs entre les caractères, pour retracer dans quel ordre sont apparus les caractères, et ensuite seulement en inférer un arbre de parenté des espèces. Cette méthode est aussi appelée « méthode de parcimonie », car il s’agit de choisir l’hypothèse évolutive la plus économe en nombre de changements évolutifs. L’arbre est décrit mathématiquement comme un graphe connexe sans cycle : c’est-à-dire qu’on va d’un nœud à un autre par un chemin unique.
En phylogénétique, on peut représenter sous forme d’une matrice la relation entre taxons et caractères : les taxons sont indiqués en lignes, et les caractères sont portés en colonnes, en mettant la valeur 0 pour l’absence d’un caractère, et 1 pour la présence du même caractère. Voici un exemple de matrice :
Outgroup | 00000000000 |
O.sardinoides | 00000000000 |
Arm.brev | 11000000000 |
Dip.den | 11100000000 |
Dip.bir | 11100000000 |
crâne | 10010010000 |
Dip.dub | 10010011000 |
Ell.lon | 10010011111 |
Ell.goo | 10010011111 |
Sor.elu | 10010010000 |
Par.che | 10010011110 |
Triplom | 10010011100 |
Dip.sol | 10010011100 |
Chi.dor | 10011100000 |
Den.clu | 10011000000 |
Oda.vit | 10011100000 |
À partir d’une telle matrice, le but est de reconstruire l’arbre phylogénétique « le plus court » qui soit compatible avec cette matrice. Cela semble être simple, mais pas du tout, car pour une matrice avec 16 taxons, il y a plus de 213 000 milliards de possibilités d’arbres différents ! On voit bien comment l’informatique est absolument nécessaire, même à partir d’un petit nombre de taxons. En termes de complexité algorithmique, les problèmes de reconstruction des arbres phylogénétiques appartiennent à la classe des problèmes de type « exponentiel », c’est-à-dire dont le temps de calcul augmente exponentiellement avec le nombre de taxons. Le problème de trouver l’arbre « le plus court » revient à trouver l’arbre qui ait le plus grand nombre de caractères mutuellement compatibles. En théorie des graphes, cela s’appelle un problème de « clique maximale ». Une clique est un sous-ensemble du graphe où tous les nœuds sont connectés entre eux. Le problème revient à trouver la plus grande clique dans un graphe.
Conclusion
C’est au cœur même de la systématique qu’intervient l’informatique, en forçant la systématique à se poser des questions inédites, en lui permettant de stocker, de mettre en commun, d’interroger intelligemment une masse de données hétérogènes considérable, en lui permettant d’offrir de nouveaux moyens d’aide à l’identification, ou bien encore en permettant de discriminer les arbres phylogénétiques les plus pertinents parmi la forêt luxuriante des arbres possibles du vivant.
À l’heure où la prise de conscience sociétale face à l’érosion de la biodiversité se fait plus forte, et que l’objectif de préservation des espèces requiert une meilleure connaissance de la biodiversité, on peut s’étonner que le nombre de taxonomistes soit en chute dramatique. Le nombre vertigineux d’espèces qui reste à découvrir (entre 5 et 50 millions), ainsi que la complexité et l’hétérogénéité des données sur la biodiversité à gérer, ne font que renforcer la nécessaire alliance entre informatique et systématique, qui est en plein essor.
Remerciements :
à Régine Vignes Lebbe et René Zaragüeta y Bagils, Laboratoire Informatique et Systématique, Université Pierre et Marie Curie, Paris VI.
Newsletter
Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité
Niveau de lecture
Aidez-nous à évaluer le niveau de lecture de ce document.
Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !