Découvrir

Faire l’inventaire du vivant : informatique et systématique

2010 a été déclarée « année internationale de la biodiversité » par l’ONU, et c’est l’occasion d’aborder ce thème dans de nombreux médias. Mais à quoi renvoie exactement la biodiversité ? Comment sait-on qu’elle est en crise ? Comment la recense-t-on ? Comment la classe-t-on ?

Herbier : Pityrogramma chrysophylla.
Fougère dorée récoltée par le père Charles Plumier,
lors d'un voyage aux Antilles à la fin du XVIIe siècle.
Photo © M.N.H.N. - Patrick Lafaite

Parmi les disciplines qui tentent de répondre à ces questions, celle qui s’assigne pour tâche l’inventaire, la classification, et la reconstruction des relations de parentés entre espèces s’appelle la « systématique ». Mais attention, oubliez les scarabées épinglés sous verre et les feuilles d’herbiers sur cahiers d’écoliers jaunis, car aujourd’hui pour faire de la systématique il faut un ordinateur puissant, quelques bons logiciels, et un très bon réseau connecté à internet. L’informatique est ainsi devenue indispensable à cette science en plein essor, pour mener à bien la tâche pharaonique de l’inventaire raisonné du vivant, mission nécessaire pour mieux connaître et préserver la biodiversité.

Qu’appelle-t-on « biodiversité » ?

Le terme de biodiversité est apparu pour la première fois au début des années 1990, comme contraction de « diversité biologique » sous la plume du célèbre entomologiste Edward Wilson, puis a reçu une définition officielle en 1992 lors du Sommet de Rio. On distingue trois niveaux différents de la diversité du vivant : celui des gènes, celui des espèces, et celui des écosystèmes. Au niveau des gènes, la biodiversité renvoie à la différence entre les individus au sein d’une même espèce. Au niveau des espèces - le sens le plus courant - c’est l’éventail de toutes les espèces vivantes. Au niveau des écosystèmes, la biodiversité désigne la diversité des interactions qui se mettent en place entre différentes espèces dans un habitat donné. Chaque niveau est abordé par une discipline différente : la génétique pour premier niveau, la systématique pour le deuxième niveau, et l’écologie pour le troisième. Nous allons nous attacher ici au deuxième niveau, celui de la diversité des espèces.

La systématique

Pour décrire la diversité des espèces vivantes, il faut d’abord les recenser. Faire l’inventaire du vivant est une entreprise titanesque. La systématique se partage grosso modo en deux activités complémentaires : la « taxonomie » qui consiste à décrire les espèces et les « taxons » - unité de base de la classification, dont l’espèce est le premier rang - ; et la phylogénie, qui consiste à faire des hypothèses et des modèles pour reconstruire les relations de parenté entre les espèces et les classes.

Systématique et informatique main dans la main

La systématique a aujourd’hui un besoin constant de l’informatique, à tel point qu’une nouvelle systématique « assistée par ordinateur » s’est développée, selon les quatre axes suivants :

  1. La représentation et la formalisation des connaissances
  2. L’informatisation et la gestion des données
  3. L'identification taxonomique
  4. La phylogénie

Représentation et formalisation des connaissances

« Représenter » les connaissances veut dire exprimer les connaissances de manière non ambiguë afin qu’elles puissent être utilisées par un ordinateur. Cela signifie réaliser un énorme travail de clarification logique et sémantique de définition des concepts et des objets. En d’autres termes, cela nécessite de se débattre avec l'interprétation du langage naturel et la multiplicité des usages en cours dans la communauté des taxonomistes, et impose la difficile tâche d’adopter un langage strict, formel, mais en même temps riche et compréhensible.

Auparavant, les taxonomistes utilisaient un vocabulaire riche et très spécialisé avec des termes pouvant être très nombreux et subtils pour décrire un même organe (par exemple pour décrire la forme des feuilles), ou des termes très imagés (par exemple « en forme de bec de cormoran »), mais où l'interprétation du lecteur pouvait être grande, et les expressions manquaient de rigueur.

De plus, pour être mise en œuvre, cette formalisation des connaissances s'accompagne de la définition d’ontologies (systèmes de concepts hiérarchisés), de standards (par exemple « Biodiversity Information Standards »), de formats d'échanges communs. C’est ainsi le recours à l’informatique qui oblige les systématiciens à se poser les questions suivantes : qu’est-ce qu’on considère comme un « objet » dans une collection paléontologique ? Le caillou sur lequel il y a une empreinte fossile ? ou l’empreinte elle-même ? ou bien encore la trace de matière organique recueillie entre lame et lamelle ? Il y a en fait trois notions d’objet : celui qu’on collecte, celui qu’on étudie, et celui qu’on range. Ou encore, que doit-on considérer comme « descripteur », c’est-à-dire comme caractère destiné à décrire une espèce ? Si l’on n’avait pas voulu informatiser et automatiser les méthodes, ces questions de clarification et de définition n’auraient pas pris tant d’importance.

Informatisation et gestion des données

L’informatisation des données est peut-être l’étape la plus facilement imaginable. Devant la masse des données, il est en effet impossible de se passer du recours à l’informatique. Les systématiciens ont besoin de stocker et de retrouver facilement les informations de nature hétérogène qui leur sont nécessaires : par exemple les différents noms utilisés pour une même espèce, les millions de photos des spécimens (un spécimen est un individu concret choisi pour représenter une espèce) ; des informations sur le lieu ou la date où un spécimen a été collecté, et des détails sur la façon dont il a été collecté, sur son habitat…

Pour mener à bien une telle tâche, les systématiciens font appel aux « systèmes de gestion de bases de données » (SGBD). Ces systèmes utilisent des bases de données relationnelles, où chaque table est une relation définie par ses colonnes. Par exemple, une table met en relation « espèce », « pays », « date », « rang classificatoire ».

D’autres puissants outils sont à disposition des systématiciens : les bases de connaissances. Alors que les bases de données assignent simplement une valeur à une case, les bases de connaissances sont capables d’intégrer des données plus élaborées, comme des règles d’inférence entre colonnes : si tel paramètre p n’est pas présent, alors le paramètre q ne sera pas présent non plus. Par exemple, pour un végétal, si les feuilles ne sont pas composées, on ne peut pas compter le nombre de folioles.

Le problème essentiel qui se pose est que, de par le monde, les bases de données sont hétérogènes, dispersées, et largement incomplètes eu égard aux ressources à informatiser.

site web du GBIF
Portail web du GBIF.

Face aux énormes besoins d'accès et de partage des bases de données sur la biodiversité, des réseaux se constituent pour les mettre en commun. C'est ainsi qu'en 2001, à l'initiative de l'OCDE, est mise en place une infrastructure internationale pour offrir un accès commun et ouvert à tous sur les données de la biodiversité. C'est la naissance du Global Biodiversity Information Facility (GBIF). Concrètement, il s’agit de se mettre d’accord au niveau mondial sur un format commun d'échanges de données, de développer un portail web commun et de mobiliser au niveau de chaque état membre - 54 pays membres en 2010 - les bases de données existantes. Aujourd'hui, le GBIF offre plus de 200 millions d'enregistrements accessibles. Mais de nouveaux problèmes techniques et logistiques doivent être résolus devant l'accroissement de plus en plus rapide des données.

L'informatique a aussi profondément fait évoluer la façon dont les taxonomistes interagissent. Avec internet et les évolutions du web, le travail collaboratif s'organise peu à peu. Le succès immédiat des « Scratchpads », adaptation d'un système de gestion de contenu (Drupal) aux besoins des taxonomistes, montre l'énorme attente et promet de rapides évolutions dans ce domaine.

Identification taxonomique

La description et l’identification taxonomique constituent un autre axe important. Identifier veut dire être capable face à un individu concret (végétal, animal) de pouvoir le « ranger » dans une classe taxonomique. Auparavant, le talent des taxonomistes consistait à être de très bons naturalistes, très bons observateurs, capables de décrire les plus minimes différences d’anatomie et de morphologie. Mais hélas, cette tendance a conduit à des excès de création de taxons à la moindre micro différence anatomique.

Pour mener à bien leur difficile tâche, les systématiciens produisent ce qu’on appelle des « clés d'identification ». Une clé d’identification est un ensemble de questions à se poser dans un certain ordre pour pouvoir identifier un spécimen. Par exemple, pour une plante, on va d’abord chercher la présence ou l’absence de feuilles, ensuite le type de feuilles, etc. Auparavant, les systématiciens produisaient des clés d’identification sur papier. Depuis les années 1980, l’informatique est utilisée pour aider à construire des clés d’identification pertinentes, sous la forme d’arbre de décision.

La théorie des graphes montre qu’en moyenne la structure qui prend le moins de temps à être résolue, et permet de poser le minimum de questions est un arbre « balancé » : c’est-à-dire un arbre symétrique autour d’une racine ou question initiale qui a deux réponses possibles mutuellement exclusives, qui à leur tour permettent chacune la partition en deux autres solutions mutuellement exclusives.

Mais il n’existe pas de critère universel d’une « bonne » clé d’identification, car aux critères topologiques s'ajoutent des critères sur la commodité d'utilisation : selon les espèces, certains descripteurs sont difficiles à observer. Par exemple, tel champignon possède-t-il un anneau ? La pondération des descripteurs (le type de feuilles, la couleur des feuilles...) dépend alors du contexte.

Au-delà de l'assistance fournie par les algorithmes de construction de clés, l'informatique apporte toute une palette d'autres méthodes pour l’identification. Des logiciels interactifs (par exemple Intkey, Xper2, Lucid) permettent des démarches d'identification bien plus souples que les clés traditionnelles à parcours fixe, s'adaptant aux contextes de leur utilisation et aux compétences des utilisateurs (on parle de clé à accès libre, ou de systèmes apparentés aux systèmes experts de l'intelligence artificielle). Les méthodes d'analyse de forme et l'analyse d'images permettent des identifications de plus en plus abouties (par exemple l'identification de lignées d'abeilles par soumission en ligne de photos standardisées).

Il faut noter aussi que sans l'informatique, les analyses moléculaires (« barcoding ») ne pourraient venir compléter la panoplie des méthodes pouvant aider à l'identification en biologie.

Phylogénie

Le dernier axe qui fait un recours important à l’informatique est la « phylogénie », c’est-à-dire la reconstruction des relations de parenté entre espèces vivantes. Il s’agit de faire des hypothèses sur l’histoire évolutive du vivant et de reconstruire des arbres de parenté compatibles avec cette histoire.

site du projet Tree of Life
Projet web Tree of Life
Image © Tree of Life Web Project.

Il existe différentes méthodologies pour parvenir à un tel but. La première, la méthode « phénétique », qui est aujourd’hui abandonnée, se base sur la ressemblance globale entre espèces comme d’un critère pour mesurer la relation de parenté entre deux espèces. Le critère n’est pas complètement faux, mais s’est montré profondément inopérant face à la complexité de la tâche de reconstruction de l’évolution phylogénétique.

Ensuite, la méthode « probabiliste », qui est utilisée en phylogénie moléculaire, cherche l’arbre de parenté le plus probable par rapport à un modèle d’évolution : à partir de fréquences de mutations, on calcule la probabilité d’apparentement entre deux espèces, et ensuite on reconstruit un arbre probable.

Enfin, la méthode « cladistique » consiste à construire des arbres de phylogénie reliant entre eux, non pas les espèces elles-mêmes, mais les caractères distinguant les taxons (par exemple, la présence ou l’absence de poils). Il s’agit ensuite de compter le nombre de changements ou « pas » évolutifs entre les caractères, pour retracer dans quel ordre sont apparus les caractères, et ensuite seulement en inférer un arbre de parenté des espèces. Cette méthode est aussi appelée « méthode de parcimonie », car il s’agit de choisir l’hypothèse évolutive la plus économe en nombre de changements évolutifs. L’arbre est décrit mathématiquement comme un graphe connexe sans cycle : c’est-à-dire qu’on va d’un nœud à un autre par un chemin unique.

En phylogénétique, on peut représenter sous forme d’une matrice la relation entre taxons et caractères : les taxons sont indiqués en lignes, et les caractères sont portés en colonnes, en mettant la valeur 0 pour l’absence d’un caractère, et 1 pour la présence du même caractère. Voici un exemple de matrice :

Outgroup 00000000000
O.sardinoides 00000000000
Arm.brev 11000000000
Dip.den 11100000000
Dip.bir 11100000000
crâne 10010010000
Dip.dub 10010011000
Ell.lon 10010011111
Ell.goo 10010011111
Sor.elu 10010010000
Par.che 10010011110
Triplom 10010011100
Dip.sol 10010011100
Chi.dor 10011100000
Den.clu 10011000000
Oda.vit 10011100000

À partir d’une telle matrice, le but est de reconstruire l’arbre phylogénétique « le plus court » qui soit compatible avec cette matrice. Cela semble être simple, mais pas du tout, car pour une matrice avec 16 taxons, il y a plus de 213 000 milliards de possibilités d’arbres différents ! On voit bien comment l’informatique est absolument nécessaire, même à partir d’un petit nombre de taxons. En termes de complexité algorithmique, les problèmes de reconstruction des arbres phylogénétiques appartiennent à la classe des problèmes de type « exponentiel », c’est-à-dire dont le temps de calcul augmente exponentiellement avec le nombre de taxons. Le problème de trouver l’arbre « le plus court » revient à trouver l’arbre qui ait le plus grand nombre de caractères mutuellement compatibles. En théorie des graphes, cela s’appelle un problème de « clique maximale ». Une clique est un sous-ensemble du graphe où tous les nœuds sont connectés entre eux. Le problème revient à trouver la plus grande clique dans un graphe.

Conclusion

C’est au cœur même de la systématique qu’intervient l’informatique, en forçant la systématique à se poser des questions inédites, en lui permettant de stocker, de mettre en commun, d’interroger intelligemment une masse de données hétérogènes considérable, en lui permettant d'offrir de nouveaux moyens d'aide à l’identification, ou bien encore en permettant de discriminer les arbres phylogénétiques les plus pertinents parmi la forêt luxuriante des arbres possibles du vivant.

À l’heure où la prise de conscience sociétale face à l’érosion de la biodiversité se fait plus forte, et que l’objectif de préservation des espèces requiert une meilleure connaissance de la biodiversité, on peut s’étonner que le nombre de taxonomistes soit en chute dramatique. Le nombre vertigineux d’espèces qui reste à découvrir (entre 5 et 50 millions), ainsi que la complexité et l’hétérogénéité des données sur la biodiversité à gérer, ne font que renforcer la nécessaire alliance entre informatique et systématique, qui est en plein essor.

Pour en savoir plus, quelques liens sur le Web.

Remerciements :
à Régine Vignes Lebbe et René Zaragüeta y Bagils, Laboratoire Informatique et Systématique, Université Pierre et Marie Curie, Paris VI.

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Il vous semble :

Si vous souhaitez expliquer votre choix, vous pouvez ajouter un commentaire (qui ne sera pas publié).