Interstices


  De la recherche

L’Annotathon : une plate-forme collaborative d'annotation de séquences biologiques

Souvenez-vous de ce personnage qui, grisé par ses nouveaux pouvoirs, ensorcèle son balai et se retrouve bientôt confronté à des centaines d'autres qu'il ne sait plus contrôler... Pour éviter aux biologistes de jouer les apprentis sorciers avec leurs séquenceurs de nouvelle génération, la bioinformatique leur propose des outils informatiques eux aussi de nouvelle génération.

Séquençage d'ADN. Chaque colonne correspond à une séquence, les quatre bases sont représentées par les différentes couleurs.
Photo : Michel Depardieu © Inserm.

Véritables bêtes de course qui « crachent » en une journée un nombre de séquences d'ADN équivalant à 70 annuaires (de plus de 1000 pages chacun), là où, il y a encore quelques années, on en séquençait péniblement cinq pages, les séquenceurs sont ces machines formidables qui permettent d'une part, de lire la molécule d'ADN constituée de la succession de quatre molécules fondamentales (appelées nucléotides) et représentées par l'initiale de leur base (A pour Adénine, C pour Cytosine, G pour Guanine, T pour Thymine), et d'autre part, de la représenter sous la forme d'une longue chaîne de caractères : la séquence génomique. Chaque cellule humaine, par exemple, contient une molécule d'ADN dont la longueur est d'environ 3 milliards de nucléotides, que l'on peut ainsi représenter comme un texte - certes un peu ennuyeux pour le non-spécialiste, car écrit dans un alphabet de 4 lettres seulement - de 750 000 pages.

Grisés par ces capacités de séquençage quasi illimitées, les projets de recherche s'accumulent à travers le monde : re-séquençage de génomes pour mettre en évidence les polymorphismes (ces minuscules variations entre les génomes d'individus différents qui expliquent par exemple la susceptibilité à certaines maladies), projets de transcriptome par séquençage afin de quantifier, pour chaque gène, son niveau d'activité dans une condition particulière, séquençage de fragments immuno-précipités permettant de voir l'activité de certaines protéines qui se lient à l'ADN pour contrôler l'expression des gènes...

Explorer la diversité du vivant à travers la métagénomique

Craig Venter au microscope, à bord de son voilier Sorcerer II.
Photo © J. Craig Venter Institute

En parallèle, un autre pan récent de la génomique prend un essor nouveau grâce à ces technologies à haut débit : il s'agit de la métagénomique, une nouvelle approche révolutionnaire du séquençage. En 2004, Craig Venter, un pionnier américain de ce domaine, part avec son voilier dans la mer des Sargasses. Son idée, c'est de prélever des échantillons d'eau, et de séquencer non pas un organisme bien défini, mais le mélange d'organismes présent dans ce bouillon. Que va-t-on y trouver ? Mystère... mais on espère ainsi avoir une image de la biodiversité qui s'y trouve. Cette idée de séquencer des échantillons environnementaux a depuis été appliquée à d'autres milieux, qu'ils soient marins, terrestres (notamment des échantillons de terre prélevés dans des mines) ou biologiques, afin, à chaque fois, d'explorer la diversité des micro-organismes présents. Quels sont les micro-organismes capables de supporter le milieu acide d'une mine de fer ? Quels sont ceux présents dans les eaux côtières, ou à une profondeur de 20 mètres, ou dans une eau à 25 degrés ? Là encore, les projets sont florissants, les séquenceurs vrombissent, livrant des quantités faramineuses de courtes séquences d'ADN, correspondant chacune à l'un des organismes présents dans l'échantillon étudié. Lequel ? Impossible de le déterminer, tant que l'on n'a pas annoté le fragment par des moyens bioinformatiques. Annoter, c'est faire parler une séquences d'ADN : contient-elle un ou plusieurs gènes ? Si oui, quelle pourrait être leur fonction ? Connaît-on déjà des gènes similaires, dans quels organismes ? Peut-on ainsi avoir une idée de l'organisme, ou du moins de la famille dont provient cette séquence d'ADN ?

Cela ne pose en général guère de problème technique, à condition de maîtriser quelques outils bioinformatiques disponibles en ligne, même si retracer le parcours de certains gènes baladeurs au cours de l'évolution constitue un véritable casse-tête.

La principale difficulté, c'est que les séquences biologiques s'accumulent dans les banques de données à une vitesse faramineuse. Les bioinformaticiens sont bien à la peine pour traiter cet océan de données et en extraire les pépites génomiques. Ces pépites, ce sont par exemple de nouveaux gènes qui n'ont jamais été identifiés jusqu'à ce jour ; des enzymes produisant un grand nombre de composés chimiques qui ne peuvent sinon être obtenus que par de coûteux procédés de chimie synthétique ; des bactéries microscopiques produisant, tout au fond de la mer, des lipides qui nous serviront peut-être un jour de biocarburants. L'avenir de l'humanité au fond des mers, en somme...

Mais trouver une pépite demande généralement de tamiser des tonnes de terre sans intérêt. De même, c'est un travail long et ingrat que celui d'annotateur de séquences biologiques. Une tâche qui n'est pas reconnue à sa juste valeur, un véritable « career killer », disent certains chercheurs, et personne ne semble prêt à sacrifier sa carrière pour cela.

La « science 2.0 »

Alors, une idée qui fait son chemin dans la communauté des génomiciens et des bioinformaticiens est celle de distribuer ce travail entre tous, plutôt que d'attendre que quelques-uns s'attèlent à cette tâche considérable. Les outils collaboratifs existent aujourd'hui, comme les wikis ou les systèmes de gestion de contenu (Content Management Systems ou CMS), qui permettent à beaucoup de participer conjointement à cet effort. Récemment, une telle initiative a été proposée pour annoter les protéines (WikiProteins) ou les gènes identifiés, mais peu explorés (WikiGene). Alors, pourquoi ne pas proposer une annotation des séquences métagénomiques sur le même principe ?

Menu de la page d'accueil du site Annotathon.

Une initiative allant dans ce sens a récemment été présentée par une équipe d'enseignants-chercheurs des Universités de Marseille et de Paris-Sud, dans un article publié par la revue PLoS Biology, importante publication scientifique internationale. L'idée est de proposer un environnement web, appelé Annotathon, qui balise les différentes étapes de l'annotation de séquence, invitant le contributeur à remplir des cadres bien précis contenant les résultats de différentes analyses bioinformatiques : recherche d'homologues (donc de séquences semblables déjà connues dans d'autres organismes) dans les banques de séquences, recherche de signatures typiques dans la séquence d'ADN qui pourraient pointer vers la présence d'un gène codant, reconstruction phylogénétique, recherche de fonctions potentielles, etc. Un utilisateur peut donc se connecter au système, tirer au hasard une séquence métagénomique, l'annoter et soumettre le résultat de son travail. Au système ensuite de trouver un moyen de valider le travail de l'annotateur, par exemple en confrontant de manière automatique les annotations de plusieurs personnes sur une même séquence : ont-ils trouvé les mêmes fonctions ? les mêmes propriétés de structure pour les protéines ?

Le système étant en place, encore faut-il trouver des volontaires pour participer à cet effort collectif. Parce qu'ils sont enseignants, les auteurs ont immédiatement pensé à leurs étudiants de licence, petites mains de la génomique comme l'a titré Stéphane Foucart, journaliste du Monde dans l'article consacré à ce projet (« Les étudiants en biologie, petites mains de la génomique », Le Monde du 6 décembre 2008). Ils ont d'emblée pressenti le profit scientifique et pédagogique qu'il y aurait à en tirer. Quel meilleur exercice en effet que de faire utiliser de manière répétée, dans différentes conditions, les outils bioinformatiques standards ? Et quelle meilleure motivation pour les étudiants que de savoir qu'ils sont en train d'analyser des séquences que personne, avant eux, n'a étudiées ? Ils se sentent véritablement acteurs de la science, même s'ils sont parfois troublés par le fait que leurs enseignants, confrontés à certains cas, ont entre eux des analyses divergentes.

Annotations classées par processus biologiques : état d'avancement en mai 2009.

Chaque étudiant annote en moyenne 3 séquences, et peut recueillir les critiques des enseignants sur son annotation, afin de les intégrer dans une seconde version, finale, de cette annotation. Concrètement, en trois ans, plus de 500 étudiants de licence ont participé à ce projet, annotant au total 2,8 millions de bases de séquences métagénomiques. 2,8 millions, ce n'est encore qu'une goutte d'eau face aux quelques gigabases de séquences disponibles (un relecteur scientifique de la revue PLoS Biology n'a pas manqué de faire remarquer qu'à ce rythme, il faudrait 16 siècles pour annoter le tout).

Équipes actives en mai 2009.

Qu'importe, le principe de la méthode est maintenant validé et, à la suite de la publication de l'article de PLoS Biology présentant Annotathon à la communauté scientifique, d'autres équipes d'étudiants de par le monde ont rejoint le projet. À l'Université de Mexico, de Rhode Island, etc., ils annotent des séquences, de manière parfaitement autonome, en utilisant la plate-forme en ligne. On se prend à rêver d'un vaste réseau d'étudiants-annotateurs qui, tel une grille de calcul distribué, alimente les bases de données de la communauté de génomiciens et contribue ainsi à faire progresser la connaissance. Un doux rêve peut-être, mais qui en tout cas est dans l'air du temps...