De la recherche

À la recherche de régions codantes

Mouche, homme, souris, chimpanzé, chien... les annonces de la disponibilité du texte complet de génomes se succèdent à un rythme soutenu, accompagnées de déclarations souvent enthousiastes sur les perspectives scientifiques ainsi ouvertes. Mais disposer d'un texte est une chose, l'interpréter en est une autre. Heureusement, informaticiens et biologistes travaillent conjointement à la conception d'algorithmes dédiés à l'analyse de ces milliards de lettres.

Stricto sensu, le génome d'un organisme est l'ensemble de ses gènes ; autrement dit, l'information nécessaire à ses cellules pour synthétiser les protéines qui assurent des fonctions diverses : structure, transport, catalyse, etc. Par extension, le terme génome désigne également le support physique de cette information, la molécule d'ADN (Acide DésoxyriboNucléique), composant des chromosomes présents au sein de chacune des cellules de l'organisme. L'ADN est un enchaînement de nucléotides de quatre types différents distingués par leur base azotée : adénine, thymine, cytosine et guanine, et notés par les initiales A, T, C et G. Et c'est cet enchaînement qui code l'information génétique, au même titre qu'une suite de 0 et de 1 peut coder un son, une image ou une suite d'instructions.

Cette roue visualise le code génétique, c'est-à-dire la correspondance entre les 64 triplets de nucléotides (sur les trois pistes internes) et les 20 acides aminés (sur la piste périphérique).
Par exemple, le triplet ACA code l'acide aminé thréonine, désigné par la lettre T.

Au sein d'un gène, et plus précisément au sein de sa région codante (ou CDS pour CoDing Sequence), la suite des triplets de nucléotides, appelés codons, dicte la séquence en acides aminés de la protéine. La correspondance entre les 64 (43) codons possibles et les 20 acides aminés constitue le code génétique, identique à peu de variantes près chez tous les organismes vivants.

Des milliards de lettres

Séquencer un génome, c'est déterminer cet enchaînement de nucléotides le long de la molécule d'ADN et le restituer sous la forme d'un texte écrit dans l'alphabet des quatre lettres A, T, C et G. Cette opération, de nature physico-chimique, est désormais très largement automatisée et son coût a de ce fait fortement décru ces dernières années. Le premier génome entièrement séquencé, en 1995, celui de la bactérie Haemophilus influenzae, comportait moins de deux millions de nucléotides. Depuis, la séquence de près de 300 génomes bactériens et de plus de 20 génomes eucaryotes a été déterminée. Ces derniers, tel que celui de l'homme ou du chien, peuvent comporter plusieurs milliards de nucléotides.

L'obtention du texte d'un génome ne constitue donc plus un objectif scientifique en tant que tel, mais marque le début d'une longue et délicate phase d'analyse. Il s'agit en effet d'identifier, dans ces longs textes dénués de toute « espace » ou « ponctuation », les régions d'intérêt biologique, et plus particulièrement les régions codantes. Cette analyse fait largement appel à l'informatique. La séquence de caractères est en effet un type d'objet bien connu des informaticiens, pour lequel ils ont développé un vaste ensemble d'algorithmes qui continue d'être enrichi par une intense activité de recherche.

Des débuts et des fins qui n'en sont pas

Les biologistes savent que le début d'une région codante dans un génome bactérien est marqué par un triplet ATG, appelé start, et sa fin par l'un des triplets TAA, TAG ou TGA, appelés stop. Le problème de la détection pourrait alors apparaître fort simple : ne suffirait-il pas d'écrire un petit programme qui recherche les occurrences de ces triplets dans la chaîne de caractères qu'est la séquence génomique bactérienne pour délimiter toutes les régions codantes ? La situation se révèle en fait un peu plus compliquée.

En effet, une région codante est une succession non chevauchante de groupes de trois nucléotides, les codons. Elle débute par un codon start et se finit par un codon stop. Il s'agit alors de ne retenir que les couples où le start et le stop sont en phase, c'est-à-dire séparés par un nombre de nucléotides multiple de trois, afin que la région délimitée puisse être considérée comme une succession de codons. Or, il existe trois manières différentes de grouper les éléments d’une séquence trois par trois, selon que l’on commence au premier, au deuxième ou au troisième élément de la séquence. Ces trois manières de grouper les éléments trois par trois déterminent trois phases sur la séquence.

Les régions codantes doivent donc être recherchées dans chacune de ces trois phases, comme si ces dernières déterminaient trois séquences différentes. De plus, un gène peut être porté par n’importe lequel des deux brins complémentaires de cette fameuse double hélice d’ADN. Chacun des brins pouvant être lu selon trois phases, c’est donc en fait dans six séquences différentes, dont cinq virtuelles, que la recherche doit s’effectuer.

heuristique pour rechercher une région codante
Phases de lecture d'une séquence d'ADN.
La séquence « ACCGTAAGACTTGCAC » peut être lue, de gauche à droite, de trois manières différentes selon que l’on commence à considérer les lettres par groupes de trois à la première, à la deuxième ou à la troisième lettre. Ces groupes apparaissent sur la figure alternativement en bleu et en rouge. Il en est de même de la séquence complémentaire, qui est lue de droite à gauche. Une séquence de nucléotides est lue dans le sens 5’ ? 3’. Les notations 5’ et 3’ font référence aux atomes de carbone qui apparaissent aux extrémités libres d’un brin d’ADN.

Mais la vraie difficulté provient de l'occurrence de nombreux triplets stop et start à l'extérieur de régions codantes. Pire encore, des triplets start peuvent se situer à l'intérieur même d'une région codante : ils codent alors la présence de l'acide aminé méthionine dans la protéine.

Les bioinformaticiens ont donc recours à une heuristique qui consiste tout d'abord à rechercher les régions situées entre deux triplets stop en phase et suffisamment longues pour coder une protéine, soit plus de 300 nucléotides. Ils retiennent ensuite le triplet start en phase qui maximise la longueur de la région codante. Bien entendu, la CDS ainsi prédite n'est qu'hypothétique. Le principe est d'accumuler des indices qui confortent cette hypothèse, en particulier la présence de configurations spécifiques de nucléotides, autrement dit de motifs de lettres sur la séquence. Par exemple, l'occurrence, un peu en amont du triplet start, d'un motif associé à ce que les biologistes connaissent pour être un site de fixation du ribosome augmente très sensiblement la pertinence de l'hypothèse.

heuristique pour rechercher une région codante
Heuristique d’identification de régions codantes dans une séquence de génome bactérien.
Cette heuristique consiste tout d’abord à rechercher les régions situées entre deux triplets stop en phase (ORF), puis à retenir le triplet start, lui aussi en phase et conférant la longueur maximale à la région codante (CDS). La prédiction est confortée si des motifs biologiques, tels qu’un site de fixation du ribosome (RBS), sont détectés aux endroits attendus.

Enfin, un test assez déterminant consiste à rechercher, dans les bases de séquences déjà annotées, s'il existe, dans le génome d'autres organismes, des séquences similaires à celle de la CDS prédite et connues pour être codantes. Bien évidemment, la pertinence de ce test est totalement dépendante de la qualité des annotations déposées dans les bases de séquences.

Cette démarche assez simple produit cependant des résultats tout à fait corrects sur des séquences de génomes bactériens. Nous vous proposons de le vérifier avec une applet qui détaille cette recherche sur une sous-séquence du génome de la bactérie B. subtilis.

Cette applet vous permet de chercher, dans une sous-séquence du génome de la bactérie B. subtilis, les gènes, ou plus précisément les régions codantes, qui s’y trouvent, et de caractériser la protéine codée par chacun de ces gènes en exploitant la base de protéines Swiss-Prot.
Ce processus d'« annotation » est décomposé ici en quatre étapes, listées dans le cadre « Etapes » en haut à gauche de la fenêtre de l’applet.

Pour en savoir plus sur les différentes étapes :

Attention, si vous quittez, les étapes antérieures ne seront pas conservées.

Cette applet a été réalisée par Régis Monte et Guillaume Surrel, à partir d'un programme Java initialement développé par Gaël Faroux puis amélioré par Delphine Baratin. Elle nécessite le plug-in Java 2. Avec MacOS X, utilisez le navigateur Safari ou un plug-in JavaEmbeddingPlugin 0.9.6 ou ultérieur.
Si l'applet ne s'affiche pas correctement, vérifiez votre configuration technique

Des archipels perdus dans un océan de lettres

Dans les séquences de génomes eucaryotes, la recherche de régions codantes est malheureusement beaucoup plus délicate, et ce pour deux grandes raisons. Tout d'abord, les gènes eucaryotes sont séparés par de très longues régions, dites intergéniques. Ainsi, les gènes occupent-ils moins de 30 % de la séquence humaine. Ensuite, un gène eucaryote comporte une succession de séquences codantes, appelées exons, et non codantes, appelées introns. De ce fait, au bout du compte, les régions codantes occupent moins de 3 % de la séquence du génome humain. Cette structure morcelée complique évidemment le problème de la prédiction de la région codante, puisqu'il ne suffit plus de déterminer un début et une fin, mais également les différentes frontières exon-intron.

Les bioinformaticiens sont donc amenés à affiner leur démarche d'analyse. Un de leurs outils favoris met en œuvre des modèles probabilistes, dits de Markov, qui, convenablement configurés, sont capables de détecter les différences de «  style » entre régions non-codantes et codantes. D'autres méthodes tenteront de détecter les motifs plus ou moins bien définis qui correspondent aux jonctions exon-intron. Là encore, c'est la superposition et la confrontation des résultats produits par plusieurs méthodes, éventuellement concurrentes, qui permettront de conforter et d'affiner les prédictions.

Les méthodes d'analyse de génomes actuelles sont largement perfectibles, en particulier lorsqu'elles s'appliquent aux séquences eucaryotes : certains gènes ne sont pas décelés, d'autres sont indûment prédits, les débuts et fins de régions codantes peuvent être erronés. Mais quels que soient les progrès méthodologiques, les résultats des méthodes bioinformatiques conserveront le statut de prédictions et devront toujours être validés par une démarche expérimentale. Tout l'intérêt du recours à la bioinformatique est bien entendu de réduire considérablement le nombre d'hypothèses à tester et d'accélérer ainsi le processus de transformation des données en connaissances.

Une première version de ce document est parue dans le Gluon, édité par l'Université Joseph Fourier de Grenoble, dans son numéro de mars 2006.

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Il vous semble :

Si vous souhaitez expliquer votre choix, vous pouvez ajouter un commentaire (qui ne sera pas publié).