Date de parution
03/10/2005Sommaire du document
Voir la thématique
Mots-clés
Alignement optimal et comparaison de séquences génomiques et protéiques
1. Comparer des séquences
Qu'est-ce qu'une séquence ?
Une séquence génomique est l'enchaînement des
nucléotides
le long d'une
macromolécule
d'ADN. Elle peut être représentée par une chaîne de caractères utilisant l'alphabet des quatre lettres A, C, G et T, initiales des bases azotées - Adénine, Cytosine, Guanine et Thymine - qui distinguent les quatre types de nucléotides. C'est l'enchaînement des nucléotides au sein des régions codantes des gènes qui dicte la suite des acides aminés qui compose un polypeptide, dont le repliement et diverses modifications chimiques conduiront à une protéine
fonctionnelle. Une séquence protéique est l'enchaînement des vingt types d'acides aminés le long d'un polypeptide ; cette séquence est classiquement représentée par une chaîne de caractères qui utilise un alphabet de vingt lettres
.
![]() |
| D'une séquence génomique à une séquence protéique. Encadrée par les codons start (en vert) et stop (en rouge), la succession des codons d'une région codante d'un gène bactérien dicte, à travers les processus de transcription, puis de traduction via le code génétique |
La longueur de la séquence complète d'un génome bactérien est de l'ordre de 106 caractères ; celle d'un génome eucaryote
est typiquement de deux ou trois ordres de grandeur plus longue. La longueur de la séquence d'un gène bactérien est de l'ordre de 103 caractères ; celle d'un gène eucaryote est supérieure d'un ordre de grandeur en moyenne, mais peut atteindre 106 caractères. Une séquence protéique comporte de l'ordre de 102 caractères.
Pourquoi comparer des séquences ?
La comparaison de séquences est de loin la tâche informatique la plus fréquemment exécutée par les biologistes. Il s'agit de déterminer dans quelle mesure deux séquences, génomiques ou protéiques, se ressemblent.
La motivation première est d'inférer des connaissances sur une séquence à partir des connaissances attachées à une autre. Ainsi, si deux séquences génomiques sont très similaires, et si l'une est connue pour être codante, l'hypothèse que la seconde le soit aussi peut être avancée. De même, si deux séquences protéiques sont similaires, il est souvent fait l'hypothèse que les protéines correspondantes assument des fonctions semblables ; si la fonction de l'une est connue, la fonction de la seconde peut ainsi s'en déduire. Ce principe d'inférence se justifie par des considérations sur le processus d'évolution qui seront expliquées plus bas.
Il existe des bases de données qui contiennent l'ensemble des séquences nucléiques publiques avec leurs annotations (par exemple GenBank
), ou l'ensemble des séquences protéiques expertisées (SwissProt
). Le premier réflexe d'un biologiste qui détient une séquence nouvelle est de parcourir ces bases de données, afin d'y trouver les séquences similaires et de faire hériter à la nouvelle séquence les connaissances qui leur sont associées.
C'est également en comparant des séquences de génomes d'espèces actuelles qu'il est possible de reconstruire des arbres phylogénétiques
qui rendent compte de l'histoire évolutive.
Pourquoi existe-t-il des séquences similaires ?
Des facteurs multiples sont à l'origine de modifications de la séquence génomique : un nucléotide peut être substitué par un autre, disparaître ou au contraire s'insérer. Ces erreurs et ces mutations sont susceptibles de se propager au sein des populations. Ainsi, la séquence d'un génome d'une espèce, c'est-à-dire l'enchaînement des nucléotides qui composent les macromolécules d'ADN au sein de ses chromosomes, évolue dans le temps.
L'histoire des espèces peut être représentée par un arbre, dont les feuilles sont les espèces actuelles. Deux espèces sont considérées d'autant plus proches que leur espèce ancestrale commune est récente. Deux gènes de deux espèces différentes et issus d'un même gène ancestral sont dits « homologues ». Intuitivement, les séquences de deux gènes homologues se ressembleront d'autant plus que ce gène ancestral est récent. C'est cette similarité que les algorithmes de comparaison de séquences cherchent à mesurer.
![]() |
| Arbre d'espèces, gènes homologues et similarité de séquences. Les deux espèces E1 et E2 possèdent une espèce ancestrale commune (E') plus récente que l'espèce ancestrale E'' commune à E2 et E4. E1 et E2 seront donc considérées comme plus proches que E2 et E4. Les gènes G1 et G2, des génomes des espèces respectives E1 et E2, sont homologues car issus d'un gène ancestral commun G' du génome de l'espèce E'. Il en est de même des gènes G2 et G4, dont le gène ancestral commun G'' est cependant plus lointain. On peut donc s'attendre à ce que les séquences de G1 et G2 se ressemblent plus que celles de G2 et G4. |


Français