Découvrir

Décoder le vivant

Pour étudier un organisme vivant, le biologiste dispose maintenant d’une technologie de pointe : le séquençage de son génome. Connaître cette séquence d’ADN est fondamental car elle est le support de l’information génétique qui est la clé du développement et du fonctionnement de l’organisme.

Sequenceur-ADN
Deux scientifiques travaillant avec un séquenceur ADN (© Inserm/Latron P.)
Ces deux chercheuses travaillent avec un séquenceur d’ADN. Cet équipement de laboratoire est désormais incontournable pour décoder l'information génétique des organismes vivants et ainsi mieux les connaître.

Au cœur de chaque cellule existent des chromosomes qui contiennent toute l’information nécessaire à sa fabrication et à son fonctionnement : l’information génétique. Les chromosomes sont formés d’un long polymère, l’ADN (abréviation d’acide désoxyribonucléique), où les nucléotides (molécules élémentaires) se succèdent à la manière de ces colliers de bonbons dont raffolent les enfants. Une tâche essentielle des biologistes pour étudier en profondeur un organisme vivant est d’obtenir la succession de nucléotides qui sont les perles d’information de ces énormes colliers d’ADN : on appelle cette tâche « séquencer » le génome de l’organisme. On séquence en général un mélange de génomes de plusieurs individus d’une même espèce. Pour l’espèce humaine, plus de 99,5 % du génome est commune à deux individus, le reste caractérisant nos différences visibles ou la plupart du temps invisibles et se traduisant par exemple en termes de susceptibilité à des maladies.

Un travail à la chaîne

Depuis le premier génome entièrement séquencé en 1995, celui de la bactérie Haemophilus influenzae, l’exploration des génomes se poursuit de façon systématique. Les évolutions technologiques ont permis d’accroître dans des proportions importantes et à moindre coût la quantité et la fiabilité des données recueillies. Ainsi, on disposait en mai 2009 des génomes de près de 1 000 espèces différentes auxquels il faut ajouter des génomes de communautés microbiennes entières (sources hydrothermales, appareil digestif humain...).

La séquence génomique obtenue recèle la plupart des informations déterminant le comportement d’une cellule dans un milieu donné. Une séquence est un « texte » ou plutôt une suite monotone de quatre lettres : A, C, G et T, qui distinguent les quatre types de nucléotides : adénine, cytosine, guanine et thymine. Les séquences ont des longueurs variables de quelques milliers à quelques milliards de caractères. Un biologiste possédant la séquence ADN d’un organisme vivant reste pourtant, à la simple lecture du « texte », dans l’ignorance presque complète sur sa signification. Débute alors un long travail d’interprétation, « l’annotation », consistant à repérer les morceaux de séquence correspondant à des gènes, à reconstituer les séquences de protéines synthétisées par la cellule à partir de l’information portée par ces gènes, à repérer les classes d’ARN (abréviation d’acide ribonucléique) qui régulent la machinerie génétique... Plus généralement, il s’agit d’identifier tous les objets moléculaires connus et qui sont codés par autant de morceaux de séquences dans le génome.

Ce qui restait il y a quelques années un travail de bénédictin est maintenant largement automatisé, à l’aide d’outils mis au point par les bio-informaticiens. La vérification des résultats, elle, reste manuelle : après les annotations (ou interprétations) automatiques, des erreurs demeurent, qu’il faut traquer en recoupant différentes sources d’information. Une fois validées, les annotations sont organisées au sein de bases de données et normalisées pour permettre les comparaisons entre bases différentes. Enfin, pour faciliter les recherches scientifiques, elles sont rendues accessibles au moyen de navigateurs spécialisés.

WebLogo
Logo de séquence exon-intron généré sur le site de WebLogo WebLogo)
Une séquence ADN est une longue suite de quatre lettres (A, C, G, T) qu’il faut décoder. L’objectif du chercheur est de lui donner du sens en essayant de repérer une organisation, des mots... afin notamment de détecter les gènes.

Apprendre à lire

Pour annoter, c’est-à-dire donner du sens à une séquence, le biologiste a donc besoin d’outils spécifiques. A priori, vouloir transformer une suite informe de lettres en une connaissance utile en biologie semble une entreprise désespérée. Deux faits importants vont cependant aider le bio-informaticien à extraire cette connaissance. D’une part, les séquences ne sont évidemment pas aléatoires, mais au contraire très organisées. On peut déduire de leur architecture des informations précieuses sur ce qui est codé dans la molécule d’ADN, d’ARN ou de protéine. Sur chacun des brins de la célèbre double hélice d’ADN, les nucléotides (A, C, G et T) s’organisent en mots plus ou moins longs porteurs de sens.

Par exemple, un gène de bactérie pourra se repérer comme une suite de triplets (chaque triplet détermine un acide aminé présent dans la protéine synthétisée à partir de cette région d’ADN) encadrés par des triplets spéciaux, « ATG » et « TAA », qui marquent le début et la fin des gènes, un peu à la manière des parenthèses. Le repérage n’est pas toujours facile, car un triplet qui marque le début d’une région codante peut tout aussi bien apparaître à l’intérieur d’une telle région et coder alors pour un acide aminé.

La réalité des organismes supérieurs est plus complexe et en pratique il faut retrouver des gènes, non seulement très épars dans le génome, mais aussi morcelés en une mosaïque de fragments codants et non codants qui peuvent s’assembler de différentes manières, pour produire plusieurs protéines distinctes.

D’autre part, les séquences se ressemblent d’un organisme à l’autre, et ce d’autant plus qu’ils sont proches dans l’évolution. On repère 98 % de similarité entre l’homme et le chimpanzé ! On peut donc essayer de transposer les connaissances disponibles d’une espèce à une autre, même si celles-ci sont relativement éloignées. Ainsi, travailler sur le génome de la levure de boulanger permet aussi de comprendre le génome humain. Inversement, on peut tenter de localiser un facteur de maladie en isolant la partie de génome propre à chaque individu.

Quand l'ADN se met en rang

Sequençage-ADN
Séquençage de l'ADN (© Inserm/Depardieu M.)
Voici ce qui apparaît sur l’écran d’un séquenceur ADN : chaque colonne représente une séquence et chaque couleur une lettre de la séquence. C’est sur ces premières données informatiques brutes que le chercheur commence son décryptage .

D’un point de vue informatique, retrouver des séquences qui se ressemblent implique des comparaisons de séquences et repose principalement sur ce qu’on appelle un « alignement ». Un alignement de séquences suppose que celles-ci sont des variations d’une même séquence d’origine (qu’avait par exemple un ancêtre commun) qui a été transformée. On peut imaginer ici chaque séquence comme une suite de perles colorées reliées par un fil élastique : un alignement consiste à tirer plus ou moins sur chaque élastique, de sorte que toutes les séquences soient de même longueur et qu’à chaque position, les perles soient de même couleur ou d’une couleur la plus similaire possible. Les molécules associées partagent des propriétés physicochimiques qui peuvent servir de base à cette comparaison. Chaque correspondance et chaque extension de fil nécessaire reçoit un score traduisant la similarité observée. La difficulté est de trouver la meilleure somme de scores possible par rapport à tous les alignements imaginables.

On dispose d’une méthode pour résoudre ce problème d’optimisation, la « programmation dynamique ». Celle-ci consiste à remplir une matrice de scores partiels dont le nombre de lignes et de colonnes est égal à la longueur des deux séquences à comparer. Mais une telle taille devient vite ingérable et il faut se contenter de méthodes moins précises mais plus rapides. Le logiciel le plus utilisé en bioinformatique, Blast, recherche au préalable des « graines », des mots qu’on peut retrouver à l’identique dans toutes les séquences à comparer. En effet, deux séquences proches ont forcément en commun des mots répétés.

Prenons une séquence constituée de 15 « A » successifs ayant subi 2 mutations au hasard : dans tous les cas, le mot « AAAAA » sera présent et on pourra trouver au moins 3 exemplaires distincts du mot « AAA ». Mieux, on peut même affirmer que la sous-séquence « AA ??A ??AA », où le « ? » indique un caractère quelconque, sera conservée. On se sert de ces mots facilement repérés et stockables dans un « dictionnaire » comme points d’ancrage pour des recherches plus complètes.

Répétition générale

Cette idée de répétition correspond aussi à une réalité biologique : les génomes contiennent un nombre élevé de répétitions de types très variés. Celles-ci jouent un rôle majeur dans la structure, la fonction et l’évolution des génomes. Leur étude repose presque toujours sur la construction d’un dictionnaire de tous les mots présents dans la séquence étudiée. En pratique, les mots d’un génome entier peuvent ainsi tenir dans la mémoire d’un ordinateur. On peut ensuite modéliser la nature des répétitions.

Maïs-indien
Maïs indien (© Fentress S.)

Dans tous les génomes, on observe des répétitions consécutives appelées « répétitions en tandem », dont on analyse la variation. Par exemple, on trouve sur notre chromosome X une suite de répétitions du triplet « CAG » de 9 à 32 fois dans le gène du récepteur aux androgènes (fixateurs d’hormones mâles). Lorsque le nombre de « CAG » dépasse 36, cela peut déclencher une maladie neurologique, la maladie de Kennedy. D’autres répétitions, les « transposons », sont capables de se déplacer et de se multiplier dans les génomes (elles forment 45 % du génome humain). En effet, le génome est une entité dynamique dont certains fragments vont s’autoexciser à certaines positions pour aller s’insérer ailleurs. Ces éléments mobiles expliquent la coloration surprenante de certaines plantes (comme le maïs présenté ci-contre).

Deux types de techniques permettent d’analyser les répétitions : soit des techniques statistiques, où on compte le nombre de fois où apparaissent certains mots pour détecter des portions anormales ou exceptionnelles du génome, soit des techniques combinatoires où on dispose d’un ensemble de contraintes à respecter pour lesquelles on énumère l’ensemble des solutions possibles.

Le génome, un tissu à motifs

Au-delà des répétitions, il existe de multiples motifs dans les séquences, structures plus ou moins complexes qui vont délimiter les éléments des gènes, engendrer des interactions entre macromolécules ou encore contraindre la localisation ou la conformation des protéines dans la cellule. L’annotation se basera sur ces motifs pour donner du sens aux séquences.

Il existe une vaste panoplie de programmes pour la découverte de motifs à partir d’ensembles de séquences qui autorisent des études plus systématiques et plus précises. Des banques de données rassemblent les motifs trouvés afin qu’ils puissent être réutilisés dans l’annotation. Deux types d’approches sont disponibles : probabilistes ou combinatoires. Les réseaux de Markov vont ainsi cribler la suite des lettres d’une séquence à travers une série de tamis où la probabilité de passage dépend de la lettre considérée. Ces probabilités sont ajustées à partir de séquences de référence déjà annotées. L’autre approche tire ses racines de la théorie des langages formels, socle mathématique des langages de programmation. Ainsi, un grand nombre de motifs comme celui des toxines se rattachent à ce que l’on appelle les « expressions régulières », pour lesquelles on dispose de programmes de recherche efficaces largement utilisés en informatique (notamment pour le traitement de textes).

Dans le domaine de l’analyse des séquences, les défis restent nombreux. Une prochaine étape de la conquête des génomes se pose d’ores et déjà de manière aiguë : c’est par milliers qu’il faudra désormais être capable de comparer les génomes entre eux, afin d’élucider les variations génétiques et de les mettre en correspondance avec les variations visibles au sein d’une population.

Pour en savoir plus, un site web : La foire aux questions du Génoscope

Cet article est paru dans la revue DocSciences n°8 Le numérique et les sciences du vivant, éditée par le CRDP de l'Académie de Versailles en partenariat avec l'INRIA.

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Il vous semble :

Si vous souhaitez expliquer votre choix, vous pouvez ajouter un commentaire (qui ne sera pas publié).