Idée reçue : Le génome humain est complètement décrypté

Vivant Santé Bioinformatique

Il est vrai que le génome de l’Homme a été (presque) intégralement séquencé, c’est-à-dire que la quasi-totalité de la succession des nucléotides qui constituent les macromolécules d’ADN humaines – le génome – est connue et disponible sous la forme d’un texte long de près de 3 milliards de lettres. Ces lettres – A, C, G, T – sont les initiales des motifs chimiques qui distinguent les quatre types de nucléotides. Mais connaître un texte est une chose, l’interpréter en est une autre.

Image : Vivian Fayard.

En 1944, Oswald Avery, Colin MacLeod et Maclyn McCarty montraient que la molécule d’ADN portait, au sein des chromosomes, l’information héréditaire utilisée par les cellules pour synthétiser les protéines. Moins de 10 ans plus tard, en 1953, Francis Crick et James Watson élucidaient, grâce aux données de Rosalind Franklin, la structure de cette molécule : la fameuse double hélice, dont la complémentarité des brins expliquait le mécanisme de réplication de l’information portée. Mais ce n’est qu’en 1995 que la séquence complète de l’ADN d’un organisme vivant, la bactérie H. influenzae, a été obtenue sous la forme d’un texte de 1,8 millions de lettres. En 2001, il était annoncé que le projet « génome humain » aboutissait plus tôt que prévu et que la séquence génomique humaine était désormais connue. Il s’agissait en fait d’un « brouillon » qui nécessita trois ans de révisions et d’extensions. Aujourd’hui, seul 10 % environ du génome humain reste inconnu, car inaccessible aux techniques de séquençage actuelles.

Pour autant, affirmer que le génome humain est décrypté reviendrait à affirmer qu’un texte chiffré est décrypté par le simple fait qu’il est possible de lire la succession des caractères qui le composent.

En fait, si le séquençage du génome humain marque l’aboutissement d’un ambitieux projet international et le succès de méthodologies et de technologies innovantes, il n’est que le début d’un très long et très délicat travail d’analyse dans lequel l’informatique joue un rôle crucial.

La première étape consiste à identifier dans ce texte les régions codantes, c’est-à-dire les régions qui portent l’information nécessaire à la synthèse des protéines. Il s’agit d’un problème bioinformatique mal résolu, car la connaissance des signaux qui marquent les débuts et fins de ces régions est très parcellaire. De plus, dans les organismes eucaryotes tels que l’Homme, ces régions ne sont pas d’un seul tenant ; elles sont morcelées en une alternance de zones codantes – les exons –, et non codantes – les introns –, dont il convient également de déterminer les frontières.

Par contre, une fois correctement délimitées, il est très simple de déchiffrer leur séquence, parce que le code est connu depuis les années 60 : c’est le code génétique qui associe à chaque triplet de 3 lettres successives un des 20 acides aminés dont l’enchaînement forme une séquence polypeptidique et de là une protéine. À un détail près : un même gène eucaryote peut coder plusieurs protéines selon les exons qui sont effectivement retenus pour déterminer la séquence protéique.

Malheureusement la connaissance de la séquence d’acides aminés d’une protéine ne donne pas sa ou ses fonctions, c’est-à-dire les rôles qu’elle joue au sein de la cellule : catalyse, régulation, transport ou structure. Caractériser précisément l’ensemble des protéines codées par le génome humain – le protéome – est un travail qui s’étendra probablement sur plusieurs dizaines d’années.

De plus, l’analyse du texte génomique ne se limite pas à la recherche des régions codantes. Au sein d’une cellule, l’expression d’un gène, c’est-à-dire l’utilisation de l’information que portent ses régions codantes pour synthétiser une ou plusieurs protéines, est régulée en fonction de l’état interne de la cellule et de son environnement. Cette régulation repose sur l’existence de courtes régions de la molécule d’ADN sur lesquelles des molécules, protéines et ARN, eux-mêmes produits de gènes, viennent ou non se fixer, pour activer ou inhiber l’expression du gène. Le produit du gène est à son tour susceptible de réguler d’autres gènes, et ainsi de suite au sein de réseaux complexes car bouclés. Les séquences de ces régions régulatrices sont extrêmement mal connues et les bioinformaticiens mettent en œuvre des méthodes très élaborées pour tenter de les mettre en évidence et de les préciser. Il s’agit bien là de décryptage, car le code de ces parties de texte n’est pas connu.

Au bout du compte, la situation est la suivante. Le séquençage du génome humain est presque achevé. Le décryptage du texte résultant est en cours, en particulier la recherche des régions codantes et des signaux de régulation. Si le déchiffrage des régions codantes identifiées est immédiat, la détermination des fonctions des protéines qu’elles codent reste largement problématique. La reconstitution des réseaux de régulation géniques n’est, quant à elle, que balbutiante.

Biologistes et informaticiens ne sont donc pas près d’arrêter leur très fructueuse collaboration, d’autant que l’analyse du génome humain n’est que l’un de leurs nombreux projets communs !

Quelques liens vous sont proposés pour en savoir plus sur le génome humain et sur la recherche des régions codantes.

Newsletter

Le responsable de ce traitement est Inria. En saisissant votre adresse mail, vous consentez à recevoir chaque mois une sélection d'articles et à ce que vos données soient collectées et stockées comme décrit dans notre politique de confidentialité

[mo-optin-form id="AeywyMkDBP"]

Niveau de lecture

Aidez-nous à évaluer le niveau de lecture de ce document.

Votre choix a été pris en compte. Merci d'avoir estimé le niveau de ce document !

François Rechenmann

Directeur de recherche Inria, spécialiste de bio-informatique.

Voir le profil

Découvrez le(s) dossier(s) associé(s) à cet article :

Culture & Société

Idée reçue : Le génome humain est complètement décrypté

Niveau de lecture

Découvrez le(s) dossier(s) associé(s) à cet article :

Les idées reçues de l’informatique