logo interstices logo interstices
rubrique  de la recherche rubrique connaitre rubrique itineraires rubrique c'etait hier rubrique debattre rubrique ludique rubrique lire et voir les thématiques
 Voir la thématique :

Sommaire du document
Page 1 / 2
 
Auteur(s) :
 

Vous n'auriez pas vu un gène, par hasard ?

18/03/04


Chez tout organisme vivant, l'ensemble de l'information génétique, ou génome, est porté par une ou plusieurs molécules d'ADN, présentes dans chaque cellule. Une molécule d'ADN est une longue chaîne formée par une succession de nucléotides. C'est l'ordre dans lequel ces nucléotides sont enchaînés – la séquence – qui permet de coder l'information génétique de chaque individu. Cette séquence est au centre de la génomique, discipline qui étudie la structure, le fonctionnement et l'évolution des génomes.

1. Identifier les gènes

Étape préliminaire à toute autre analyse, le séquençage est la détermination, grâce à des méthodes de biologie moléculaire, de l'enchaînement des nucléotides encart définition d'une molécule d'ADN encart définition.

double hélice
L'ADN se présente sous la forme d'une double hélice.
© ORNL - U.S. Department of Energy Human Genome Program document externe au site
Pour reprendre la métaphore la plus couramment employée : il s'agit de retranscrire un texte écrit dans un alphabet de 4 lettres, A, C, G et T (initiales désignant les 4 nucléotides). Dans ce « texte brut », qui dépasse les trois milliards de caractères chez l'être humain, existent des parties codantes, contenant les instructions qui permettent à la machinerie cellulaire de fabriquer les protéines encart définition : ce sont les gènes encart définition. Or les protéines sont des molécules essentielles au fonctionnement de tous les êtres vivants, dont elles constituent, avec les lipides et les glucides, l'un des trois matériaux de base. On comprend donc aisément l'intérêt que représente la connaissance des séquences encart définition des gènes.

Des programmes systématiques

La perspective d'avoir accès à de telles sources d'informations a motivé les programmes de séquençage systématique de génomes. Depuis la fin des années 70, la taille des génomes étudié est allée crescendo : on a d'abord étudié les génomes d'organismes monocellulaires, en commençant par les plus élémentaires, comme les virus, puis, dans les années 90, on s'est intéressé aux bactéries et aux levures. Depuis 1998 ont été étudiés des organismes pluricellulaires (tout d'abord un ver : C. elegans, une mouche : D. melanogaster, la plante A. taliana, bientôt le riz, la souris…).

comparaison  de  la  taille  de  différents  génomes
Crédits photos : INSERM (bactérie, drosophile), Laurent Le Piouff (petit singe), PhotoAlto (fillette), INRA (haricots verts).

Le programme le plus ambitieux et le plus médiatisé est celui portant sur le génome humain, dont une version quasiment « définitive » est à présent disponible. Mais une fois le séquençage effectué, le travail ne fait que commencer.

Apprendre à lire

La tâche est ardue car le fameux « texte » de trois milliards de caractères ne se lit pas d'une traite… loin de là. Et ce n'est pas une spécificité humaine, il en va de même pour les génomes de tous les organismes. Il faut arriver à distinguer les parties porteuses d'information, les parties codantes. En effet, les gènes se trouvent au milieu d'ADN dit non-codant, dont la proportion est faible chez les procaryotes mais peut atteindre plus de 98% chez les eucaryotes encart définition. Il faut donc identifier, noyés dans un flot de « texte » sans signification apparente, en l'absence de ponctuation et d'espaces, les « mots » que représentent les gènes... Et la difficulté ne s'arrête pas là : il y a en fait non pas une, mais six façons de « lire » la séquence. Ultime complication : les gènes eucaryotes sont morcelés comme les éléments d'une mosaïque encart définition.

Cette recherche de gènes, réalisable « manuellement » sur de courts fragments d'ADN, est inconcevable à l'échelle génomique sans l'aide d'outils informatiques, adaptés au génome analysé. Pour davantage d'efficacité, les logiciels employés combinent souvent plusieurs méthodes.

À la recherche d'indices

Une première méthode est basée sur la présence d'indices permettant de localiser les séquences codantes. En effet, celles-ci se terminent par des triplets de nucléotides (codons), appelés « codons STOP », qui sont toujours les mêmes. Entre deux codons STOP se cache donc peut-être une région codante. S'ajoutent à cela, situées en amont du gène éventuel, des séquences caractéristiques sur lesquelles se fixent les enzymes qui « lisent » l'ADN lors de la première étape de fabrication des protéines. Des algorithmes ont été développés afin de traquer ces indices tout au long de la séquence d'ADN.

localisation d'un gène
Localisation d'un gène.

De plus, le « style » des séquences codantes, évalué par la mesure des fréquences relatives d'assemblage des 4 lettres, diffère de celui des séquences non codantes. Des outils mathématiques, les plus efficaces étant les modèles de Markov, sont capables de détecter de telles variations de « style » et indiquent les régions de la séquence susceptibles d'être codantes.

À la recherche de ressemblances

Une autre méthode est la recherche des séquences d'ADN similaires à celle qu'on étudie, parmi les millions de séquences stockées dans les diverses banques de données. Ce « criblage » de banques consiste à tenter d'aligner au mieux la séquence étudiée avec celles déjà répertoriées. Un des logiciels de recherche de similarité les plus employés est BLAST, mis au point par le National Center for Biotechnology Information aux Etats-Unis. Compte tenu de la longueur des séquences d'ADN à comparer, l'utilisation d'algorithmes se révèle très coûteux en temps. C'est pourquoi ce type de logiciel procède selon une démarche heuristique et, sans garantir la solution optimale, propose rapidement plusieurs séquences similaires pertinentes.

Une fois ces différentes données compilées, les résultats ainsi obtenus in silico se révèlent assez fiables lorsqu'ils sont appliqués aux génomes procaryotes, mais beaucoup moins pour les génomes eucaryotes. Dans tous les cas, ce ne sont que des prédictions qui doivent être confirmées expérimentalement par les biologistes.

Mais l'annotation syntaxique de la séquence d'ADN ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes.

[ Page suivante ]

Url Lien