Vous n'auriez pas vu un gène, par hasard ?18/03/04 Chez tout organisme vivant, l'ensemble de l'information génétique, ou génome, est porté par une ou plusieurs molécules d'ADN, présentes dans chaque cellule. Une molécule d'ADN est une longue chaîne formée par une succession de nucléotides. C'est l'ordre dans lequel ces nucléotides sont enchaînés – la séquence – qui permet de coder l'information génétique de chaque individu. Cette séquence est au centre de la génomique, discipline qui étudie la structure, le fonctionnement et l'évolution des génomes.
1. Identifier les gènesÉtape préliminaire à toute autre analyse, le séquençage est la détermination, grâce à des méthodes de biologie moléculaire, de l'enchaînement des nucléotides
Des programmes systématiquesLa perspective d'avoir accès à de telles sources d'informations a motivé les programmes de séquençage systématique de génomes. Depuis la fin des années 70, la taille des génomes étudié est allée crescendo : on a d'abord étudié les génomes d'organismes monocellulaires, en commençant par les plus élémentaires, comme les virus, puis, dans les années 90, on s'est intéressé aux bactéries et aux levures. Depuis 1998 ont été étudiés des organismes pluricellulaires (tout d'abord un ver : C. elegans, une mouche : D. melanogaster, la plante A. taliana, bientôt le riz, la souris…).
Le programme le plus ambitieux et le plus médiatisé est celui portant sur le génome humain, dont une version quasiment « définitive » est à présent disponible. Mais une fois le séquençage effectué, le travail ne fait que commencer. Apprendre à lireLa tâche est ardue car le fameux « texte » de trois milliards de caractères ne se lit pas d'une traite… loin de là. Et ce n'est pas une spécificité humaine, il en va de même pour les génomes de tous les organismes. Il faut arriver à distinguer les parties porteuses d'information, les parties codantes. En effet, les gènes se trouvent au milieu d'ADN dit non-codant, dont la proportion est faible chez les procaryotes mais peut atteindre plus de 98% chez les eucaryotes Cette recherche de gènes, réalisable « manuellement » sur de courts fragments d'ADN, est inconcevable à l'échelle génomique sans l'aide d'outils informatiques, adaptés au génome analysé. Pour davantage d'efficacité, les logiciels employés combinent souvent plusieurs méthodes. À la recherche d'indicesUne première méthode est basée sur la présence d'indices permettant de localiser les séquences codantes. En effet, celles-ci se terminent par des triplets de nucléotides (codons), appelés « codons STOP », qui sont toujours les mêmes. Entre deux codons STOP se cache donc peut-être une région codante. S'ajoutent à cela, situées en amont du gène éventuel, des séquences caractéristiques sur lesquelles se fixent les enzymes qui « lisent » l'ADN lors de la première étape de fabrication des protéines. Des algorithmes ont été développés afin de traquer ces indices tout au long de la séquence d'ADN.
De plus, le « style » des séquences codantes, évalué par la mesure des fréquences relatives d'assemblage des 4 lettres, diffère de celui des séquences non codantes. Des outils mathématiques, les plus efficaces étant les modèles de Markov, sont capables de détecter de telles variations de « style » et indiquent les régions de la séquence susceptibles d'être codantes. À la recherche de ressemblancesUne autre méthode est la recherche des séquences d'ADN similaires à celle qu'on étudie, parmi les millions de séquences stockées dans les diverses banques de données. Ce « criblage » de banques consiste à tenter d'aligner au mieux la séquence étudiée avec celles déjà répertoriées. Un des logiciels de recherche de similarité les plus employés est BLAST, mis au point par le National Center for Biotechnology Information aux Etats-Unis. Compte tenu de la longueur des séquences d'ADN à comparer, l'utilisation d'algorithmes se révèle très coûteux en temps. C'est pourquoi ce type de logiciel procède selon une démarche heuristique et, sans garantir la solution optimale, propose rapidement plusieurs séquences similaires pertinentes. Une fois ces différentes données compilées, les résultats ainsi obtenus in silico se révèlent assez fiables lorsqu'ils sont appliqués aux génomes procaryotes, mais beaucoup moins pour les génomes eucaryotes. Dans tous les cas, ce ne sont que des prédictions qui doivent être confirmées expérimentalement par les biologistes. Mais l'annotation syntaxique de la séquence d'ADN ainsi obtenue n'est que le préalable à une mission encore beaucoup plus ambitieuse : déterminer la fonction des gènes. [ Page suivante ] |