logo interstices logo interstices
rubrique  de la recherche rubrique connaitre rubrique itineraires rubrique c'etait hier rubrique debattre rubrique ludique rubrique lire et voir les thématiques
 Voir la thématique :

Sommaire du document
Page 1 / 4
 
Auteur(s) :
 

Alignement optimal et comparaison de séquences génomiques et protéiques

03/10/05


1. Comparer des séquences

Qu'est-ce qu'une séquence ?

Une séquence génomique est l'enchaînement des nucléotides definition le long d'une macromolécule definition d'ADN. Elle peut être représentée par une chaîne de caractères utilisant l'alphabet des quatre lettres A, C, G et T, initiales des bases azotées - Adénine, Cytosine, Guanine et Thymine - qui distinguent les quatre types de nucléotides. C'est l'enchaînement des nucléotides au sein des régions codantes des gènes qui dicte la suite des acides aminés qui compose un polypeptide, dont le repliement et diverses modifications chimiques conduiront à une protéine definition fonctionnelle. Une séquence protéique est l'enchaînement des vingt types d'acides aminés le long d'un polypeptide ; cette séquence est classiquement représentée par une chaîne de caractères qui utilise un alphabet de vingt lettres plus.

D'une séquence génomique à une séquence protéique.
D'une séquence génomique à une séquence protéique.
Encadrée par les codons start (en vert) et stop (en rouge), la succession des codons d'une région codante d'un gène bactérien dicte, à travers les processus de transcription, puis de traduction via le code génétique definition, la composition de la protéine en acides aminés. L'orientation de la séquence de la gauche vers la droite correspond au sens de lecture du brin d'ADN. Le résultat de la transcription et de la traduction de la région codante est une séquence protéique, qui peut être vue comme un texte écrit dans un alphabet de 20 lettres.

La longueur de la séquence complète d'un génome bactérien est de l'ordre de 106 caractères ; celle d'un génome eucaryote definition est typiquement de deux ou trois ordres de grandeur plus longue. La longueur de la séquence d'un gène bactérien est de l'ordre de 103 caractères ; celle d'un gène eucaryote est supérieure d'un ordre de grandeur en moyenne, mais peut atteindre 106 caractères. Une séquence protéique comporte de l'ordre de 102 caractères.

Pourquoi comparer des séquences ?

La comparaison de séquences est de loin la tâche informatique la plus fréquemment exécutée par les biologistes. Il s'agit de déterminer dans quelle mesure deux séquences, génomiques ou protéiques, se ressemblent.

La motivation première est d'inférer des connaissances sur une séquence à partir des connaissances attachées à une autre. Ainsi, si deux séquences génomiques sont très similaires, et si l'une est connue pour être codante, l'hypothèse que la seconde le soit aussi peut être avancée. De même, si deux séquences protéiques sont similaires, il est souvent fait l'hypothèse que les protéines correspondantes assument des fonctions semblables ; si la fonction de l'une est connue, la fonction de la seconde peut ainsi s'en déduire. Ce principe d'inférence se justifie par des considérations sur le processus d'évolution qui seront expliquées plus bas.

Il existe des bases de données qui contiennent l'ensemble des séquences nucléiques publiques avec leurs annotations (par exemple GenBank document externe au site), ou l'ensemble des séquences protéiques expertisées (SwissProt document externe au site). Le premier réflexe d'un biologiste qui détient une séquence nouvelle est de parcourir ces bases de données, afin d'y trouver les séquences similaires et de faire hériter à la nouvelle séquence les connaissances qui leur sont associées.

C'est également en comparant des séquences de génomes d'espèces actuelles qu'il est possible de reconstruire des arbres phylogénétiques autre document Interstices qui rendent compte de l'histoire évolutive.

Pourquoi existe-t-il des séquences similaires ?

Des facteurs multiples sont à l'origine de modifications de la séquence génomique : un nucléotide peut être substitué par un autre, disparaître ou au contraire s'insérer. Ces erreurs et ces mutations sont susceptibles de se propager au sein des populations. Ainsi, la séquence d'un génome d'une espèce, c'est-à-dire l'enchaînement des nucléotides qui composent les macromolécules d'ADN au sein de ses chromosomes, évolue dans le temps.

L'histoire des espèces peut être représentée par un arbre, dont les feuilles sont les espèces actuelles. Deux espèces sont considérées d'autant plus proches que leur espèce ancestrale commune est récente. Deux gènes de deux espèces différentes et issus d'un même gène ancestral sont dits « homologues ». Intuitivement, les séquences de deux gènes homologues se ressembleront d'autant plus que ce gène ancestral est récent. C'est cette similarité que les algorithmes de comparaison de séquences cherchent à mesurer.

Arbre d'espèces, gènes homologues et similarité de séquences.
Arbre d'espèces, gènes homologues et similarité de séquences.
Les deux espèces E1 et E2 possèdent une espèce ancestrale commune (E') plus récente que l'espèce ancestrale E'' commune à E2 et E4. E1 et E2 seront donc considérées comme plus proches que E2 et E4. Les gènes G1 et G2, des génomes des espèces respectives E1 et E2, sont homologues car issus d'un gène ancestral commun G' du génome de l'espèce E'. Il en est de même des gènes G2 et G4, dont le gène ancestral commun G'' est cependant plus lointain. On peut donc s'attendre à ce que les séquences de G1 et G2 se ressemblent plus que celles de G2 et G4.

[ Page suivante ]

Url Lien