Alignement optimal et comparaison de séquences génomiques et protéiques03/10/05
1. Comparer des séquencesQu'est-ce qu'une séquence ?Une séquence génomique est l'enchaînement des
nucléotides
La longueur de la séquence complète d'un génome bactérien est de l'ordre de 106 caractères ; celle d'un génome eucaryote Pourquoi comparer des séquences ?La comparaison de séquences est de loin la tâche informatique la plus fréquemment exécutée par les biologistes. Il s'agit de déterminer dans quelle mesure deux séquences, génomiques ou protéiques, se ressemblent. La motivation première est d'inférer des connaissances sur une séquence à partir des connaissances attachées à une autre. Ainsi, si deux séquences génomiques sont très similaires, et si l'une est connue pour être codante, l'hypothèse que la seconde le soit aussi peut être avancée. De même, si deux séquences protéiques sont similaires, il est souvent fait l'hypothèse que les protéines correspondantes assument des fonctions semblables ; si la fonction de l'une est connue, la fonction de la seconde peut ainsi s'en déduire. Ce principe d'inférence se justifie par des considérations sur le processus d'évolution qui seront expliquées plus bas. Il existe des bases de données qui contiennent l'ensemble des séquences nucléiques publiques avec leurs annotations (par exemple GenBank C'est également en comparant des séquences de génomes d'espèces actuelles qu'il est possible de reconstruire des arbres phylogénétiques Pourquoi existe-t-il des séquences similaires ?Des facteurs multiples sont à l'origine de modifications de la séquence génomique : un nucléotide peut être substitué par un autre, disparaître ou au contraire s'insérer. Ces erreurs et ces mutations sont susceptibles de se propager au sein des populations. Ainsi, la séquence d'un génome d'une espèce, c'est-à-dire l'enchaînement des nucléotides qui composent les macromolécules d'ADN au sein de ses chromosomes, évolue dans le temps. L'histoire des espèces peut être représentée par un arbre, dont les feuilles sont les espèces actuelles. Deux espèces sont considérées d'autant plus proches que leur espèce ancestrale commune est récente. Deux gènes de deux espèces différentes et issus d'un même gène ancestral sont dits « homologues ». Intuitivement, les séquences de deux gènes homologues se ressembleront d'autant plus que ce gène ancestral est récent. C'est cette similarité que les algorithmes de comparaison de séquences cherchent à mesurer.
[ Page suivante ] |