Séquence consensus
En biologie moléculaire et en bioinformatique, une séquence consensus est la séquence nucléotidique ou la séquence peptidique la plus fréquente à chaque position d'un alignement de séquences. Elle représente le résultat d'alignements de séquences multiples dans lesquelles les séquences apparentées sont comparées les unes aux autres afin de déterminer les motifs les plus fréquents. Cette information est importante pour les protéines dépendantes des séquences nucléotidiques, telles que les ARN polymérases.
Par exemple, les séquences CAAT et TATA (boîte TATA) sont connues pour être des séquences promotrices d'une partie des gènes des eucaryotes.
Les facteurs de transcription régulent l’expression de leurs gènes cibles en se fixant à une séquence nucléotidique spécifique, appelée site de fixation. Or la spécificité entre un facteur de transcription et son site de fixation n’est pas toujours parfaite. L’alignement de séquences correspondant au même facteur de transcription permet donc de déterminer la séquence conservée, appelée séquence consensus.
Exemple de notation
(G/A)T[TC]TAT{G}
- T correspond aux bases nucléiques toujours retrouvées à cette position.
- (G/ correspond aux bases généralement retrouvées à cette position et /A) aux bases alternatives.
- [TC] correspond aux possibles bases retrouvées à cette position sans indication de dominance.
- {G} signifie n’importe quelle base sauf celle-ci.