Taux de GC
Le taux de GC (ou pourcentage de GC, ou coefficient de Chargaff) d'une séquence d'ADN est défini comme la proportion de bases nucléiques de cette séquence étant soit une guanine (G), soit une cytosine (C). Il existe deux bases nucléiques supplémentaires, l'adénine (A) et la thymine (T), entrant dans la composition de l'ADN. De plus, la cytosine est toujours liée à la guanine, et l'adénine est toujours liée à la thymine. Ainsi, le taux de GC exprime aussi le pourcentage de liaisons G-C dans la molécule d'ADN.
Calcul du taux de GC
Le taux de GC d'une séquence est calculé d'après la formule:
où G désigne le nombre de guanines dans la séquence, A le nombre d'adénines, C celui de cytosines et T celui de thymines.
Il existe aussi d'autres calculs plus particuliers du taux de GC. Les taux de GC1, GC2 et GC3 sont respectivement les taux de GC des premières, deuxièmes et troisièmes positions des codons. Ainsi, pour déterminer le GC1 d'une séquence codante, on ne considère que les nucléotides situés en première position d'un codon (c'est-à-dire un nucléotide sur 3). Le taux de GC4 désigne le taux de GC de l'ensemble des sites dégénérés 4 fois (c'est-à-dire dont le changement de base, quel qu'il soit, donne toujours le même acide-aminé) de la séquence. Le taux de GC* correspond au taux de GC théorique d'une séquence à l'équilibre, compte tenu des taux de mutations AT → CG et CG → AT.
Répartition du taux de GC
Le taux de GC est très peu homogène, aussi bien entre les espèces qu'au sein du génome d'une espèce. Le taux de GC peut cependant être homogène sur une certaine région de l'ADN, laquelle est alors appelée isochore (c.-à-d. "à volume constant"). De nombreuses corrélations entre le taux de GC et diverses caractéristiques génomiques ont été établies, mais les théories expliquant ces corrélations restent encore controversées.
Ainsi, les régions chromosomiques riches en GC sont en moyenne enrichies en gènes, et les gènes sont alors plus compacts (c'est-à-dire que la proportion d'introns par rapport aux exons est plus faible). Les régions riches en GC sont aussi appauvries en rétroéléments et en LINEs. Par ailleurs, les télomères sont des régions riches en GC.
On a aussi remarqué que les séquences des éléments transposables avaient tendance à s'insérer préférentiellement dans les régions de même proportion en GC. On parle alors d'insertion isopycnique, c'est-à-dire à densité égale (la densité d'une séquence d'ADN étant directement liée à son taux de GC).
Le taux de GC3 a une répartition particulière par rapport aux taux de GC1 et GC2. En effet, la troisième position des codons est très souvent dégénérée (dans 70 % des cas), c'est-à-dire que le changement de la troisième base ne modifie l'acide aminé ainsi codé que dans 30 % des cas.
Évolution du taux de GC
Apparition des isochores riches en GC
Les isochores riches en GC semblent être apparus chez l'ancêtre des vertébrés. Le mécanisme à l'origine de cette apparition n'est pas aujourd'hui connu avec certitude. Une théorie considère l'enrichissement en GC comme une adaptation à l'homéothermie chez les mammifères et les oiseaux, mais l'absence de corrélation entre température corporelle et taux de GC des organismes semble réfuter cette hypothèse. Une autre hypothèse sélectionniste propose la sélection de l'augmentation du taux de GC en lien avec l'expression génique. Cette théorie n'explique cependant pas bien les distributions de GC, et c'est la théorie neutraliste de l'évolution, dite aussi de conversion génique biaisée, qui semble la plus vraisemblable.
Utilisation du taux de GC
L'étude du taux de GC est très utilisée en bactériologie pour la taxonomie.