Score de qualité phred

Les scores de qualité phred (aussi appelé scores phred) ont été originellement développés pour le programme Phred afin d'aider à l'automatisation du séquençage d'ADN lors du Projet Génome Humain. Ces scores de qualité sont assignés à chaque base nucléique issu d'un électrophorègramme de séquençage automatique[1],[2]. Ils sont devenus par la suite un standard permettant de caractériser la qualité d'une séquence d'ADN et sont utilisés pour comparer l'efficacité des différentes techniques de séquençage. Cependant, l'utilisation la plus courante de ces scores de qualité concerne la détermination de l'exactitude des séquences consensus basées sur la qualité de séquençage.

Historique

L'idée de scores de qualité a émergé lors de la description du format de ficher SCF par l'équipe de Staden en 1992[3]. En 1995, Bonfield et Staden proposent une méthode utilisant des scores de qualité pour chaque base séquencée afin d'améliorer la précision des séquences consensus dans les projets de séquençage d'ADN[4]. Cependant, des précédents essais pour développer un tel système de scores[5],[6] ont eu un succès relativement limité.

Le premier programme créé pour développer un système précis et puissant de scores assigné à chaque base fut le programme Phred[1]. Phred est capable de calculer des scores de qualité très précis qui sont liés de façon logarithmique à la probabilité d'erreur de séquençage[2]. Phred fut rapidement adopté par tous les grands centres de séquençage de génome ainsi que d'autres laboratoires. La plus grande partie des séquences d'ADN produites lors du Projet Génome Humain a été traitée avec Phred.

Ainsi les scores de qualité phred sont devenus un standard du séquençage d'ADN, plusieurs manufacturiers d'instruments de séquençage développant des méthodes d'évaluation de qualité similaires pour leur programme d'identification de bases, tels que les entreprises ABI ou Illumina.

Méthodes

L'approche du programme Phred pour identifier les bases et calculer un score de qualité associé a été décrit par Ewing et al.[1]. Afin de déterminer un score de qualité, Phred calcule tout d'abord plusieurs paramètres relatifs à la forme et la résolution du pic d'électrophorèse de chaque base. Ensuite, le programme utilise ces paramètres pour rechercher un score de qualité dans des immenses tables de correspondance. Ces tables sont issues d'électrophorègrammes de séquençage provenant de séquences correctement séquencées et sont inclus dans le code source de Phred. Différentes tables de correspondance sont utilisées pour différentes techniques de séquençage ainsi que différentes machines. Une évaluation de la précision des scores de qualité en fonction d'un nombre de variations pour une techniques de séquençage et une machine données montre que les scores de qualité sont d'une très grande précision[7].

Phred fut à l'origine développé pour des séquenceurs sur plaque de gel tels que l'ABI373. Il avait alors un taux d'erreur d'identification de bases plus faible que les programmes fournis par les manufacturiers qui ne donnaient par ailleurs aucun score de qualité. Cependant, Phred n'a été que partiellement adapté aux séquenceurs multicapillaires qui deviendront populaire par la suite. En revanche, les manufacturiers comme ABI continuèrent d'adapter leurs programmes d'identification de bases aux nouvelles techniques de séquençage et inclurent la possibilité d'obtenir des scores de qualité similaires à ceux donnés par Phred. Ainsi le besoin d'utiliser Phred pour l'identification de bases issus d'électrophorègrammes de séquençage diminua au profit de l'utilisation des programmes conçus par les manufacturiers, donnant par ailleurs des résultats souvent plus précis.

Applications

Les scores de qualité phred sont utilisés pour :

  • l'estimation de la qualité des séquences
  • la reconnaissance et l'élimination des portions de séquences de basse qualité
  • la détermination de l'exactitude des séquences consensus

À l'origine, les scores de qualité phred étaient en premier lieu utilisés par le programme d'assemblage Phrap. Phrap était utilisé de façon courante dans certains des plus grands projets de séquençage du Projet Génome Humain et est actuellement l'un des programmes d'assemblage les plus largement utilisés. Phrap utilise les scores de qualité phred afin de déterminer les meilleures séquences consensus ainsi qu'estimer la qualité de ces séquences. Phrap utilise également ces scores pour estimer si les divergences entre deux séquences chevauchantes relèvent d'une erreur de séquençage ou proviennent de copies différentes ayant des séquences proches.

Lors du Projet Génome Humain, la plus importante utilisation des scores fut la détermination automatique de séquences consensus. Avant l'utilisation de Phred et Phrap, les scientifiques devaient rechercher attentivement les divergences entre deux séquences chevauchantes impliquant souvent une détermination manuelle des séquences de haute qualité et une correction manuelle de chaque erreur. L'utilisation des scores de qualité par Phrap automatisa la recherche de séquences consensus de haute qualité évitant dans la plupart des cas le besoin d'une correction manuelle. Ainsi, les taux d'erreur estimés au sein des assemblages créés automatiquement avec Phred et Phrap sont substantiellement plus faibles que ceux issus des corrections manuelles.

En 2009, la plupart des programmes couramment employés utilisent les scores de qualité phred, cependant de manières différentes. Certains programmes tels que Sequencher utilisent ces scores uniquement pour l'affichage et le nettoyage des extrémités de séquences mais pas pour la détermination d'une séquence consensus alors que d'autres programmes tels que CodonCode Aligner les incluent dans leur méthode de détermination de séquences consensus basées sur les qualités de séquences.

Fiabilité

Les scores de qualité phred ont pour propriété d'être reliés de façon logarithmique à la probabilité d'erreur d'identification d'une base [2].

Par exemple, si Phred assigne un score de qualité de 30 à une base, la probabilité que cette base ait été identifiée incorrectement est de 1 pour 1000.

Ainsi, la méthode la plus couramment utilisée pour déterminer une séquence consensus est de prendre en compte les bases avec un score de qualité égal ou supérieur à 20. La haute précision des scores de qualité phred fait d'eux un outil idéal pour déterminer la qualité d'une séquence.

Les scores de qualité phred sont reliés de façon logarithmique à la probabilité d'erreur d'identification d'une base
Score de qualité phred Probabilité d'une identification incorrecte Précision de l'identification d'une base
10 1 pour 10 90 %
20 1 pour 100 99 %
30 1 pour 1000 99.9 %
40 1 pour 10000 99.99 %
50 1 pour 100000 99.999 %

Voir aussi

Références

  1. a b et c (en) Ewing B., Hillier L., Wendl MC. & Green P., « Base-calling of automated sequencer traces using phred. I. Accuracy assessment. », Genome Research, vol. 8, no 3,‎ , p. 175-85 (ISSN 1088-9051, PMID 9521921, DOI 10.1101/gr.8.3.175)
  2. a b et c (en) Ewing B. & Green P., « Base-calling of automated sequencer traces using phred. II. Error probabilities. », Genome Research, vol. 8, no 3,‎ , p. 186-94 (ISSN 1088-9051, PMID 9521922, DOI 10.1101/gr.8.3.186, lire en ligne)
  3. (en) Dear S. & Staden R., « A standard file format for data from DNA sequencing instruments. », DNA sequence : the journal of DNA sequencing and mapping, vol. 3, no 2,‎ , p. 107-10 (ISSN 1042-5179, PMID 1457811)
  4. (en) Bonfield JK. & Staden R., « The application of numerical estimates of base calling accuracy to DNA sequencing projects. », Nucleic Acids Research, vol. 23, no 8,‎ , p. 1406-10 (ISSN 0305-1048, PMID 7753633, DOI 10.1093/nar/23.8.1406)
  5. (en) Churchill GA. & Waterman MS., « The accuracy of DNA sequences: estimating sequence quality. », Genomics, vol. 14, no 1,‎ , p. 89-98 (ISSN 0888-7543, PMID 1358801, DOI 10.1016/S0888-7543(05)80288-5)
  6. (en) Lawrence CB. & Solovyev VV., « Assignment of position-specific error probability to primary DNA sequence data. », Nucleic Acids Research, vol. 22, no 7,‎ , p. 1272-80 (ISSN 0305-1048, PMID 8165143, DOI 10.1093/nar/22.7.1272)
  7. (en) Richterich P., « Estimation of errors in "raw" DNA sequences: a validation study. », Genome Research, vol. 8, no 3,‎ , p. 251-9 (ISSN 1088-9051, PMID 9521928, DOI 10.1101/gr.8.3.251)

Liens externes