Phred
Développé par | Phil Green et Brent Ewing |
---|---|
Dernière version | 0.020425.c () |
Écrit en | C |
Système d'exploitation | MacOS, Berkeley Software Distribution, HP-UX, Tru64 UNIX, AIX, Linux, Microsoft Windows, IRIX et Solaris |
Environnement | UNIX, Linux, Windows, Mac OS X |
Type | Bioinformatique |
Licence | Propriétaire |
Site web | [1], [2] |
Phred est un programme informatique permettant l'identification des bases d'une séquence d'ADN à partir de données d'un électrophorègramme générées par des séquences marquées à l'aide de fluorochromes et séparées par électrophorèse sur un séquenceur d'ADN automatisé[1],[2]. À l'époque de son développement, Phred produisait beaucoup moins d'erreurs lors de l'analyse de données que d'autres méthodes, réduisant le taux d'erreur de 40 à 50 %. Les scores de qualité phred sont par ailleurs devenus un standard pour caractériser la qualité d'une séquence d'ADN, pouvant être utilisés pour comparer l'efficacité des différentes techniques de séquençage.
Contexte
Le séquençage d'ADN à l'aide de fluorochromes est une technique de biologie moléculaire qui repose sur le marquage de chaque position d'une séquence d'ADN à l'aide de quatre marqueurs fluorescents (correspondant aux quatre différentes bases présentes dans l'ADN) générant des séquences de longueurs variables, chacune marquée à son extrémité par un fluorochrome. Ces séquences sont ensuite séparées par électrophorèse sur plaque ou par électrophorèse capillaire (cf. le séquençage d'ADN). L'électrophorèse est contrôlée à l'aide d'un capteur CCD présent sur le séquenceur générant un électrophorégramme regroupant les pics de fluorescence. L'examen de ces pics permet de déterminer l'ordre de chacune des bases de la séquence d'ADN. Cependant l'intensité, la forme et la position des pics ne sont pas toujours constantes ou clairement résolues rendant parfois difficile ou chronophage l'identification correcte des bases lors d'une analyse manuelle.
Les techniques de séquençage d'ADN automatisé ont révolutionné la biologie moléculaire, permettant de produire de très grandes quantités de données de séquençage. Cependant, ces données sont produites plus vite qu'elles ne peuvent être analysées, analyse correspondant à l'interprétation de l'électrophorégramme pour en déduire la séquence, conduisant à un goulot d'étranglement. Pour éliminer ce goulot d'étranglement, des programmes permettant d'augmenter la vitesse de traitement avec une grande efficacité et de mesurer la précision de séquençage se sont avérés nécessaire. Pour cela, de nombreux programmes informatiques ont été développés. L'un d'eux était n'était autre que Phred.
Historique
Phred fut conçu au début des années 1990 par Phil Green, qui devint professeur à l'Université Washington de Saint-Louis. LaDeana Hillier, Michael Wendl, David Ficenec, Tim Gleeson, Alan Blanchard et Richard Mott ont également contribué au code source et à la conception de l'algorithme. Green fut muté à l'Université Washington au milieu des années 1990 et continua le développement du programme avec l'aide de Brent Ewing. Phred joua un rôle notable dans le Projet Génome Humain au sein duquel de grandes quantités de données de séquençage ont été traitées automatiquement à l'aide de scripts. Il est actuellement le programme d'identification de bases le plus largement utilisé aussi bien dans le milieu académique que par des laboratoires de séquençage privés en raison de sa haute précision dans l'identification[3]. Phred est distribué commercialement par CodonCode Corporation et est utilisé par la fonction "Call bases" du programme CodonCode Aligner. Il est aussi utilisé au sein du plugin Assembler du programme MacVector.
Méthode
Phred utilise une procédure en quatre étapes décrites par Ewing et al.[1] pour déterminer l'enchaînement des bases à partir d'un électrophorégramme de séquençage d'ADN :
- la position des pics est prédite. Cette prédiction est basée sur l'hypothèse que les fragments sont uniformément répartis le long du gel permettant de connaître le nombre exact de bases et d'extrapoler la position de certains pics dans les régions du gel où ces derniers sont peu résolus, noyés dans le bruit de fond ou décalés (comme lors d'une compression),
- les pics observés sont identifiés à partir de l'électrophorégramme,
- les pics observés sont comparés à la position prédites des pics, éliminant certains pics et en séparant d'autres. Comme chaque pic observé est issu d'un maillage et est associé à l'une des quatre bases (A, C, T ou G), la liste ordonnée des pics observés ayant une correspondance avec les pics prédits détermine une séquence de base pour l'électrophorégramme analysé,
- Les pics observés ne présentant aucune correspondance sont analysés afin de savoir s'ils représentent une véritable base et si cela s'avère le cas, la base est alors insérée dans la séquence.
La procédure complète est réalisée rapidement, généralement en moins d'une demi-seconde par électrophorégramme.
Applications
Phred est régulièrement utilisé en parallèle d'un autre programme informatique nommé Phrap, utilisé pour l'assemblage de séquences d'ADN. Phrap était couramment utilisé dans certains des plus grands projets de séquençage du Projet Génome Humain et est actuellement l'un des programmes d'assemblage les plus largement utilisés. Phrap utilise les scores de qualité phred afin de déterminer les meilleures séquences consensus ainsi qu'estimer la qualité de ces séquences. Phrap utilise également ces scores pour estimer si les divergences entre deux séquences chevauchantes relèvent d'une erreur de séquençage ou proviennent de copies différentes ayant des séquences proches.
Références
- (en) Ewing B., Hillier L., Wendl MC. & Green P., « Base-calling of automated sequencer traces using phred. I. Accuracy assessment. », Genome Research, vol. 8, no 3, , p. 175-85 (ISSN 1088-9051, PMID 9521921, DOI 10.1101/gr.8.3.175)
- (en) Ewing B. & Green P., « Base-calling of automated sequencer traces using phred. II. Error probabilities. », Genome Research, vol. 8, no 3, , p. 186-94 (ISSN 1088-9051, PMID 9521922, DOI 10.1101/gr.8.3.186, lire en ligne)
- (en) Richterich P., « Estimation of errors in "raw" DNA sequences: a validation study. », Genome Research, vol. 8, no 3, , p. 251-9 (ISSN 1088-9051, PMID 9521928, DOI 10.1101/gr.8.3.251)
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Phred base calling » (voir la liste des auteurs).