General feature format

General feature format
Présentation
Type

Le format d'élément général, general feature format (gene-finding format, generic feature format, GFF) est un format de fichier utilisé pour décrire les gènes et d'autres éléments de séquences d'ADN, d'ARN et de protéines. L'extension de fichier associée à de tels fichiers est .GFF et le type de contenu qui leur est associé est text/gff3 .

Il existe deux versions du format de fichier GFF généralement utilisées :

  • General Feature Format Version 2.2 en particulier dans sa variante GTF[1]
  • Format d'entité générique version 3 (projet d'ontologie de séquence)[2]

Les serveurs qui génèrent ce format:

Serveur Exemple de fichier
UniProt [1]

Les clients qui utilisent ce format:

Nom Description Liens
GBrowse Navigateur de génome GMOD GBrowse
IGB Navigateur de génome intégré Integrated Genome Browser [2]
Jalview Un éditeur et un visualiseur d'alignement de séquences multiples Jalview [3]
STRAP Met en évidence les caractéristiques des séquence des alignements multiples. Exemple de sortie: [4], [5]
JBrowse JBrowse est un navigateur génomique rapide et intégrable construit entièrement en JavaScript et HTML5 JBrowse.org
ZENBU Un système collaboratif d’intégration de données omiques et de visualisation interactive [6]

Versions GFF

Le GFF Version 2[3] (ainsi que sa variante[1] la plus commune GTF[4]) présentait un certain nombre de défauts, notamment le fait que ce format ne peut représenter que des hiérarchies d’entités à deux niveaux et ne peut donc pas gérer la hiérarchie à trois niveaux gène → transcript → exon. Le GFF3 résout ce problème et d’autres. Par exemple, il prend en charge de nombreux niveaux hiérarchiques de manière arbitraire et donne des significations spécifiques à certaines balises du champ d'attributs.

Structure générale du format GFF

Tous les formats GFF (GFF2, GFF3 et GTF) sont des fichiers tabulaires avec 9 champs par ligne, séparés par tabulation. Ils partagent tous la même structure pour les 7 premiers champs, mais diffèrent par le contenu et le format du neuvième champ. La structure générale est la suivante:

Structure générale GFF
Indice de position Nom de position Description
1 séquence Le nom de la séquence où se trouve l'élément.
2 source Mot-clé identifiant la source de l'élément, comme un programme (par exemple Augustus ou RepeatMasker) ou une organisation (comme TAIR).
3 élément Le nom du type d'élément, comme gène ou exon. Dans un fichier GFF bien structuré, tous les éléments subordonnés suivent toujours leurs parents dans un seul bloc (ainsi, tous les exons d'un transcrit sont placés après la ligne de l'élément transcrit parent et avant toute autre ligne de transcrit). Dans le GFF3, tous les éléments et leurs relations doivent être compatibles avec les normes publiées par le projet Sequence Ontology[5].
4 début Coordonnée génomique du début de l'élément, avec un décalage de 1 base. Ceci est en contraste avec d'autres formats de séquence à demi-ouverture basé sur 0, tels que les fichiers BED.
5 fin Coordonnée génomique de Fin de l'élément, avec un décalage de 1 base. Il s’agit de la même coordonnée finale que dans les formats de séquence semi-ouverts à décalage 0, comme les fichiers BED. [réf. nécessaire]
6 score Valeur numérique indiquant généralement la confiance de la source de l'élément annoté, ou son score. Une valeur de "." (un point) est utilisé pour définir une valeur nulle.
7 brin Caractère unique qui indique le brin codant (biologie moléculaire) de l'élément; il peut prendre les valeurs de "+" (positif ou 5 '→ 3'), "-" (négatif ou 3 '→ 5'), ou "." (indéterminé).
8 phase phase des éléments de séquence codante (CDS); il peut s'agir de 0, 1, 2 (pour les éléments CDS) ou "." (pour tout le reste). Voir la section ci-dessous pour une explication détaillée.
9 Les attributs. Toutes les autres informations relatives à cet élément. Le format, la structure et le contenu de ce champ est celui qui varie le plus entre les trois formats de fichiers concurrents.

Le 8e champ: phase des éléments CDS

En termes simples, CDS signifie séquence de codage. La signification exacte du terme est définie par Seologia Ontology (SO). Selon la spécification GFF3[6],[7] : « Pour les éléments de type CDS, la phase indique où l'élément commence par une référence au cadre de lecture. La phase est l'un des entiers 0, 1 ou 2, indiquant le nombre de bases à supprimer du début de cet élément pour atteindre la première base du codon suivant. »

Méta Directives

Dans les fichiers GFF, des méta-informations supplémentaires peuvent être incluses et suivies après la directive ##. Cette méta-information peut détailler la version, la région de séquence ou l’espèce du GFF (la liste complète des types de métadonnées se trouve dans les spécifications de l’ontologie de séquence[2]).

Validation

Le projet modENCODE héberge un outil de validation[8] en GFF3[9] avec des limites généreuses de 286,10 Mo et 15 millions de lignes.

La collection de logiciels Genome Tools contient un outil gff3validator qui peut être utilisé hors ligne pour valider et éventuellement arranger les fichiers GFF3. Un service de validation en ligne[10] est également disponible.

Voir aussi

Références

  1. a et b « GTF2.2 : A Gene Annotation Format », sur wustl.edu (consulté le ).
  2. a et b (en) « Specifications/gff3.md at master · The-Sequence-Ontology/Specifications », sur GitHub (consulté le ).
  3. (en) « GFF2 », sur gmod.org (consulté le ).
  4. « GTF2.2: A Gene Annotation Format »
  5. http://www.sequenceontology.org/gff3.shtml
  6. « GFF3 specification »,
  7. « Gff3 - Gmod »
  8. http://modencode.oicr.on.ca/cgi-bin/validate_gff3_online
  9. http://modencode.oicr.on.ca/cgi-bin/validate_gff3_online ligne
  10. « GFF3 Online Validator », sur genometools.org (consulté le ).