Galaxy (bioinformatique)

Galaxy
Description de l'image GalaxyProjectLogo.png.
Description de cette image, également commentée ci-après
Crédit image:
Anton Nekrutenko & Dave Clements
licence CC BY-SA 3.0 🛈
Informations
Développé par Galaxy Team
Première version
Dernière version Rev 8761:7b96c5b684d1 ()
Dépôt github.com/galaxyproject/galaxy
État du projet actif
Écrit en Python
Environnement Unix
Formats lus BED
Langues Anglais
Type Plate-forme de fouille de données,
gestion de données,
archivage électronique
Licence AFL v3.0
Site web GalaxyProject.org

Galaxy[1],[2],[3] est une plate-forme de fouille de données, de gestion de données[4],[5] et d'archivage électronique qui a pour objectif de rendre la bioinformatique accessible aux chercheurs n'ayant pas de compétence en programmation informatique. Bien qu'originellement développée pour la recherche en génomique, elle est maintenant largement employée comme un système bioinformatique général de fouille de données.

Fonctionnalité

Galaxy est un système de fouille de données. Ce type de système fournit un moyen d'établir des analyses informatiques multi-étapes à la manière d'une recette. Une interface graphique[6] est généralement disponible afin d'indiquer quelles données traiter, quelles étapes réaliser et dans quel ordre.

Galaxy est aussi une plate-forme de gestion de données biologiques. Il prend en charge le téléversement de données à partir d'un ordinateur personnel, d'une URL ou de nombreuses ressources en ligne (tels que l'Explorateur de Génomes, BioMart ou InterMine).

Galaxy prend en charge un grand nombre de formats de données biologiques et permet des conversions entre différents formats. Il fournit une interface web à de nombreux programmes de manipulation de texte, permettant aux chercheurs de réaliser leur propres reformatages et manipulations de fichiers sans posséder de notions de langage de script.

Galaxy possède des programmes de manipulation d'intervalles pour effectuer des opérations sur les ensembles (telles que les intersections, les unions, etc.). Plusieurs formats de fichiers bioinformatiques incluent des données d'intervalles génomiques (un cadre de référence, comme un nom de chromosome ou de contig, et des coordonnées de début et de fin), autorisant ainsi l'intégration de ces données.

Enfin, Galaxy prend en charge l'archivage électronique des données (voir Reproductibilité et Transparence ci-dessous)

Objectifs du project

Galaxy est « une plate-forme web ouverte pour la réalisation d'une science génomique accessible, reproductible et transparente »[1].

Accessibilité

La bioinformatique est un domaine spécialisé qui requiert souvent un savoir en programmation informatique. Galaxy a pour objectif de donner aux chercheurs en biologie un accès à la bioinformatique sans qu'il leur soit demandé de connaissance en programmation[7],[8]. Pour cela, Galaxy possède une interface utilisateur simple[6] permettant la mise en place de processus de traitement complexes. Ce choix rend relativement facile la mise en place d'analyses classiques mais plus difficile la mise en place de traitements comprenant, par exemple, des boucles (voir Taverna pour un exemple de système supportant les boucles).

Reproductibilité

La reproductibilité est un objectif commun en science : lorsqu'un résultat scientifique est publié, la publication doit inclure les informations nécessaire permettant à d'autres de répéter l'expérimentation afin d'obtenir les mêmes résultats. Il existe de nombreux efforts récents pour étendre cette répétabilité communément utilisée dans le domaine expérimental (de paillasse) au domaine bioinformatique. Ceci s'est avéré une tâche bien plus compliquée qu'initialement prévue[9].

Transparence

Galaxy prend en charge les éléments nécessaires à la transparence scientifique en autorisant les chercheurs à partager tout objet de Galaxy soit publiquement, soit avec un cercle de personnes particulier. Les éléments partagés peuvent être consultés en détail, relancés tels quels ou copiés et modifiés afin de tester de nouvelles hypothèses.

Objets de Galaxy : historiques des traitements, jeux de données et pages

Les objets de Galaxy correspondent à tout élément pouvant être sauvegardés, maintenus ou partagés dans Galaxy :

Historiques (Histories)
Les historiques contiennent les analyses bioinformatiques (recettes) exécutées avec des jeux de données, des étapes et des paramètres précis. Les historiques incluent aussi bien les jeux de données intermédiaires que finaux.
Traitements (Workflows)
Les traitements contiennent les différentes étapes et leurs paramètres utilisés lors d'analyses bioinformatiques mais en aucun cas les données associées. Les traitements sont utilisés pour exécuter une même analyse sur différents jeux de données.
Jeux de données (Datasets)
Les jeux de données comprennent tous les jeux de données d'entrée, intermédiaires et de sortie utilisés ou produits par l'analyse.
Pages
Historiques, traitements et jeux de données peuvent inclure des annotations fournies par l'utilisateur. Les pages Galaxy permettent la création de feuilles virtuelles ayant pour objectif de décrire comment et pourquoi une analyse a été menée. L'étroite intégration des pages dans les historiques, les traitements et les jeux de données permet l'accomplissement de cet objectif.

Disponibilités

Galaxy est disponible :

  1. à partir d'un serveur public gratuit[10], pris en charge par le projet Galaxy. Ce serveur inclut de nombreux outils bioinformatique largement utilisés dans de nombreux domaines de la recherche génomique. Les utilisateurs peuvent créer leur login, enregistrer leurs historiques, traitements et jeux de données sur le serveur. Ces éléments sauvegardés peuvent être partagés avec d'autres.
  2. sous forme d'un logiciel open source pouvant être téléchargé, installé et personnalisé selon les besoins[11]. Galaxy peut être installé localement ou à travers un cloud[12].
  3. à partir de serveurs web publics maintenus par d'autres organismes que le projet Galaxy[13]. Plusieurs organismes ayant leur propre installation de Galaxy ont opté pour une mise à disposition publique.
  4. à partir du projet GenomeSpace.

Implémentation

Galaxy est une plate-forme open source implémentée utilisant le langage de programmation Python. Elle et développée par l'Équipe Galaxy[14] composée de membres de l'université d'État de Pennsylvanie, de l'université Emory et par la communauté Galaxy[15].

Communauté

Galaxy est un projet open source et la communauté attenante comprend les utilisateurs, les organisations qui installent leur propre plate-forme, les développeurs de Galaxy et les développeurs des outils bioinformatiques. Le projet Galaxy possède une liste de diffusion[16] et une rencontre annuelle[17].

Références

  1. a et b  (en) Goecks J., Nekrutenko A., Taylor J., Afgan E., Ananda G., Baker D., Blankenberg D., Chakrabarty R., Coraor N., Goecks J., Von Kuster G., Lazarus R., Li K., Nekrutenko A., Taylor J. & Vincent K., « Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences. », Genome biology, vol. 11, no 8,‎ , R86 (ISSN 1465-6914, PMID 20738864, DOI 10.1186/gb-2010-11-8-r86)
  2. (en) Blankenberg D., Von Kuster G., Coraor N., Ananda G., Lazarus R., Mangan M., Nekrutenko A. & Taylor J., « Galaxy: a web-based genome analysis tool for experimentalists. », Current protocols in molecular biology, vol. Chapter 19,‎ , Unit 19.10.1-21 (ISSN 1934-3647, PMID 20069535, DOI 10.1002/0471142727.mb1910s89)
  3. (en) Taylor J., Schenck I., Blankenberg D. & Nekrutenko A., « Using galaxy to perform large-scale interactive data analyses. », Current protocols in bioinformatics, vol. Chapter 10,‎ , Unit 10.5 (ISSN 1934-340X, PMID 18428782, DOI 10.1002/0471250953.bi1005s19)
  4. (en) Blankenberg D., Coraor N., Von Kuster G., Taylor J. & Nekrutenko A., « Integrating diverse databases into an unified analysis framework: a Galaxy approach. », Database : the journal of biological databases and curation, vol. 2011,‎ , bar011 (ISSN 1758-0463, PMID 21531983, DOI 10.1093/database/bar011)
  5. (en) Blankenberg D., Gordon A., Von Kuster G., Coraor N., Taylor J. & Nekrutenko A., « Manipulation of FASTQ data with Galaxy. », Bioinformatics, vol. 26, no 14,‎ , p. 1783-5 (ISSN 1367-4811, PMID 20562416, DOI 10.1093/bioinformatics/btq281)
  6. a et b  (en) Schatz MC., « The missing graphical user interface for genomics. », Genome biology, vol. 11, no 8,‎ , p. 128 (ISSN 1465-6914, PMID 20804568, DOI 10.1186/gb-2010-11-8-128)
  7. (en) Blankenberg D., Taylor J., Nekrutenko A., Afgan E., Baker D., Blankenberg D., Coraor N., Goecks J., Von Kuster G., Lazarus R., Li K. & Vincent K., « Making whole genome multiple alignments usable for biologists. », Bioinformatics, vol. 27, no 17,‎ , p. 2426-8 (ISSN 1367-4811, PMID 21775304, DOI 10.1093/bioinformatics/btr398)
  8. (en) Blankenberg D., Taylor J., Schenck I., He J., Zhang Y., Ghent M., Veeraraghavan N., Albert I., Miller W., Makova KD., Hardison RC. & Nekrutenko A., « A framework for collaborative analysis of ENCODE data: making large-scale analyses biologist-friendly. », Genome Research, vol. 17, no 6,‎ , p. 960-4 (ISSN 1088-9051, PMID 17568012, DOI 10.1101/gr.5578007)
  9. (en) Ioannidis JP., Allison DB., Ball CA., Coulibaly I., Cui X., Culhane AC., Falchi M., Furlanello C., Game L., Jurman G., Mangion J., Mehta T., Nitzberg M., Page GP., Petretto E. & van Noort V., « Repeatability of published microarray gene expression analyses. », Nature Genetics, vol. 41, no 2,‎ , p. 149-55 (ISSN 1546-1718, PMID 19174838, DOI 10.1038/ng.295)
  10. (en) « Serveur public de Galaxy hébergé par le projet Galaxy » (consulté le ).
  11. (en) « Documentation pour une installation locale de Galaxy », sur wiki.galaxyproject.org (consulté le ).
  12. (en) Afgan E., Baker D., Coraor N., Chapman B., Nekrutenko A. & Taylor J., « Galaxy CloudMan: delivering cloud compute clusters. », BMC bioinformatics, vol. 11 Suppl 12,‎ , S4 (ISSN 1471-2105, PMID 21210983, DOI 10.1186/1471-2105-11-S12-S4)
  13. (en) « Liste des serveurs publics mettant à disposition leur installation de Galaxy », sur wiki.galaxyproject.org (consulté le ).
  14. (en) « Équipe de maintenance et développement de Galaxy », sur wiki.galaxyproject.org (consulté le ).
  15. (en) Lazarus R., Taylor J., Qiu W. & Nekrutenko A., « Toward the commoditization of translational genomic research: Design and implementation features of the Galaxy genomic workbench. », Summit on translational bioinformatics, vol. 2008,‎ , p. 56-60 (ISSN 2153-6430, PMID 21347127)
  16. (en) « Liste de diffusion de Galaxy », sur wiki.galaxyproject.org (consulté le ).
  17. (en) « Ensemble des événements relatif au projet Galaxy », sur wiki.galaxyproject.org (consulté le ).


Voir aussi

Articles connexes

Liens externes