Genomics Data Lake
Le lac de données Genomics Data Lake fournit divers jeux de données publics qui sont accessibles gratuitement et peuvent s’intégrer à vos applications et workflows d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon sous les formats de fichier BAM, FASTA, VCF et CSV.
Le lac de données Genomics est hébergé dans les régions Azure USA Ouest 2 et USA Centre-Ouest. L’allocation de ressources de calcul dans la région USA Ouest 2 et USA Centre-Ouest est recommandée à des fins d’affinité.
Notes
L’utilisation des jeux de données est soumise aux modalités et conditions fixées par les propriétaires des jeux de données. Voir la page d’informations du jeu de données pour les conditions générales applicables.
Groupes de données
Groupes de données | Description |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Génomes humains de référence | Génomes humains de référence |
Annotations ClinVar | Annotations ClinVar |
SnpEff | SnpEff : Outils de prédiction d’effet fonctionnel et d’annotation de variantes génomiques |
gnomAD | gnomAD : Base de données d’agrégation du génome |
1 000 génomes | 1 000 génomes |
OpenCravat | OpenCravat : Kit de ressources open source pour l’analyse personnalisée des variantes |
ENCODE | ENCODE : Encyclopedia of DNA Elements |
Groupe de ressources GATK | Groupe de ressources GATK |
Données ouvertes TCGA | Données ouvertes TCGA |
Pan UK-Biobank | Pan UK-Biobank |
Base de données ImmuneCODE | Base de données ImmuneCODE |
Jeu de données Open Targets | Jeu de données Open Targets |
Étapes suivantes
Consultez les autres jeux de données du catalogue Open Datasets.