Genomics Data Lake
Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.
Der Genomics Data Lake wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gehostet. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in die Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ empfohlen.
Hinweis
Die Nutzung von Datasets unterliegt den durch den Datasetbesitzer festgelegten Nutzungsbedingungen. Die geltenden Nutzungsbedingungen finden Sie auf der Detailseite der jeweiligen Datasets.
Datasets
Datasets | Beschreibung |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Menschliche Referenzgenome | Menschliche Referenzgenome |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: Toolbox für Genomvariantenanmerkungen und Vorhersagen der funktionalen Auswirkung |
gnomAD | gnomAD: Genome Aggregation Database |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit |
ENCODE | ENCODE: Enzyklopädie der DNA-Elemente |
GATK-Ressourcenpaket | GATK-Ressourcenpaket |
TCGA Open Data | TCGA Open Data |
Pan UK-Biobank | Pan UK-Biobank |
ImmuneCODE-Datenbank | ImmuneCODE-Datenbank |
Open Targets-Dataset | Open Targets-Dataset |
Nächste Schritte
Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.