Share via


Genomics Data Lake

Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.

Der Genomics Data Lake wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gehostet. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in die Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ empfohlen.

Hinweis

Die Nutzung von Datasets unterliegt den durch den Datasetbesitzer festgelegten Nutzungsbedingungen. Die geltenden Nutzungsbedingungen finden Sie auf der Detailseite der jeweiligen Datasets.

Datasets

Datasets Beschreibung
Illumina Platinum Genomes Illumina Platinum Genomes
Menschliche Referenzgenome Menschliche Referenzgenome
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: Toolbox für Genomvariantenanmerkungen und Vorhersagen der funktionalen Auswirkung
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit
ENCODE ENCODE: Enzyklopädie der DNA-Elemente
GATK-Ressourcenpaket GATK-Ressourcenpaket
TCGA Open Data TCGA Open Data
Pan UK-Biobank Pan UK-Biobank

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.