Genomics Data Lake

Artikel
10/21/2024

Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.

Der Genomics Data Lake wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gehostet. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in die Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ empfohlen.

Hinweis

Die Nutzung von Datasets unterliegt den durch den Datasetbesitzer festgelegten Nutzungsbedingungen. Die geltenden Nutzungsbedingungen finden Sie auf der Detailseite der jeweiligen Datasets.

Datasets

Datasets	Beschreibung
Illumina Platinum Genomes	Illumina Platinum Genomes
Menschliche Referenzgenome	Menschliche Referenzgenome
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: Toolbox für Genomvariantenanmerkungen und Vorhersagen der funktionalen Auswirkung
gnomAD	gnomAD: Genome Aggregation Database
1000 Genomes	1000 Genomes
OpenCravat	OpenCRAVAT: Open Custom Ranked Analysis of Variants Toolkit
ENCODE	ENCODE: Enzyklopädie der DNA-Elemente
GATK-Ressourcenpaket	GATK-Ressourcenpaket
TCGA Open Data	TCGA Open Data
Pan UK-Biobank	Pan UK-Biobank
ImmuneCODE-Datenbank	ImmuneCODE-Datenbank
Open Targets-Dataset	Open Targets-Dataset

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.

Freigeben über

Genomics Data Lake

Datasets

Nächste Schritte

Feedback

Zusätzliche Ressourcen