Genomaggregationsdatenbank (gnomAD)

2025-05-12

Hinweis

Wichtiges Update Mai 2025: Liebe Community, wir möchten Sie über eine bevorstehende Änderung bezüglich der offenen Datasets von Genomics informieren, die derzeit über Azure verfügbar sind. Nach sorgfältiger Überlegung haben wir beschlossen, unseren Fokus auf neue Initiativen zu setzen, um unserer Gemeinschaft besser zu dienen und mit unseren langfristigen Zielen übereinzustimmen. Der Zugriff auf die offenen Genomics-Datasets in Azure wird in den kommenden Monaten eingestellt. Wir verstehen, dass diese Datasets für Forschung, Entwicklung und Lernen wertvoll waren, und wir schätzen die Beiträge und das Engagement unserer Community im Laufe der Zeit sehr. Vielen Dank für Ihr Verständnis und Ihre Unterstützung.

Genome Aggregation Database (gnomAD) ist eine von einem internationalen Forscherzusammenschluss entwickelte Ressource. Sie dient dem Zweck, Exom- und Genomsequenzierungsdaten aus zahlreichen großen Sequenzierungsprojekten zu aggregieren, zu vereinheitlichen und der Wissenschaft in zusammengefasster Form zur Verfügung zu stellen.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Datenquelle

Dieses Dataset wird in Zusammenarbeit mit dem Broad Institute gehostet. Den vollständigen gnomAD-Datenkatalog finden Sie unter https://gnomad.broadinstitute.org/downloads.

Datenvolumes und Aktualisierungshäufigkeit

Dieses Dataset enthält etwa 30 TB Daten und wird mit jedem gnomAD-Release aktualisiert.

Speicherort

Das Speicherkonto für dieses Dataset befindet sich in der Azure-Region „USA, Osten“. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in der Region „USA, Osten“ empfohlen.

Datenzugriff

Speicherkonto: https://datasetgnomad.blob.core.windows.net/dataset/

Diese Daten sind uneingeschränkt öffentlich verfügbar, und für Massenvorgänge wird das Tool „AzCopy“ empfohlen. So zeigen Sie beispielsweise die VCF-Dateien im Release 3.0 von gnomAD an:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

So laden Sie alle VCF-Dateien rekursiv herunter:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NEU: Parquet-Format von gnomAD v2.1.1-VCF-Dateien (Exome und Genome)

So zeigen Sie die Parquet-Dateien an

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

So laden Sie alle Parquet-Dateien rekursiv herunter

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Der Azure Storage-Explorer ist zum Durchsuchen der Dateiliste im gnomAD-Release ebenfalls nützlich.

Nutzungsbedingungen

Die Daten stehen uneingeschränkt zur Verfügung. Weitere Informationen und Zitatdetails finden Sie auf der Infoseite zu gnomAD.

Kontakt

Bei Fragen oder Feedback zu diesem Dataset wenden Sie sich an das gnomAD-Team.

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.