1000 Genomes

2025-05-12

Hinweis

Wichtiges Update Mai 2025: Liebe Community, wir möchten Sie über eine bevorstehende Änderung bezüglich der offenen Datasets von Genomics informieren, die derzeit über Azure verfügbar sind. Nach sorgfältiger Überlegung haben wir beschlossen, unseren Fokus auf neue Initiativen zu setzen, um unserer Gemeinschaft besser zu dienen und mit unseren langfristigen Zielen übereinzustimmen. Der Zugriff auf die offenen Genomics-Datasets in Azure wird in den kommenden Monaten eingestellt. Wir verstehen, dass diese Datasets für Forschung, Entwicklung und Lernen wertvoll waren, und wir schätzen die Beiträge und das Engagement unserer Community im Laufe der Zeit sehr. Vielen Dank für Ihr Verständnis und Ihre Unterstützung.

Im Rahmen des von 2008 bis 2015 durchgeführten 1000 Genomes Project entstand der größte öffentliche Katalog mit Daten zu menschlichen Variationen und Genotypdaten. Das finale Dataset enthält Daten zu 2.504 Personen aus 26 Populationen sowie 84 Millionen identifizierten Varianten. Weitere Informationen finden Sie auf der Website zum 1000 Genomes Project sowie in diesen Veröffentlichungen:

Pilot Analysis: A map of human genome variation from population-scale sequencing, Nature 467, 1061-1073 (28. Oktober 2010)

Phase 1 Analysis: An integrated map of genetic variation from 1,092 human genomes, Nature 491, 56-65 (1. November 2012)

Phase 3 Analysis: A global reference for human genetic variation, Nature 526, 68-74 (1. Oltober 2015) und An integrated map of structural variation in 2,504 human genomes, Nature 526, 75-81

Besuchen Sie diese Ressource, um weitere Informationen zu den relevanten Datenformaten zu finden.

[NEU]: Das Dataset ist auch im Parquet-Format verfügbar.

Hinweis

Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.

Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.

Datenquelle

Dieses Dataset ist ein Spiegel von dieser FTP-Ressource.

Datenvolumes und Aktualisierungshäufigkeit

Dieses Dataset enthält ungefähr 815 GB Daten. Es erhält tägliche Updates.

Speicherort

Dieses Dataset wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in den Regionen „USA, Westen 2“ oder „USA, Westen-Mitte“ empfohlen.

Datenzugriff

USA, Westen 2: „https://dataset1000genomes.blob.core.windows.net/dataset“

USA, Westen-Mitte: „https://dataset1000genomes-secondary.blob.core.windows.net/dataset"“

Nutzungsbedingungen

Seit den abschließenden Veröffentlichungen sind die Daten aus dem 1000 Genomes Project öffentlich verfügbar und können von jedem gemäß den in der Datasetquelle angegebenen Bedingungen genutzt werden. Bei der Verwendung der Daten sollten die Quellenangaben den Details folgen, die im FAQ-Ressource des 1000 Genomes Project verfügbar sind.

Kontakt

Scrollen Sie bei dieser Ressource nach unten, um die Kontaktinformationen zu finden.

Nächste Schritte

Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.