Dela via


1000 Genomes

Genomes-projektet 1000 kördes mellan 2008 och 2015 och skapade den största offentliga katalogen med mänsklig variation och genotypdata. Den slutliga datauppsättningen innehåller data för 2 504 individer från 26 populationer och 84 miljoner identifierade varianter. Mer information finns på webbplatsen 1000 Genome Project och följande publikationer:

Pilotanalys: En karta över människans genomvariant från sekvensering i befolkningsskala Nature 467, 1061-1073 (28 oktober 2010)

Fas 1-analys: En integrerad karta över genetisk variation från 1 092 mänskliga genom Nature 491, 56-65 (01 november 2012)

Fas 3-analys: En global referens för mänsklig genetisk variation Nature 526, 68-74 (01 oktober 2015) och En integrerad karta över strukturell variation i 2 504 mänskliga genom Nature 526, 75-81 (01 oktober 2015)

Mer information om dataformat finns i http://www.internationalgenome.org/formats

[NY] datamängden är också tillgänglig i parquet-format

Kommentar

Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Data source

Den här datauppsättningen är en spegling av ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Datavolymer och uppdateringsfrekvens

Den här datamängden innehåller cirka 815 TB data och uppdateras dagligen.

Lagringsplats

Den här datamängden lagras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 eller USA, västra centrala av tillhörighetsskäl.

Dataåtkomst

USA, västra 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'

USA, västra centrala: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

SAS-token: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Dataåtkomst: Curated 1000 genomes datauppsättning i parquet-format

USA, östra: https://curated1000genomes.blob.core.windows.net/dataset

SAS-token: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Användningsvillkor

Efter de slutliga publikationerna är data från 1000 Genomes-projektet offentligt tillgängliga utan embargo för någon för användning enligt de villkor som tillhandahålls av datamängdskällan (http://www.internationalgenome.org/data). Användning av data bör citeras per informationen som finns i Vanliga frågor och svar i 1000 Genome Project.

Kontaktperson

https://www.internationalgenome.org/contact

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datamängder.