1000 genomen

Het 1000 Genoomproject liep tussen 2008 en 2015, waardoor de grootste openbare catalogus met menselijke variatie- en genotypegegevens werd gemaakt. De uiteindelijke gegevensset bevat gegevens van 2.504 individuen uit 26 populaties en 84 miljoen geïdentificeerde varianten. Zie de website van 1000 Genome Project en de volgende publicaties voor meer informatie:

Pilotanalyse: Een kaart van menselijke genoomvariatie van populatieschaalvolgorde natuur 467, 1061-1073 (28 oktober 2010)

Fase 1 Analyse: Een geïntegreerde kaart van genetische variatie uit 1.092 menselijke genomen Nature 491, 56-65 (01 november 2012)

Fase 3 Analyse: Een globale referentie voor menselijke genetische variatie Nature 526, 68-74 (01 oktober 2015) en een geïntegreerde kaart van structurele variatie in 2504 menselijke genomen Nature 526, 75-81 (01 oktober 2015)

Ga naar http://www.internationalgenome.org/formats voor meer informatie over gegevensindelingen

[NIEUW] de gegevensset is ook beschikbaar in parquet-indeling

Notitie

Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Gegevensbron

Deze gegevensset is een spiegel van ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Gegevensvolumes en updatefrequentie

Deze gegevensset bevat ongeveer 815 TB aan gegevens en wordt dagelijks bijgewerkt.

Opslaglocatie

Deze gegevensset is opgeslagen in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 of VS - west-centraal toe te wijzen voor affiniteit.

Data Access

VS - west 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'

VS - west-centraal: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'

SAS-token: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Data Access: Gecureerde gegevensset met 1000 genomen in parquet-indeling

VS - oost: https://curated1000genomes.blob.core.windows.net/dataset

SAS-token: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Gebruiksrechtovereenkomst

Na de laatste publicaties zijn gegevens uit het 1000 Genomes Project openbaar beschikbaar zonder embargo voor gebruik onder de voorwaarden van de gegevenssetbron (http://www.internationalgenome.org/data). Het gebruik van de gegevens moet worden vermeld volgens de details die beschikbaar zijn in de Veelgestelde vragen van het project 1000 genomen.

Contactpersoon

https://www.internationalgenome.org/contact

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.