Genome Aggregation Database (gnomAD)

De Genome Aggregation Database (gnomAD) is een resource die is ontwikkeld door een internationale coalitie van onderzoekers, met als doel het samenvoegen en harmoniseren van zowel exome- als genoomsequentiegegevens uit een groot aantal grootschalige sequentieprojecten, en het beschikbaar maken van samenvattingsgegevens voor de bredere wetenschappelijke gemeenschap.

Notitie

Microsoft biedt Azure Open Datasets op een 'as is'-basis. Microsoft geeft geen garanties, expliciet of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover is toegestaan op grond van uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, met inbegrip van directe, gevolgschade, speciale, indirecte, incidentele of bestraffende, als gevolg van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Gegevensbron

Deze gegevensset wordt gehost als een samenwerking met Broad Institute en de volledige gegevenscatalogus van gnomAD kan worden bekeken op https://gnomad.broadinstitute.org/downloads

Gegevensvolumes en updatefrequentie

Deze gegevensset bevat ongeveer 30 TB aan gegevens en wordt met elke versie van gnomAD bijgewerkt.

Opslaglocatie

Het opslagaccount waarin deze gegevensset wordt gehost, bevindt zich in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.

Data Access

Opslagaccount: 'https://datasetgnomad.blob.core.windows.net/dataset/'

De gegevens zijn openbaar beschikbaar zonder beperkingen en het hulpprogramma AzCopy wordt aanbevolen voor bulkbewerkingen. Als u bijvoorbeeld de VCF's in versie 3.0 van gnomAD wilt weergeven:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Alle VCF's recursief downloaden:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NIEUW: Parquet-indeling van gnomAD v2.1.1 VCF-bestanden (exomen en genomen)

De Parquet-bestanden weergeven:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Alle Parquet-bestanden recursief downloaden:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Azure Storage Explorer is ook een handig hulpprogramma als u wilt bladeren in de lijst met bestanden in de versie van gnomAD.

Gebruiksrechtovereenkomst

De gegevens zijn zonder beperkingen beschikbaar. Zie de pagina gnomAD over voor meer informatie en bronvermeldingen.

Contactpersoon

Neem contact op met het gnomAD-team voor vragen of feedback over deze gegevensset.

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.