Genome Aggregation Database (gnomAD)
De Genome Aggregation Database (gnomAD) is een resource die is ontwikkeld door een internationale coalitie van onderzoekers, met als doel het samenvoegen en harmoniseren van zowel exome- als genoomsequentiegegevens uit een groot aantal grootschalige sequentieprojecten, en het beschikbaar maken van samenvattingsgegevens voor de bredere wetenschappelijke gemeenschap.
Notitie
Microsoft biedt Azure Open Datasets op een 'as is'-basis. Microsoft geeft geen garanties, expliciet of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover is toegestaan op grond van uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, met inbegrip van directe, gevolgschade, speciale, indirecte, incidentele of bestraffende, als gevolg van uw gebruik van de gegevenssets.
Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.
Gegevensbron
Deze gegevensset wordt gehost als een samenwerking met Broad Institute en de volledige gegevenscatalogus van gnomAD kan worden bekeken op https://gnomad.broadinstitute.org/downloads
Gegevensvolumes en updatefrequentie
Deze gegevensset bevat ongeveer 30 TB aan gegevens en wordt met elke versie van gnomAD bijgewerkt.
Opslaglocatie
Het opslagaccount waarin deze gegevensset wordt gehost, bevindt zich in de Azure-regio US - oost. Het wordt aanbevolen om rekenresources in US - oost toe te wijzen voor affiniteit.
Data Access
Opslagaccount: 'https://datasetgnomad.blob.core.windows.net/dataset/'
De gegevens zijn openbaar beschikbaar zonder beperkingen en het hulpprogramma AzCopy wordt aanbevolen voor bulkbewerkingen. Als u bijvoorbeeld de VCF's in versie 3.0 van gnomAD wilt weergeven:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Alle VCF's recursief downloaden:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NIEUW: Parquet-indeling van gnomAD v2.1.1 VCF-bestanden (exomen en genomen)
De Parquet-bestanden weergeven:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Alle Parquet-bestanden recursief downloaden:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Azure Storage Explorer is ook een handig hulpprogramma als u wilt bladeren in de lijst met bestanden in de versie van gnomAD.
Gebruiksrechtovereenkomst
De gegevens zijn zonder beperkingen beschikbaar. Zie de pagina gnomAD over voor meer informatie en bronvermeldingen.
Contactpersoon
Neem contact op met het gnomAD-team voor vragen of feedback over deze gegevensset.
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.