Delen via


Genomics-data lake

De Genomics Data Lake biedt verschillende openbare gegevenssets die u gratis kunt openen en integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.

De Genomics Data Lake wordt gehost in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 en VS - west-centraal toe te wijzen voor affiniteit.

Notitie

Het gebruik van gegevenssets is onderhevig aan voorwaarden die zijn ingesteld door de eigenaren van de gegevensset. Zie de detailpagina voor elke gegevensset voor toepasselijke voorwaarden.

Gegevenssets

Gegevenssets Beschrijving
Illumina Platinum Genomes Illumina Platinum Genomes
Menselijke referentiegenomen Menselijke referentiegenomen
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: Genomische variantaantekeningen en functionele werkset voor effectvoorspelling
gnomAD gnomAD: Genoomaggregatiedatabase
1000 genomen 1000 genomen
OpenCravat OpenCravat: Aangepaste gerangschikte analyse van varianten-toolkit openen
CODEREN ENCODE: Encyclopedie van DNA-elementen
GATK-resourcebundel GATK-resourcebundel
TCGA Open Data TCGA Open Data
Pan UK-Biobank Pan UK-Biobank
ImmuneCODE-database ImmuneCODE-database
Gegevensset Doelen openen Gegevensset Doelen openen

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.