Genomics Data Lake

De Genomics Data Lake biedt verschillende openbare gegevenssets die u gratis kunt openen en die u kunt integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.

De Genomics Data Lake wordt gehost in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 en VS - west-centraal toe te wijzen voor affiniteit.

Notitie

Het gebruik van gegevenssets is onderhevig aan voorwaarden die zijn ingesteld door de eigenaren van de gegevensset. Zie de detailpagina voor elke gegevensset voor de toepasselijke voorwaarden.

Gegevenssets

Gegevenssets Description
Illumina Platinum Genomes Illumina Platinum Genomes
Menselijke referentiegenomen Menselijke referentiegenomen
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: werkset voor genoomvariantannotaties en functionele effectvoorspelling
gnomAD gnomAD: Genoomaggregatiedatabase
1000 genomen 1000 genomen
OpenCravat OpenCravat: Open aangepaste geclassificeerde analyse van de variantentoolkit
CODEREN ENCODE: Encyclopedia of DNA Elements
GATK-resourcebundel GATK-resourcebundel
TCGA Open Data TCGA Open Data
Pan UK-Biobank Pan UK-Biobank

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Gegevenssets openen.