Genomics Data Lake

Genomics Data Lake tillhandahåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i dina genomikanalysarbetsflöden och program. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Genomics-datasjön hanteras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 och USA, västra centrala av tillhörighetsskäl.

Anteckning

Användning av datauppsättningar omfattas av villkor som angetts av datauppsättningsägarna. Se informationssidan för varje datauppsättning för tillämpliga villkor.

Datauppsättningar

Datauppsättningar Description
Illumina Platinum Genomes Illumina Platinum Genomes
Mänskligt referensgenom Mänskligt referensgenom
ClinVar-annoteringar ClinVar-annoteringar
SnpEff SnpEff: Verktygslåda för annoteringar av genomisk variant och förutsägelse av funktionseffekt
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Öppna Custom Ranked Analysis of Variants Toolkit
KODA ENCODE: Encyclopedia of DNA Elements
GATK-resurspaket GATK-resurspaket
Öppna TCGA-data Öppna TCGA-data
Pan UK-Biobank Panorera UK-Biobank

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datauppsättningar.