Genomics Data Lake

Artikel
09/22/2023

Genomics Data Lake tillhandahåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i dina genomikanalysarbetsflöden och program. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Genomics-datasjön hanteras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 och USA, västra centrala av tillhörighetsskäl.

Anteckning

Användning av datauppsättningar omfattas av villkor som angetts av datauppsättningsägarna. Se informationssidan för varje datauppsättning för tillämpliga villkor.

Datauppsättningar

Datauppsättningar	Description
Illumina Platinum Genomes	Illumina Platinum Genomes
Mänskligt referensgenom	Mänskligt referensgenom
ClinVar-annoteringar	ClinVar-annoteringar
SnpEff	SnpEff: Verktygslåda för annoteringar av genomisk variant och förutsägelse av funktionseffekt
gnomAD	gnomAD: Genome Aggregation Database
1000 Genomes	1000 Genomes
OpenCravat	OpenCravat: Öppna Custom Ranked Analysis of Variants Toolkit
KODA	ENCODE: Encyclopedia of DNA Elements
GATK-resurspaket	GATK-resurspaket
Öppna TCGA-data	Öppna TCGA-data
Pan UK-Biobank	Panorera UK-Biobank

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datauppsättningar.

Dela via

Genomics Data Lake

Datauppsättningar

Nästa steg

Feedback

Feedback

Ytterligare resurser