Sdílet prostřednictvím


Datové jezero Genomics

Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete získat přístup zdarma a integrovat je do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Datové jezero Genomics je hostované v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad a USA – západ 2.

Poznámka:

Použití datových sad podléhá podmínkám a podmínkám nastaveným vlastníky datových sad. Podívejte se na stránku podrobností pro každou datovou sadu pro příslušné podmínky a ujednání.

Datové sady

Datové sady Popis
Illumina Platinum Genomes Illumina Platinum Genomes
Lidské referenční genomy Lidské referenční genomy
Poznámky ClinVar Poznámky ClinVar
SnpEff SnpEff: Sada nástrojů pro predikci variant genomických variant a funkčních efektů
gnomAD gnomAD: Databáze agregace genomu
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Otevření vlastní seřazené analýzy sady variant toolkit
ZAKÓDOVAT KÓDOVÁNÍ: Encyklopedie prvků DNA
Sada prostředků GATK Sada prostředků GATK
Otevřená data TCGA Otevřená data TCGA
Pan UK-Biobank Pan UK-Biobank
Databáze ImmuneCODE Databáze ImmuneCODE
Open Targets dataset Open Targets dataset

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.