Genomics Data Lake

Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete přistupovat zdarma a integrovat je do pracovních postupů a aplikací analýzy genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Datové jezero Genomics je hostované v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad a USA – západ 2.

Poznámka

Použití datových sad podléhá podmínkám a ujednáním nastaveným vlastníky datové sady. Podívejte se na stránku podrobností pro každou datovou sadu pro příslušné podmínky a ujednání.

Datové sady

Datové sady Description
Illumina Platinum Genomes Illumina Platinum Genomes
Lidské referenční genomy Lidské referenční genomy
Poznámky ClinVar Poznámky ClinVar
SnpEff SnpEff: Sada nástrojů pro predikci funkčních efektů a anotaci genomických variant
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
KÓDOVAT ENCODE: Encyclopedia of DNA Elements
Sada prostředků GATK Sada prostředků GATK

Další kroky

Zobrazte zbývající datové sady v katalogu Open Datasets.