Datové jezero Genomics
Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete získat přístup zdarma a integrovat je do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.
Datové jezero Genomics je hostované v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad a USA – západ 2.
Poznámka:
Použití datových sad podléhá podmínkám a podmínkám nastaveným vlastníky datových sad. Podívejte se na stránku podrobností pro každou datovou sadu pro příslušné podmínky a ujednání.
Datové sady
Datové sady | Popis |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Lidské referenční genomy | Lidské referenční genomy |
Poznámky ClinVar | Poznámky ClinVar |
SnpEff | SnpEff: Sada nástrojů pro predikci variant genomických variant a funkčních efektů |
gnomAD | gnomAD: Databáze agregace genomu |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: Otevření vlastní seřazené analýzy sady variant toolkit |
ZAKÓDOVAT | KÓDOVÁNÍ: Encyklopedie prvků DNA |
Sada prostředků GATK | Sada prostředků GATK |
Otevřená data TCGA | Otevřená data TCGA |
Pan UK-Biobank | Pan UK-Biobank |
Databáze ImmuneCODE | Databáze ImmuneCODE |
Open Targets dataset | Open Targets dataset |
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.