Genomics Data Lake

A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyek ingyenesen elérhetők, és integrálhatók a genomikai elemzési munkafolyamatokba és alkalmazásokba. Az adathalmaz genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.

A Genomics Data Lake tárolási helye az USA 2. nyugati régiója és az USA nyugati középső régiója. Az affinitás érdekében az USA 2. nyugati régióján és az USA nyugati középső régióján belüli számítási erőforrások lefoglalását javasoljuk.

Megjegyzés

Az adathalmazok használatára az adathalmaz-tulajdonosok által meghatározott feltételek és kikötések vonatkoznak. A vonatkozó használati feltételekért tekintse meg az egyes adathalmazok részletes lapját.

Adathalmazok

Adathalmazok Description
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: variánsannotációhoz és hatás-előrejelzésre használható eszközkészlet
gnomAD gnomAD: Genome aggregációs adatbázis
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Variánsok nyílt egyéni rangsorolású elemzésének eszközkészlete
KÓDOLNI ENCODE: Encyclopedia of DNA Elements
GATK-erőforráscsomag GATK-forráscsomag
TCGA – Nyitott adatok TCGA – Nyitott adatok
Pan UK-Biobank Pásztázási UK-Biobank

Következő lépések

Tekintse meg a többi adathalmazt az Open Datasets katalógusban.