Genomics Data Lake
A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyek ingyenesen elérhetők, és integrálhatók a genomikai elemzési munkafolyamatokba és alkalmazásokba. Az adathalmaz genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.
A Genomics Data Lake tárolási helye az USA 2. nyugati régiója és az USA nyugati középső régiója. Az affinitás érdekében az USA 2. nyugati régióján és az USA nyugati középső régióján belüli számítási erőforrások lefoglalását javasoljuk.
Megjegyzés
Az adathalmazok használatára az adathalmaz-tulajdonosok által meghatározott feltételek és kikötések vonatkoznak. A vonatkozó használati feltételekért tekintse meg az egyes adathalmazok részletes lapját.
Adathalmazok
Adathalmazok | Description |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Human Reference Genomes | Human Reference Genomes |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: variánsannotációhoz és hatás-előrejelzésre használható eszközkészlet |
gnomAD | gnomAD: Genome aggregációs adatbázis |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: Variánsok nyílt egyéni rangsorolású elemzésének eszközkészlete |
KÓDOLNI | ENCODE: Encyclopedia of DNA Elements |
GATK-erőforráscsomag | GATK-forráscsomag |
TCGA – Nyitott adatok | TCGA – Nyitott adatok |
Pan UK-Biobank | Pásztázási UK-Biobank |
Következő lépések
Tekintse meg a többi adathalmazt az Open Datasets katalógusban.