Genomica Data Lake

Genomica Data Lake offre vari set di dati pubblici che è possibile accedere gratuitamente e integrare nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.

Genomics Data Lake è ospitato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nelle aree Stati Uniti occidentali 2 e Stati Uniti centro-occidentali è consigliata per motivi di affinità.

Nota

L'uso dei set di dati è soggetto a condizioni e condizioni impostate dai proprietari del set di dati. Per i termini e le condizioni applicabili, vedere la pagina dei dettagli per ogni set di dati.

Set di dati

Set di dati Descrizione
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: strumenti per annotazioni di varianti genomiche e previsione di effetti funzionali
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Ranked Analysis of Variants Toolkit
ENCODE ENCODE: enciclopedia di elementi del DNA
Aggregazione di risorse GATK Bundle di risorse GATK

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo Open Datasets.