Data Lake di genomica

Data lake di Genomica offre vari set di dati pubblici a cui è possibile accedere gratuitamente e integrarsi nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.

Genomics Data Lake è ospitato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nelle aree Stati Uniti occidentali 2 e Stati Uniti centro-occidentali è consigliata per motivi di affinità.

Nota

L'uso dei set di dati è soggetto ai termini e alle condizioni impostati dai proprietari dei set di dati. Per i termini e le condizioni applicabili, vedere la pagina dei dettagli di ciascun set di dati.

Set di dati

Set di dati Descrizione
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: Annotazioni di varianti genomiche e casella degli strumenti per la previsione di effetti funzionali
gnomAD gnomAD: Genome Aggregation Database
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Aprire l'analisi personalizzata classificata di Variants Toolkit
ENCODE ENCODE: Enciclopedia degli elementi del DNA
Aggregazione di risorse GATK Aggregazione di risorse GATK
Dati aperti TCGA Dati aperti TCGA
Pan UK-Biobank Pan UK-Biobank

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.