Data Lake di genomica

Articolo
04/19/2024

Data lake di Genomica offre vari set di dati pubblici a cui è possibile accedere gratuitamente e integrarsi nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.

Genomics Data Lake è ospitato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nelle aree Stati Uniti occidentali 2 e Stati Uniti centro-occidentali è consigliata per motivi di affinità.

Nota

L'uso dei set di dati è soggetto ai termini e alle condizioni impostati dai proprietari dei set di dati. Per i termini e le condizioni applicabili, vedere la pagina dei dettagli di ciascun set di dati.

Set di dati

Set di dati	Descrizione
Illumina Platinum Genomes	Illumina Platinum Genomes
Human Reference Genomes	Human Reference Genomes
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: Annotazioni di varianti genomiche e casella degli strumenti per la previsione di effetti funzionali
gnomAD	gnomAD: Genome Aggregation Database
1000 Genomes	1000 Genomes
OpenCravat	OpenCravat: Aprire l'analisi personalizzata classificata di Variants Toolkit
ENCODE	ENCODE: Enciclopedia degli elementi del DNA
Aggregazione di risorse GATK	Aggregazione di risorse GATK
Dati aperti TCGA	Dati aperti TCGA
Pan UK-Biobank	Pan UK-Biobank

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.

Data Lake di genomica

Set di dati

Passaggi successivi

Risorse aggiuntive