Genomics-data lake

Artikel
10/18/2024

De Genomics Data Lake biedt verschillende openbare gegevenssets die u gratis kunt openen en integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.

De Genomics Data Lake wordt gehost in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 en VS - west-centraal toe te wijzen voor affiniteit.

Notitie

Het gebruik van gegevenssets is onderhevig aan voorwaarden die zijn ingesteld door de eigenaren van de gegevensset. Zie de detailpagina voor elke gegevensset voor toepasselijke voorwaarden.

Gegevenssets

Gegevenssets	Beschrijving
Illumina Platinum Genomes	Illumina Platinum Genomes
Menselijke referentiegenomen	Menselijke referentiegenomen
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: Genomische variantaantekeningen en functionele werkset voor effectvoorspelling
gnomAD	gnomAD: Genoomaggregatiedatabase
1000 genomen	1000 genomen
OpenCravat	OpenCravat: Aangepaste gerangschikte analyse van varianten-toolkit openen
CODEREN	ENCODE: Encyclopedie van DNA-elementen
GATK-resourcebundel	GATK-resourcebundel
TCGA Open Data	TCGA Open Data
Pan UK-Biobank	Pan UK-Biobank
ImmuneCODE-database	ImmuneCODE-database
Gegevensset Doelen openen	Gegevensset Doelen openen

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.

Delen via

Genomics-data lake

Gegevenssets

Volgende stappen

Feedback

Aanvullende resources