Genomics-data lake
De Genomics Data Lake biedt verschillende openbare gegevenssets die u gratis kunt openen en integreren in uw genomics-analysewerkstromen en -toepassingen. De gegevenssets bevatten genoomsequenties, variantgegevens en onderwerp-/sample-metagegevens in BAM-, FASTA-, VCF- en CSV-bestandsindelingen.
De Genomics Data Lake wordt gehost in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 en VS - west-centraal toe te wijzen voor affiniteit.
Notitie
Het gebruik van gegevenssets is onderhevig aan voorwaarden die zijn ingesteld door de eigenaren van de gegevensset. Zie de detailpagina voor elke gegevensset voor toepasselijke voorwaarden.
Gegevenssets
Gegevenssets | Beschrijving |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Menselijke referentiegenomen | Menselijke referentiegenomen |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: Genomische variantaantekeningen en functionele werkset voor effectvoorspelling |
gnomAD | gnomAD: Genoomaggregatiedatabase |
1000 genomen | 1000 genomen |
OpenCravat | OpenCravat: Aangepaste gerangschikte analyse van varianten-toolkit openen |
CODEREN | ENCODE: Encyclopedie van DNA-elementen |
GATK-resourcebundel | GATK-resourcebundel |
TCGA Open Data | TCGA Open Data |
Pan UK-Biobank | Pan UK-Biobank |
ImmuneCODE-database | ImmuneCODE-database |
Gegevensset Doelen openen | Gegevensset Doelen openen |
Volgende stappen
Bekijk de rest van de gegevenssets in de catalogus Open Datasets.