Menselijke referentiegenomen

Deze gegevensset bevat twee menselijke genoomverwijzingen die zijn samengesteld door het Genome Reference Consortium: Hg19 en Hg38.

Raadpleeg het GRCh37-rapport van NCBI voor meer informatie over de Hg19-gegevens (GRCh37).

Raadpleeg het GRCh38-rapport van NCBI voor meer informatie over de Hg38-gegevens.

Andere informatie over de gegevens kunt u vinden op de site NCBI RefSeq.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Gegevensbron

Deze gegevensset is afkomstig van twee FTP-locaties:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blobnamen worden voorafgegaan door het segment 'vertebrate_mammalian' van de URI.

Gegevensvolumes en updatefrequentie

Deze gegevensset bevat ongeveer 10 GB aan gegevens en wordt dagelijks bijgewerkt.

Opslaglocatie

Deze gegevensset wordt opgeslagen in de Azure-regio's VS - west-centraal 2, VS - west-centraal en VS - zuid-centraal. Het toewijzen van rekenresources in VS - west 2 of VS - west-centraal of VS - zuid-centraal wordt aanbevolen voor affiniteit.

Data Access

VS - west 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

VS - west-centraal: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

VS - zuid-centraal: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

SAS-token: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Gebruiksrechtovereenkomst

De gegevens zijn zonder beperkingen beschikbaar. Zie de site van de NCBI-referentiereeksdatabase voor meer informatie en bronvermeldingen.

Contactpersoon

Neem contact op met het Genome Reference Consortium voor vragen of feedback over deze gegevensset.

Toegang tot gegevens

Azure Notebooks

Referentie-genoom ophalen uit Azure Open Datasets

Hier zijn verschillende openbare genomics-gegevens geĆ¼pload als een Azure Open Dataset. We maken een blobservice die is gekoppeld aan deze geopende gegevensset. Hieronder vindt u voorbeelden van procedure voor het aanroepen van gegevens uit Azure Open Datasets voor Reference Genomes gegevenssets:

Gebruikers kunnen het volgende pad aanroepen en downloaden met dit notebook: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Belangrijke opmerking: gebruikers moeten zich aanmelden met hun Azure-account via Azure CLI voor het weergeven van de gegevens met de Azure ML SDK. Aan de andere kant hoeven ze geen acties uit te voeren om de gegevens te downloaden.

Installeer de Azure CLI.

De gegevens aanroepen vanuit 'Reference Genome Datasets'

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Het specifieke bestand downloaden

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.