Human Reference Genomes

Articolo
04/18/2024

Questo set di dati include due riferimenti al genoma umano assemblati dal Genome Reference Consortium: Hg19 e Hg38.

Per altre informazioni sui dati Hg19 (GRCh37), vedi il report su GRCh37 nel sito NCBI.

Per altre informazioni sui dati Hg38, vedi il report su GRCh38 nel sito NCBI.

Altri dettagli sui dati sono reperibili sul sito NCBI RefSeq.

Nota

Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia o condizione, espressa o implicita, in merito all'utilizzo dei set di dati. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativamente a danni o perdite commerciali, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.

Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.

Origine dati

Le origini di questo set di dati si trovano in due indirizzi FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

I nomi dei BLOB sono preceduti dal “prefisso vertebrate_mammalian” segmento dell'URI.

Volumi di dati e frequenza di aggiornamento

Questo set di dati contiene all'incirca 10 GB di dati e viene aggiornato quotidianamente.

Posizione di archiviazione

Questo set di dati viene archiviato nelle aree Stati Uniti occidentali 2, Stati Uniti centro-occidentali e Stati Uniti centro-meridionali di Azure. L'allocazione di risorse di calcolo negli Stati Uniti occidentali 2, Stati Uniti centro-occidentali o Stati Uniti centro-meridionali è consigliata per l'affinità.

Accesso ai dati

Stati Uniti occidentali 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

Stati Uniti centro-occidentali: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

Token di firma di accesso condiviso: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Stati Uniti centro-meridionali: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

Token SAS: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Condizioni per l'utilizzo

I dati sono disponibili senza restrizioni. Per altre informazioni e dettagli sulla citazione, vedere il sito NCBI Reference Sequence Database.

Contatto

Per eventuali domande o feedback su questo set di dati, contattare il Genome Reference Consortium.

Accesso ai dati

Azure Notebooks

azure-storage

Ottenere i genomi di riferimento dai set di dati aperti di Azure

Diversi dati pubblici relativi alla genomica sono stati caricati come set di dati aperti di Azure qui. Viene creato un servizio BLOB collegato a questo set di dati aperto. Di seguito sono riportati esempi di procedure di chiamata dei dati dal set di dati aperti di Azure per i set di dati Reference Genomes:

Gli utenti possono chiamare e scaricare il percorso seguente con questo notebook: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Nota importante: gli utenti devono accedere al proprio account Azure tramite l'interfaccia della riga di comando di Azure per visualizzare i dati con Azure ML SDK. D'altra parte, non è necessario eseguire alcuna azione per scaricare i dati.

Installare l'interfaccia della riga di comando di Azure

Chiamata dei dati da "Set di dati del genoma di riferimento"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Scaricare il file specifico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.

Share via

Human Reference Genomes

Origine dati

Volumi di dati e frequenza di aggiornamento

Posizione di archiviazione

Accesso ai dati

Condizioni per l'utilizzo

Contatto

Accesso ai dati

Azure Notebooks

Ottenere i genomi di riferimento dai set di dati aperti di Azure

Chiamata dei dati da "Set di dati del genoma di riferimento"

Scaricare il file specifico

Passaggi successivi

Risorse aggiuntive