Human Reference Genomes
Questo set di dati include due riferimenti al genoma umano assemblati dal Genome Reference Consortium: Hg19 e Hg38.
Per altre informazioni sui dati Hg19 (GRCh37), vedi il report su GRCh37 nel sito NCBI.
Per altre informazioni sui dati Hg38, vedi il report su GRCh38 nel sito NCBI.
Altri dettagli sui dati sono reperibili sul sito NCBI RefSeq.
Nota
Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia o condizione, espressa o implicita, in merito all'utilizzo dei set di dati. Nella misura massima consentita dalle leggi locali, Microsoft non riconosce alcuna responsabilità relativamente a danni o perdite commerciali, inclusi i danni diretti, consequenziali, speciali, indiretti, incidentali o punitivi derivanti dall'uso dei set di dati da parte dell'utente.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Origine dati
Le origini di questo set di dati si trovano in due indirizzi FTP:
I nomi dei BLOB sono preceduti dal “prefisso vertebrate_mammalian” segmento dell'URI.
Volumi di dati e frequenza di aggiornamento
Questo set di dati contiene all'incirca 10 GB di dati e viene aggiornato quotidianamente.
Posizione di archiviazione
Questo set di dati viene archiviato nelle aree Stati Uniti occidentali 2, Stati Uniti centro-occidentali e Stati Uniti centro-meridionali di Azure. L'allocazione di risorse di calcolo negli Stati Uniti occidentali 2, Stati Uniti centro-occidentali o Stati Uniti centro-meridionali è consigliata per l'affinità.
Accesso ai dati
Stati Uniti occidentali 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'
Stati Uniti centro-occidentali: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'
Token di firma di accesso condiviso: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D
Stati Uniti centro-meridionali: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
Token SAS: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D
Condizioni per l'utilizzo
I dati sono disponibili senza restrizioni. Per altre informazioni e dettagli sulla citazione, vedere il sito NCBI Reference Sequence Database.
Contatto
Per eventuali domande o feedback su questo set di dati, contattare il Genome Reference Consortium.
Accesso ai dati
Azure Notebooks
Ottenere i genomi di riferimento dai set di dati aperti di Azure
Diversi dati pubblici relativi alla genomica sono stati caricati come set di dati aperti di Azure qui. Viene creato un servizio BLOB collegato a questo set di dati aperto. Di seguito sono riportati esempi di procedure di chiamata dei dati dal set di dati aperti di Azure per i set di dati Reference Genomes
:
Gli utenti possono chiamare e scaricare il percorso seguente con questo notebook: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'
Nota importante: gli utenti devono accedere al proprio account Azure tramite l'interfaccia della riga di comando di Azure per visualizzare i dati con Azure ML SDK. D'altra parte, non è necessario eseguire alcuna azione per scaricare i dati.
Installare l'interfaccia della riga di comando di Azure
Chiamata dei dati da "Set di dati del genoma di riferimento"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Scaricare il file specifico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.