ClinVar Annotations
ClinVar è un archivio pubblico, accessibile gratuitamente, di report sulle relazioni tra varianti umane e fenotipi, con elementi di prova a supporto. Facilita l'accesso e le comunicazioni sulle relazioni asserite tra varianti umane e stato di salute osservato, oltre che sulla storia di tale interpretazione. Offre l'accesso a un set più ampio di interpretazioni cliniche che possono essere incorporate nei flussi di lavoro e nelle applicazioni di genomica.
Per altre informazioni sui dati, vedere Dizionario dei dati e Domande frequenti.
Nota
Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia, espressa o implicita, né alcuna condizione in merito all'uso dei set di dati da parte dell'utente. Nella misura consentita dalle leggi locali, Microsoft declina ogni responsabilità per eventuali danni o perdite, inclusi danni diretti, consequenziali, particolari, indiretti, accidentali o indennizzi, derivanti dall'uso dei set di dati da parte dell'utente.
Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.
Origine dati
Questo set di dati è un mirroring di ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Volumi di dati e frequenza di aggiornamento
Questo set di dati contiene all'incirca 56 GB di dati e viene aggiornato quotidianamente.
Posizione di archiviazione
Questo set di dati è archiviato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nell'area Stati Uniti occidentali 2 o Stati Uniti centro-occidentali è consigliata per motivi di affinità.
Accesso ai dati
Stati Uniti occidentali 2: 'https://datasetclinvar.blob.core.windows.net/dataset'
Stati Uniti centro-occidentali: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset'
Token di firma di accesso condiviso: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Condizioni per l'utilizzo
I dati sono disponibili senza restrizioni. Per altre informazioni e dettagli sulla citazione, vedere Accesso e uso dei dati in ClinVar.
Contatto
Per eventuali domande o feedback sul set di dati, contattare clinvar@ncbi.nlm.nih.gov.
Accesso ai dati
Azure Notebooks
Recupero dei dati di ClinVar dai set di dati aperti di Azure
Diversi dati genomici pubblici sono stati caricati come set di dati aperti di Azure qui. Viene creato un servizio BLOB collegato a questo set di dati aperto. Di seguito sono riportati esempi di procedure di chiamata ai dati dal set di dati aperto di Azure per i set di dati ClinVar
seguenti:
Gli utenti possono chiamare e scaricare il percorso seguente con questo notebook: 'https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5'
Nota
Gli utenti devono accedere al proprio account Azure tramite l'interfaccia della riga di comando di Azure per visualizzare i dati con Azure ML SDK. D'altra parte, non è necessario eseguire alcuna azione per scaricare i dati.
Per altre informazioni sull'installazione dell'interfaccia della riga di comando di Azure, vedere Installare l'interfaccia della riga di comando di Azure
Chiamata dei dati dal 'Set di dati di ClinVar'
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Scaricare il file specifico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.