Share via


ClinVar Annotations

ClinVar è un archivio pubblico, accessibile gratuitamente, di report sulle relazioni tra varianti umane e fenotipi, con elementi di prova a supporto. Facilita l'accesso e le comunicazioni sulle relazioni asserite tra varianti umane e stato di salute osservato, oltre che sulla storia di tale interpretazione. Offre l'accesso a un set più ampio di interpretazioni cliniche che possono essere incorporate nei flussi di lavoro e nelle applicazioni di genomica.

Per altre informazioni sui dati, vedere Dizionario dei dati e Domande frequenti.

Nota

Microsoft fornisce i set di dati aperti di Azure "così come sono". Microsoft non fornisce alcuna garanzia, espressa o implicita, né alcuna condizione in merito all'uso dei set di dati da parte dell'utente. Nella misura consentita dalle leggi locali, Microsoft declina ogni responsabilità per eventuali danni o perdite, inclusi danni diretti, consequenziali, particolari, indiretti, accidentali o indennizzi, derivanti dall'uso dei set di dati da parte dell'utente.

Questo set di dati viene fornito in conformità con le condizioni originali in base alle quali Microsoft ha ricevuto i dati di origine. Il set di dati potrebbe includere dati provenienti da Microsoft.

Origine dati

Questo set di dati è un mirroring di ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Volumi di dati e frequenza di aggiornamento

Questo set di dati contiene all'incirca 56 GB di dati e viene aggiornato quotidianamente.

Posizione di archiviazione

Questo set di dati è archiviato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nell'area Stati Uniti occidentali 2 o Stati Uniti centro-occidentali è consigliata per motivi di affinità.

Accesso ai dati

Stati Uniti occidentali 2: 'https://datasetclinvar.blob.core.windows.net/dataset'

Stati Uniti centro-occidentali: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset'

Token di firma di accesso condiviso: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Condizioni per l'utilizzo

I dati sono disponibili senza restrizioni. Per altre informazioni e dettagli sulla citazione, vedere Accesso e uso dei dati in ClinVar.

Contatto

Per eventuali domande o feedback sul set di dati, contattare clinvar@ncbi.nlm.nih.gov.

Accesso ai dati

Azure Notebooks

Recupero dei dati di ClinVar dai set di dati aperti di Azure

Diversi dati genomici pubblici sono stati caricati come set di dati aperti di Azure qui. Viene creato un servizio BLOB collegato a questo set di dati aperto. Di seguito sono riportati esempi di procedure di chiamata ai dati dal set di dati aperto di Azure per i set di dati ClinVar seguenti:

Gli utenti possono chiamare e scaricare il percorso seguente con questo notebook: 'https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5'

Nota

Gli utenti devono accedere al proprio account Azure tramite l'interfaccia della riga di comando di Azure per visualizzare i dati con Azure ML SDK. D'altra parte, non è necessario eseguire alcuna azione per scaricare i dati.

Per altre informazioni sull'installazione dell'interfaccia della riga di comando di Azure, vedere Installare l'interfaccia della riga di comando di Azure

Chiamata dei dati dal 'Set di dati di ClinVar'

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Scaricare il file specifico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Passaggi successivi

Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.