ClinVar Annotations

ClinVar is een gratis toegankelijk, openbaar archief met rapporten van de relaties tussen menselijke variaties en fenotypen, samen met ondersteunend bewijs. Dit archief faciliteert toegang tot en communicatie over de relaties tussen menselijke variaties en de geobserveerde gezondheidsstatus, en de geschiedenis van die interpretatie. Ook wordt hiermee toegang geboden tot een bredere set klinische interpretaties die in genomicawerkstromen en -toepassingen kunnen worden opgenomen.

Zie de gegevenswoordenlijst en veelgestelde vragen voor meer informatie over de gegevens.

Notitie

Microsoft biedt Azure Open Datasets op basis van 'zoals is'. Microsoft geeft geen garanties, uitdrukkelijk of impliciet, garanties of voorwaarden met betrekking tot uw gebruik van de gegevenssets. Voor zover toegestaan volgens uw lokale wetgeving, wijst Microsoft alle aansprakelijkheid af voor eventuele schade of verliezen, waaronder directe, gevolgschade, speciale, indirecte, incidentele of strafbare gegevenssets, die het gevolg zijn van uw gebruik van de gegevenssets.

Deze gegevensset wordt geleverd onder de oorspronkelijke voorwaarden dat Microsoft de brongegevens heeft ontvangen. De gegevensset kan gegevens bevatten die afkomstig zijn van Microsoft.

Gegevensbron

Deze gegevensset is een spiegel van ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Gegevensvolumes en updatefrequentie

Deze gegevensset bevat ongeveer 56 GB aan gegevens en wordt dagelijks bijgewerkt.

Opslaglocatie

Deze gegevensset is opgeslagen in de Azure-regio's US - west 2 en VS - west-centraal. Het wordt aanbevolen om rekenresources in US - west 2 of VS - west-centraal toe te wijzen voor affiniteit.

Data Access

VS - west 2: 'https://datasetclinvar.blob.core.windows.net/dataset'

VS - west-centraal: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset'

SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Gebruiksrechtovereenkomst

De gegevens zijn zonder beperkingen beschikbaar. Zie Gegevens openen en gebruiken in ClinVar voor meer informatie en informatie over bronvermeldingen.

Contactpersoon

Neem voor vragen of feedback over deze gegevensset contact op clinvar@ncbi.nlm.nih.gov.

Toegang tot gegevens

Azure Notebooks

De ClinVar-gegevens ophalen uit Azure Open Dataset

Hier zijn verschillende openbare genomics-gegevens geĆ¼pload als een Azure Open Dataset. We maken een blobservice die is gekoppeld aan deze geopende gegevensset. Hieronder vindt u voorbeelden van de procedure voor het aanroepen van gegevens uit Azure Open Dataset voor ClinVar gegevensset:

Gebruikers kunnen het volgende pad aanroepen en downloaden met dit notebook: 'https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5'

Notitie

Gebruikers moeten zich aanmelden met hun Azure-account via Azure CLI om de gegevens weer te geven met de Azure ML SDK. Aan de andere kant hoeven ze geen acties uit te voeren om de gegevens te downloaden.

Zie De Azure CLI installeren voor meer informatie over het installeren van de Azure CLI

De gegevens aanroepen vanuit de ClinVar-gegevensset

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Het specifieke bestand downloaden

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Volgende stappen

Bekijk de rest van de gegevenssets in de catalogus Open Datasets.