ClinVar Annotations

A ClinVar egy ingyenesen elérhető nyilvános archívum, amelyben jelentések találhatók az emberi fenotípusok változatai közötti összefüggésekről támogató bizonyítékokkal. Elérhetők benne a humán variációk és a megfigyelt egészségügyi állapotadatok közötti kapcsolatok és azok ismertetése, valamint az interpretációjuk története. Szélesebb körű klinikai interpretációkhoz nyújt hozzáférést, amelyeket be lehet építeni a genomikai munkafolyamatokba és az alkalmazásokba.

Az adatokkal kapcsolatos további információkért tekintse meg az adatszótárat és a gyakori kérdéseket.

Megjegyzés:

A Microsoft az Azure Open Datasets szolgáltatást "adott módon" biztosítja. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát vagy feltételeket az adathalmazok Ön általi használatára vonatkozóan. A microsoft a helyi jogszabályok által megengedett mértékben kizár minden felelősséget az adathalmazok használatából eredő károkért vagy veszteségekért, beleértve a közvetlen, következményi, különleges, közvetett, incidenses vagy büntető jellegű károkat is.

Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.

Adatforrás

Ez az adatkészlet a ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Adatkötetek és frissítés gyakorisága

Ez az adatkészlet körülbelül 56 GB méretű adatot tartalmaz, és naponta frissül.

Tárolási hely

Az adatkészlet tárolási helye az USA 2. nyugati régiója és az USA nyugati középső régiója. Az affinitás érdekében az USA 2. nyugati régióján és az USA nyugati középső régióján belüli számítási erőforrások lefoglalását javasoljuk.

Adathozzáférés

USA 2. nyugati régiója: "https://datasetclinvar.blob.core.windows.net/dataset"

USA nyugati középső régiója: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"

SAS-jogkivonat: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Használati feltételek

Az adatok korlátozások nélkül felhasználhatók. További információ és idézet részletei: Adatok elérése és használata a ClinVarban.

Kapcsolat

Az adatkészletre vonatkozó bármilyen kérdés vagy visszajelzés esetén lépjen kapcsolatba a következővel clinvar@ncbi.nlm.nih.gov: .

Az adatok elérése

Azure Notebooks

A ClinVar-adatok lekérése az Azure Open Datasetből

Itt számos nyilvános genomikai adat lett feltöltve Azure Open Datasetként. Létrehozunk egy blobszolgáltatást, amely ehhez a nyitott adatkészlethez kapcsolódik. Az adathalmazhoz ClinVar tartozó Azure Open Dataset adathívási eljárására az alábbiakban talál példákat:

A felhasználók a következő elérési utat hívhatják meg és tölthetik le ezzel a jegyzetfüzettel: ""https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5

Megjegyzés:

A felhasználóknak be kell jelentkezniük azure-fiókjukba az Azure CLI-vel, hogy megtekinthessék az adatokat az Azure ML SDK-val. Az adatok letöltéséhez azonban nincs szükség semmilyen műveletre.

Az Azure CLI telepítésével kapcsolatos további információkért lásd : Az Azure CLI telepítése

Az adatok meghívása a "ClinVar adatkészletből"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Az adott fájl letöltése

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

További lépések

Tekintse meg a többi adathalmazt az Open Datasets katalógusban.