ClinVar Annotations
A ClinVar egy ingyenesen elérhető nyilvános archívum, amelyben jelentések találhatók az emberi fenotípusok változatai közötti összefüggésekről támogató bizonyítékokkal. Elérhetők benne a humán variációk és a megfigyelt egészségügyi állapotadatok közötti kapcsolatok és azok ismertetése, valamint az interpretációjuk története. Szélesebb körű klinikai interpretációkhoz nyújt hozzáférést, amelyeket be lehet építeni a genomikai munkafolyamatokba és az alkalmazásokba.
Az adatokkal kapcsolatos további információkért tekintse meg az adatszótárat és a gyakori kérdéseket.
Megjegyzés:
A Microsoft az Azure Open Datasets szolgáltatást "adott módon" biztosítja. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát vagy feltételeket az adathalmazok Ön általi használatára vonatkozóan. A microsoft a helyi jogszabályok által megengedett mértékben kizár minden felelősséget az adathalmazok használatából eredő károkért vagy veszteségekért, beleértve a közvetlen, következményi, különleges, közvetett, incidenses vagy büntető jellegű károkat is.
Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.
Adatforrás
Ez az adatkészlet a ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Adatkötetek és frissítés gyakorisága
Ez az adatkészlet körülbelül 56 GB méretű adatot tartalmaz, és naponta frissül.
Tárolási hely
Az adatkészlet tárolási helye az USA 2. nyugati régiója és az USA nyugati középső régiója. Az affinitás érdekében az USA 2. nyugati régióján és az USA nyugati középső régióján belüli számítási erőforrások lefoglalását javasoljuk.
Adathozzáférés
USA 2. nyugati régiója: "https://datasetclinvar.blob.core.windows.net/dataset"
USA nyugati középső régiója: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
SAS-jogkivonat: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Használati feltételek
Az adatok korlátozások nélkül felhasználhatók. További információ és idézet részletei: Adatok elérése és használata a ClinVarban.
Kapcsolat
Az adatkészletre vonatkozó bármilyen kérdés vagy visszajelzés esetén lépjen kapcsolatba a következővel clinvar@ncbi.nlm.nih.gov: .
Az adatok elérése
Azure Notebooks
A ClinVar-adatok lekérése az Azure Open Datasetből
Itt számos nyilvános genomikai adat lett feltöltve Azure Open Datasetként. Létrehozunk egy blobszolgáltatást, amely ehhez a nyitott adatkészlethez kapcsolódik. Az adathalmazhoz ClinVar
tartozó Azure Open Dataset adathívási eljárására az alábbiakban talál példákat:
A felhasználók a következő elérési utat hívhatják meg és tölthetik le ezzel a jegyzetfüzettel: ""https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5
Megjegyzés:
A felhasználóknak be kell jelentkezniük azure-fiókjukba az Azure CLI-vel, hogy megtekinthessék az adatokat az Azure ML SDK-val. Az adatok letöltéséhez azonban nincs szükség semmilyen műveletre.
Az Azure CLI telepítésével kapcsolatos további információkért lásd : Az Azure CLI telepítése
Az adatok meghívása a "ClinVar adatkészletből"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Az adott fájl letöltése
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
További lépések
Tekintse meg a többi adathalmazt az Open Datasets katalógusban.