你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
ClinVar 注释
ClinVar 是一个可免费访问的公共存档,它对人类变异与相关疾病表型之间关系的报告进行存档,并提供支持证据。 它促进了对所谓的人类变异与观察到的健康状况之间关系的了解和交流,还促进了对这种解释的发展史的了解和交流。 通过它,可访问一组更广泛的临床解释,这些解释可整合到基因组工作流和应用程序中。
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数据源
此数据集是 ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/ 的镜像
数据量和更新频率
该数据集大约包含 56 GB 的数据,且每天都会更新。
存储位置
此数据集存储在 Azure 美国西部 2 和美国中西部区域。 为实现相关性,建议将计算资源分配到美国西部 2 或美国中西部区域。
数据访问
美国西部 2: https://datasetclinvar.blob.core.windows.net/dataset
美国中西部: https://datasetclinvar-secondary.blob.core.windows.net/dataset
SAS 令牌:sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
使用条款
可随意使用该数据。 有关详细信息和引文详细信息,请参阅访问和使用 ClinVar 中的数据。
联系人
有关此数据集的任何问题或反馈,请联系 clinvar@ncbi.nlm.nih.gov。
数据访问
Azure Notebooks
获取 Azure 开放数据集中的 ClinVar 数据
此处已上传多个公用基因组学数据作为 Azure 开放数据集。 我们将创建一个链接到此开放数据集的 Blob 服务。 在下面可以找到 Azure 开放数据集中 ClinVar
数据集的数据调用过程示例:
用户可以使用此笔记本调用和下载位于以下路径的数据: https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5
注意
用户需要通过 Azure CLI 登录到其 Azure 帐户,以使用 Azure ML SDK 查看数据。 另一方面,它们无需执行任何操作即可下载数据。
有关安装 Azure CLI 的详细信息,请参阅安装 Azure CLI
调用“ClinVar 数据集”中的数据
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
下载特定文件
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
后续步骤
查看开放数据集目录中的其余数据集。