你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

ClinVar 注释

2025-05-09

注意

重要更新 2025 年 5 月：亲爱的社区，我们希望通知你有关目前可通过 Azure 提供的基因组学开放数据集的即将更改。经过仔细考虑，我们决定将重点转移到新的举措，以更好地为社区服务，并符合我们的长期目标。因此，在未来几个月内将弃用对 Azure 上的基因组学开放数据集的访问。我们了解这些数据集对于研究、开发和学习很有价值，我们非常欣赏社区随时间推移的贡献和参与。感谢你的理解和支持。

ClinVar 资源是一个可免费访问的公共存档库，其中包含各种有关人类变异与表型之间的关系的报告（具有支持性证据）。它有助于了解和讨论人类变异与观察到的健康状况之间的已知关系，以及关于该解释的历史。它提供了一组可供研究人员纳入基因组学工作流和应用程序的更广泛临床解释。

有关这些数据的详细信息，请访问数据字典和常见问题解答资源。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保（明示或暗示）、保证或条件。在当地法律允许的范围内，Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任，包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。数据集可能包含来自 Microsoft 的数据。

数据源

此数据集是美国国家医学图书馆 ClinVar FTP 资源的镜像。 FTP 资源

FTP 概述

数据更新频率

此数据集每天都会接收更新。

存储位置

此数据集存储在 Azure 美国西部 2 和美国中西部区域。为实现相关性，我们建议将计算资源定位在美国西部 2 或美国中西部区域。

数据访问

美国西部 2：“https://datasetclinvar.blob.core.windows.net/dataset”

美国中西部：“https://datasetclinvar-secondary.blob.core.windows.net/dataset"；

使用条款

可随意使用该数据。有关详细信息和引文详细信息，请参阅访问和使用 ClinVar 中的数据。

联系人

有关此数据集的任何问题或反馈，请联系 clinvar@ncbi.nlm.nih.gov。

Azure Notebook

azure-storage

获取 Azure 开放数据集中的 ClinVar 数据

多个公共基因组学数据资源已作为此资源中介绍的 Azure 开放数据集上传。

调用“ClinVar 数据集”中的数据

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

下载特定文件

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

后续步骤

查看开放数据集目录中的其余数据集。