ClinVar Annotations

ClinVar — это общедоступный государственный архив с отчетами о взаимосвязях между вариациями человеческого генома и фенотипами человека с подтверждающими данными. Он позволяет получить доступ к данным об установленных взаимосвязях между вариациями человеческого генома и наблюдаемым состоянием здоровья, а также об истории этих интерпретаций и предоставляет средства для передачи таких данных. В архиве содержится обширный набор клинических интерпретаций, которые можно включить в рабочие процессы и приложения геномики.

Дополнительные сведения о данных см. в разделах Словарь данных и Часто задаваемые вопросы.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Источник данных

Этот набор данных является зеркальной копией ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Объемы данных и частота обновления

Этот набор данных содержит примерно 56 ГБ данных и обновляется ежедневно.

Расположение хранилища

Этот набор данных хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Западная часть США 2" или "Центрально-западная часть США".

Доступ к данным

Западная часть США 2: https://datasetclinvar.blob.core.windows.net/dataset

Центрально-западная часть США: https://datasetclinvar-secondary.blob.core.windows.net/dataset

Маркер SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Условия использования

Доступ к данным предоставляется без ограничений. Дополнительные сведения и сведения для цитирования см. в разделе Доступ к данным в ClinVar и их использование.

Контакт

Со всеми вопросами и отзывами об этом наборе данных обращайтесь по адресу clinvar@ncbi.nlm.nih.gov.

Доступ к данным

Записные книжки Azure

Получение данных ClinVar из открытого набора данных Azure

Несколько общедоступных наборов данных геномики были отправлены в виде открытого набора данных Azure. Сведения о них приведены здесь. Мы создадим службу BLOB-объектов, связанную с этим открытым набором данных. Ниже приведены примеры процедуры вызова данных из открытого набора данных Azure для набора данных ClinVar.

Пользователи могут обратиться по следующему пути, чтобы скачать эту записную книжку: https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5.

Примечание.

Пользователям необходимо войти в учетную запись Azure с помощью Azure CLI для просмотра данных с помощью пакета SDK для Машинного обучения Azure. С другой стороны, для скачивания данных никаких действий не требуется.

Дополнительные сведения об установке Azure CLI см. в статье Установка Azure CLI.

Вызов данных из "Набора данных ClinVar"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Скачивание определенного файла

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.