ClinVar Annotations

O ClinVar é um arquivo público de acesso gratuito que guarda os relatórios das relações entre as variações e os fenótipos humanos, com indícios científicos que os sustentam. Este arquivo facilita o acesso às relações, bem como a comunicação acerca das mesmas, estabelecidas entre a variação humana e o estado de saúde observado, além do histórico dessa interpretação. Também dá acesso a um conjunto mais amplo de interpretações clínicas que podem ser incorporadas nos fluxos de trabalho e aplicações de genómica.

Para obter mais informações sobre os dados, consulte o Dicionário de dados e as perguntas frequentes.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Data source

Este conjunto de dados é um espelho de ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 56 GB de dados e é atualizado diariamente.

Localização do armazenamento

Este conjunto de dados está armazenado nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste do Azure. A alocação de recursos de computação nas regiões E.U.A. Oeste 2 ou E.U.A. Centro-Oeste é recomendada por questões de afinidade.

Acesso a Dados

Oeste dos EUA 2: ''https://datasetclinvar.blob.core.windows.net/dataset

Centro-Oeste dos EUA: ''https://datasetclinvar-secondary.blob.core.windows.net/dataset

Token de SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Termos de Utilização

Os dados estão disponíveis sem restrições. Mais informações e detalhes da citação, consulte Acesso e uso de dados no ClinVar.

Contacto

Para quaisquer perguntas ou comentários sobre este conjunto de dados, entre em contato com clinvar@ncbi.nlm.nih.gov.

Acesso a dados

Azure Notebooks

Obtendo os dados ClinVar do Conjunto de Dados Abertos do Azure

Vários dados de genómica pública foram carregados como um conjunto de dados abertos do Azure aqui. Criamos um serviço de blob vinculado a esse conjunto de dados aberto. Você pode encontrar exemplos de procedimento de chamada de dados do Azure Open Dataset for ClinVar dataset abaixo:

Os usuários podem chamar e baixar o seguinte caminho com este bloco de anotações: ''https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5

Nota

Os usuários precisam fazer logon em sua Conta do Azure por meio da CLI do Azure para exibir os dados com o SDK do Azure ML. Por outro lado, eles não precisam fazer nenhuma ação para baixar os dados.

Para obter mais informações sobre como instalar a CLI do Azure, consulte Instalar a CLI do Azure

Chamando os dados do 'ClinVar Data Set'

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Descarregar o ficheiro específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.