ClinVar Annotations
ClinVar は人間の差異と表現型の間の関係についてのレポートと、それを裏付ける証拠を集めた、自由にアクセスできる公開アーカイブです。 人間の差異と観察された健康状態との間で断定されている関係、およびその解釈の履歴に対するアクセスやコミュニケーションを支援します。 また、ゲノミクスのワークフローやアプリケーションに組み込むことができる、より幅広い臨床的解釈へのアクセスを提供します。
データの詳細については、「Data Dictionary」と「FAQ」を参照してください。
注意
Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。
このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。
データ ソース
このデータセットは、ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/ のミラーです
データ量と更新の頻度
このデータセットには、約 56 GB のデータが含まれており、毎日更新されます。
保存先
このデータセットは米国西部 2 および米国中西部 Azure リージョンに保存されています。 アフィニティのため、米国西部 2 または米国中西部にコンピューティング リソースを割り当てることをお勧めします。
データ アクセス
米国西部 2: 'https://datasetclinvar.blob.core.windows.net/dataset '
米国中西部: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset '
SAS トークン: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
使用条件
データは制限なく使用できます。 詳細および引用の詳細については、「Accessing and using data in ClinVar」を参照してください。
Contact
このデータセットに関する質問またはフィードバックについては、clinvar@ncbi.nlm.nih.gov にお問い合わせください。
データ アクセス
Azure Notebooks
Azure Open Dataset から ClinVar データを取得する
いくつかの公開ゲノミクス データが Azure Open Dataset としてこちらにアップロードされています。 このオープン データセットにリンクされている Blob service を作成します。 ClinVar
データセット用のデータを Azure Open Datasets から呼び出す手順の例を以下に示します。
ユーザーは、このノートブックを使用して次のパスを呼び出してダウンロードできます: "https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5"
注意
Azure ML SDK を使用してデータを表示するには、ユーザーは Azure CLI を使用して自分の Azure アカウントにログインする必要があります。 一方、データをダウンロードするためのアクションは必要ありません。
Azure CLI のインストールの詳細については、「Azure CLI のインストール」を参照してください。
'ClinVar Data Set' からのデータの呼び出し
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
特定のファイルをダウンロードする
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
次の手順
Open Datasets カタログの残りのデータセットを表示します。