Human Reference Genomes

このデータセットには、Genome Reference Consortium によってアセンブルされた 2 つのヒトゲノム リファレンス (Hg19 と Hg38) が含まれています。

Hg19 (GRCh37) データの詳細については、NCBI の GRCh37 レポートをご覧ください。

Hg38 データの詳細については、NCBI の GRCh38 レポートをご覧ください。

データのその他の詳細情報については、NCBI RefSeq サイトをご覧ください。

注意

Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。

このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。

データ ソース

このデータセットのソースは次の 2 つの FTP の場所です。

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

BLOB 名には、"vertebrate_mammalian" で始まる URI セグメントのプレフィックスが付けられます。

データ量と更新の頻度

このデータセットには、約 10 GB のデータが含まれており、毎日更新されます。

保存先

このデータセットは、米国西部 2、米国中西部、米国中南部の Azure リージョンに格納されます。 アフィニティのため、米国西部 2、米国中西部、または米国中南部にコンピューティング リソースを割り当てることをお勧めします。

データ アクセス

米国西部 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset '

米国中西部: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset '

SAS トークン: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

米国中南部: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

SAS トークン: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

使用条件

データは制限なく使用できます。 詳細および引用の詳細については、NCBI Reference Sequence Database サイトを参照してください。

Contact

このデータセットに関する質問またはフィードバックについては、Genome Reference Consortium までご連絡ください。

データ アクセス

Azure Notebooks

Azure Open Datasets から Reference Genomes を取得する

いくつかの公開ゲノミクス データが Azure Open Dataset としてこちらにアップロードされています。 このオープン データセットにリンクされている Blob service を作成します。 Reference Genomes データセット用のデータを Azure Open Datasets から呼び出す手順の例を以下に示します。

ユーザーは、このノートブックを使用して次のパスを呼び出してダウンロードできます。'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt '

重要な注意事項: Azure ML SDK を使用してデータを表示するには、ユーザーは Azure CLI を使用して自分の Azure アカウントにログインする必要があります。 一方、データをダウンロードするためのアクションは必要ありません。

Azure CLI のインストールを実行します。

'Reference Genome Datasets' からデータを呼び出す

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

特定のファイルをダウンロードする

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

次の手順

Open Datasets カタログの残りのデータセットを表示します。