你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

人类参考基因组

此数据集包括由基因组参考联盟汇编的两个人类基因组参考:Hg19 和 Hg38。

要详细了解 Hg19 (GRCh37) 数据,请参阅 NCBI 中的 GRCh37 报告

要详细了解 Hg38 数据,请参阅 NCBI 中的 GRCh38 报告

有关该数据的其他详细信息,可访问 NCBI RefSeq 网站。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数据源

该数据集来源于两个 FTP 位置:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blob 名称的前缀开头是 URI 的“vertebrate_mammalian”段。

数据量和更新频率

该数据集大约包含 10 GB 的数据,且每天都会更新。

存储位置

此数据集存储在美国西部 2、美国中西部和美国中南部 Azure 区域。 为实现相关性,建议将计算资源分配到美国西部 2 或美国中西部或美国中南部区域。

数据访问

美国西部 2: https://datasetreferencegenomes.blob.core.windows.net/dataset

美国中西部: https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset

SAS 令牌:sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

美国中南部:https://datasetreferencegenomesc.blob.core.windows.net/dataset

SAS 令牌:sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

使用条款

可随意使用该数据。 有关详细信息和引文的详细信息,请参阅 NCBI 参考序列数据库站点

联系人

有关此数据集的任何问题或反馈,请联系基因组参考联盟

数据访问

Azure Notebooks

从 Azure 开放数据集获取参考基因组

此处已上传多个公用基因组学数据作为 Azure 开放数据集。 我们将创建一个链接到此开放数据集的 blob 服务。 在下面可以找到 Azure 开放数据集中 Reference Genomes 数据集的数据调用过程示例:

用户可以使用此笔记本调用并下载位于以下路径的数据:“https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt”

重要说明:用户需要通过 Azure CLI 登录到其 Azure 帐户,以使用 Azure ML SDK 查看数据。 另一方面,他们无需执行任何操作即可下载数据。

安装 Azure CLI

调用“参考基因组数据集”中的数据

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

下载特定文件

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

后续步骤

查看开放数据集目录中的其余数据集。