你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

TCGA 开放数据

注意

2024 年 9 月 19 日重要更新:所有 URL 均将更改。 我们将允许对所有基因组学数据湖容器进行公共访问。 现有的“签名 URL”(共享访问签名)将于 2024-11-04T00:00:00Z 停用。 该时间过后,没有查询字符串的 URL 可以继续使用,但“签名 URL”将不再可用,会返回 403 HTTP 状态代码。 请进行相应的计划,以便在该日期之后访问没有查询字符串的公共 URL(移除“?”和尾随字符)。

癌症基因组图谱 (TCGA) 是一项具有里程碑意义的癌症基因组学计划,它对超过 20,000 种原发性癌症进行了分子特征分析,并匹配了 33 种癌症的正常样本[1]。 公开提供的 TCGA 癌症数据分为两个层级:开放访问或受控访问。

  • 开放访问[在 Azure 上可用]:此数据集包含去标识化的临床和生物样本数据,或不含任何个人身份信息的汇总数据。 所含的数据类型包括基因表达、甲基化 β 值和蛋白质定量。 DNA 水平数据类型包括基因水平拷贝数和屏蔽的拷贝数片段。
  • 受控访问:此数据集是个体水平序列数据,需要通过 dbGap 批准才能访问。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数据源

此数据集是 TCGA 开放数据的镜像

数据卷和更新频率

此数据集包含大约 387 GB 的数据

存储位置

此数据集存储在美国东部 2 Azure 区域。 建议将计算资源分配到美国东部 2 区域,以实现相关性。

数据访问

美国东部 2:“https://datasettcga.blob.core.windows.net/dataset”

SAS 令牌:?sp=rl&st=2022-10-07T19:43:37Z&se=2030-10-02T03:43:37Z&spr=https&sv=2021-06-08&sr=c&sig=9YgXjisOpHJNgdeMb5lOOzBhA38PWGM8g2DHjo9A5Cs%3D

使用条款

可随意使用该数据。 有关详细信息和引文详情,请参阅 TCGA 计划页

联系人

有关 TCGA 数据和计划的问题:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga/contact

后续步骤

查看开放数据集目录中的其余数据集。