你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

ENCODE:DNA 元件百科全书

DNA 元件百科全书 (ENCODE) 联盟是由美国国家人类基因组研究所 (NHGRI) 资助的一个持续运作的国际研究小组联盟。 ENCODE 的目标是制作出人类基因组功能元件的综合图谱,其中包含在蛋白质和 RNA 水平上发挥作用的元件,以及控制基因活跃的细胞和环境的调控元件。

ENCODE 研究人员采用各种分析和方法来识别功能元件。 基因元件的发现和标注主要是通过各种 RNA 来源测序、比较基因组学、综合生物信息学方法和人类管理来实现的。 调控元件通常是通过 DNA 超敏反应分析、DNA 甲基化分析,以及与 DNA 和 RNA 相互作用的蛋白质的免疫沉淀反应 (IP) 研究得到的;免疫沉淀反应是指修改组织蛋、转录因子、染色质调节物和 RNA 结合蛋白,然后进行测序。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数据源

此数据集是 https://www.encodeproject.org/ 处的数据存储的镜像

数据量和更新频率

此数据集包含约 756 TB 的数据,且每天都会更新。

存储位置

此数据集存储在 Azure 美国西部 2 和美国中西部区域。 为实现相关性,我们建议将计算资源定位在美国西部 2 或美国中西部区域。

数据访问

美国西部 2: https://datasetencode.blob.core.windows.net/dataset

美国中西部: https://datasetencode-secondary.blob.core.windows.net/dataset

SAS 令牌:?sv=2019-10-10&si=prod&sr=c&sig=9qSQZo4ggrCNpybBExU8SypuUZV33igI11xw0P7rB3c%3D

使用条款

外部数据用户可以不受限制地(不管是在类型还是大小方面)基于任何 ENCODE 数据任意下载、分析和发布结果,并且不为 ENCODE 数据生成者(作为个人成员或作为联盟的一部分)提供宽限期。 对于使用尚未发布的 ENCODE 数据的研究人员,请联系数据生成者以讨论可能的出版。 该联盟将在独立出版中持续发布从其自己的分析工作中得出的结果。

对于在出版和演示中使用 ENCODE 数据集(无论是否已发布)的研究人员,ENCODE 要求按 https://www.encodeproject.org/help/citing-encode/ 上报告的下列各种方式指出内容引用自 ENCODE 联盟。

联系人

如有任何问题、疑虑或看法,请向我们的支持人员发送电子邮件 (encode-help@lists.stanford.edu)。

后续步骤

查看开放数据集目录中的其余数据集。