你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

数据治理流程

数据治理流程分为四种类别。

流程类别 进程
数据发现过程,了解数据格局 数据和数据实体发现、映射和编录过程
用于确定数据质量的数据分析发现过程
敏感数据发现和治理分类过程
用于 CRUD 分析(例如日志文件中)的数据维护发现过程,以了解整个企业的主数据等数据的使用和维护
数据治理定义过程 在定义数据实体的业务术语表中创建和维护通用业务词汇,包括主数据、数据属性名称、数据完整性规则和有效格式
定义引用数据以在企业范围内标准化代码集
定义数据治理分类方案以标记数据,以确定如何对其进行治理
定义数据治理策略和规则以治理数据实体和文档生命周期
定义成功指标和阈值
数据治理策略和规则强制实施过程 自动化应用和强制实施数据治理策略和规则的过程
手动应用和强制实施策略和规则的过程
事件驱动、按需和计时器驱动(批处理)数据治理流程作为服务发布,可调用这些服务以治理:
数据引入 - 编录,分类,所有者分配和存储
数据质量
数据访问安全性
数据隐私
数据使用情况,例如,包括共享和确保许可数据仅用于批准目的
数据维护,如主数据
数据保留
主数据和参考数据同步
监视过程 监视和审核数据使用活动、数据质量、数据访问安全、数据隐私、数据维护和数据保留
监视策略规则冲突的检测和解决

应在数据目录中的业务术语表中定义通用业务词汇。

数据治理工作组计划和开发定义数据并改进特定数据域(例如,客户或供应商);更新数据治理控制委员会的进程;并管理整个企业对特定域的管理。 每个工作组都需要负责定义特定的数据实体或数据主题领域,如多个相关实体。 然后,可以并行处理词汇中的多个数据实体以及策略和规则。 有关信息,请参阅数据治理角色和职责

采用通用业务词汇定义实体的示意图。图 1:数据治理工作组示例

然后需要将目录业务词汇表与其他技术集成,以便将一致的通用数据名称用于所有技术。 可与之集成的其他技术示例包括:

  • 提取、转换和加载 (ETL) 工具
  • 数据建模工具
  • BI 工具,数据库管理系统
  • 主数据管理
  • 数据虚拟化工具
  • 软件开发工具

创建通用业务词汇表的一个好做法是创建数据概念模型。 该模型是一种自上而下的方法,可识别可用作通用业务词汇表中的数据实体的数据概念。 然后可以为每个数据概念(实体)或相关数据概念组(主题领域)分配不同的数据治理工作组。 分配不同的工作组来管理整个环境中的不同数据实体。

构建通用业务词汇表时,可以使用数据目录软件自动发现跨多个数据存储的数据。 它有助于识别与特定数据实体关联的所有属性。 这是一个自下而上的方法。 通过使用自上而下的数据概念模型方法来帮助你入门,并使用自下而上的自动数据发现方法来识别数据实体的属性,多个工作组可以快速以增量方式构建通用业务词汇表。

使用数据目录进行自动数据发现可以将不同的数据映射到通用词汇表。 数据目录可以帮助你了解业务词汇表中每个特定数据实体的数据在整个企业中的位置。

在生命周期的不同点管理数据的策略和规则

数据治理策略描述了一组规则来控制数据的完整性、质量、访问安全、隐私和保留。 有不同类型的策略,包括:

  • 数据完整性策略,例如有效值和引用完整性。
  • 具有数据标准化、清理和匹配规则的数据质量策略。
  • 具有访问安全性和数据隐私规则的数据保护策略。
  • 用于利用保留、存档和备份规则管理生命周期的数据保留策略。 在不同的法律管辖区中管理相同的数据时,可能需要使用策略的多个版本。

数据保密性分类方案有五个分类级别:

  • 公用
  • 仅限内部使用
  • 机密
  • 敏感个人数据
  • 受限

通过将此分类方案与策略和规则相结合来控制数据。 使用五个级别中的每一个来标记数据,例如敏感个人数据。 通过为敏感个人数据创建规则并将这些规则附加到策略中,可以为敏感个人数据创建策略。 可以将该策略附加到敏感个人数据标签,然后将敏感个人数据标签附加到该数据。 通过这种方式,所有标记为敏感个人数据的数据都受制于相同的策略和规则。 此过程称为基于标记的策略管理。 它很灵活,因为可以独立更改单个规则或策略。 所有标记为敏感个人数据的数据均受新规则的约束。 同样,敏感个人数据标签可以与数据分离,而使用机密标签。 在这种情况下,数据立即受与机密标签相关联的一组新策略和规则的管束。

一旦在数据目录中为数据治理分类方案中的每个类定义了策略和规则,便可通过 API 将其从数据目录传递给其他技术,以供执行。 相反,可以连接到多个数据存储的通用数据管理平台可能会强制执行它们。

这样便应该可以在整个生命周期中监视特定数据实体的数据质量、隐私、访问安全性、使用、维护和保留情况。

后续步骤