你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

数据质量

数据质量是云规模分析的管理功能。 该功能位于数据管理登陆区域中,是治理的核心部分。

数据质量注意事项

数据质量是创建和使用数据产品的每个人的责任。 创建者应遵守全局规则和域规则,而使用者应通过反馈循环向数据所属的域报告数据不一致。

由于数据质量会影响提供给董事会的所有数据,因此应从组织的顶层级别开始。 董事会应了解提供给他们的数据的质量。

但是,主动确保数据质量仍然需要你聘请数据质量专家,他们可以清理需要修正的数据桶。 避免将此工作推送到中心团队,而是将具有特定数据知识的数据域作为目标,以便清理数据。

数据质量指标

数据质量指标是评估和提高数据产品质量的关键。 在全局和域级别,需要确定质量指标。 建议至少使用以下指标。

指标 指标定义
完整性 = 非 null + 非空指标的总百分比 度量数据可用性、数据集中的非空字段和已更改的默认值。 例如,如果记录包含出生数据 01/01/1900,则该字段很可能从未填充过。
唯一性 = 非重复值的百分比 对比表中的行数,度量给定列中的非重复值。 例如,在包含 5 行的表中有四种不同的颜色值(红色、蓝色、黄色和绿色),则该字段的唯一性为 80%(或 4/5)。
一致性 = 具有模式的数据的百分比 度量给定列中的数据与其预期数据类型或格式的符合性。 例如,包含格式化电子邮件地址的电子邮件字段,或具有数值的名称字段。
有效性 = 引用匹配的百分比 度量与对应域引用集的成功数据匹配。 例如,假设 某个国家/地区 字段 (符合事务记录系统中) 分类值,则“A 的 US”值无效。
准确性 = 未更改值的百分比 度量跨多个系统成功复制预期值的情况。 例如,如果发票逐项列出与原始订单不同的 SKU 和扩展价格,则发票行项将不准确。
链接 = 集成良好的数据的百分比 度量与另一个系统中的配套参考详细信息的成功关联。 例如,如果发票逐项列出不正确的 SKU 或产品描述,则发票行项不可链接。

数据事件探查

数据分析检查数据目录中已注册的数据产品,并收集有关该数据的统计信息和信息。 若要提供一段时间内有关数据质量的摘要和趋势视图,请将此数据存储在针对数据产品的元数据存储库中。

数据配置文件可帮助用户回答有关数据产品的问题,包括:

  • 它是否可以解决我的业务问题?
  • 数据是否符合特定的标准或模式?
  • 数据源有些什么异常?
  • 将此数据集成到我的应用程序可能会遇到什么难题?

用户可以在其数据市场中使用报表仪表板查看数据产品配置文件。

可以获取以下项的报告:

  • 完整性:指示不为空或 null 的数据的百分比
  • 唯一性:指示不重复的数据的百分比
  • 一致性:指示维护数据完整性的数据

数据质量建议

若要实现数据质量,需要同时使用人工和计算功能,如下所示:

  • 使用包含算法、规则、数据分析和指标的解决方案。

  • 聘请域专家,他们可在由于通过计算层传递大量错误而需要训练算法时提供帮助。

  • 尽早验证。 传统解决方案在应用任何数据质量之前提取、转换和加载数据。 此时,数据产品已被使用,并且错误已显示在下游数据产品中。 相反,由于从源引入数据,因此应在源附近以及下游使用者使用数据产品之前实现数据质量检查。 如果从数据湖中进行批引入,请在将数据从原始数据移动到扩充的数据时执行这些检查。

    如何在引入期间实现数据质量的示意图。

  • 在将数据移动到已扩充的层之前,其架构和列会针对数据目录中注册的元数据来进行检查。

  • 如果数据包含错误,则加载将停止,并且数据应用程序团队收到失败通知。

  • 如果架构和列检查通过,则会将数据加载到具有匹配数据类型的扩充层中。

  • 在移动到已扩充的层之前,数据质量过程会根据算法和规则检查合规性。

提示

在全局级别和域级别定义数据质量规则。 这样做可使企业为每个创建的数据产品定义其标准,并允许数据域创建与其域相关的其他规则。

数据质量解决方案

从 2022 年 2 月开始,Microsoft 依赖于合作伙伴、开放源代码解决方案和自定义解决方案来提供数据质量解决方案。 建议评估合作伙伴,如 Informatica、Talend、CluedIn 和 Ataccama One。

对于开放源代码解决方案,企业已将“Great Expectations”工具实现到其数据管道中。

数据质量摘要

修复数据质量可能会给企业带来严重后果。 这可能会导致企业部门以不同的方式解释数据产品。 事实证明,这种误解可能导致企业基于数据质量降低的数据产品制定决策,并付出高昂代价。 修复缺少属性的数据产品可能是一项成本高昂的任务,并且可能需要完全重新加载 # 个周期中的数据。

尽早验证数据质量并实施流程以主动解决数据质量不佳的问题。 例如,数据产品在达到一定的完整性之前不能发布到生产环境中。

可以使用工具作为免费选项,但要确保它包括预期(规则)、数据指标、分析以及达到预期的能力,以便实现基于全局和基于域的预期。

后续步骤