Microsoft Purview 中的数据世系
本文概述了 Microsoft Purview 数据目录 中的数据世系。 它还详细介绍了数据系统如何与目录集成以捕获数据的世系。 Microsoft Purview 可以在组织数据资产的不同部分以及不同准备级别捕获数据世系,包括:
- 从各种平台暂存的原始数据
- 转换和准备的数据
- 可视化平台使用的数据
数据世系被广泛理解为跨越数据起源的生命周期,以及数据在数据资产中随时间推移的位置。 它用于不同类型的向后看方案,例如故障排除、跟踪数据管道中的根本原因和调试。 世系还用于数据质量分析、合规性和通常称为影响分析的“如果”方案。 世系以可视化方式表示,以显示从源到目标的移动数据,包括数据的转换方式。 鉴于大多数企业数据环境的复杂性,如果不对外围数据点进行一些整合或掩码,就很难理解这些视图。
Microsoft Purview 数据目录将与其他数据处理、存储和分析系统连接,以提取世系信息。 这些信息组合在一起,表示目录中特定于方案的通用世系体验。
数据资产可能包括执行数据提取、转换 (ETL/ELT 系统) 、分析和可视化系统的系统。 每个系统捕获丰富的静态和操作元数据,用于描述系统边界内数据的状态和质量。 数据目录中的世系目标是尽可能低粒度地从每个数据系统中提取移动、转换和操作元数据。
以下示例是跨多个系统移动数据的典型用例,其中数据目录将连接到每个系统进行世系。
- 数据工厂将数据从本地/原始区域复制到云中的登陆区域。
- Synapse、Databricks 等数据处理系统将使用笔记本处理数据并将其从登陆区域转换为策展区域。
- 将数据进一步处理到分析模型中,以获得最佳的查询性能和聚合。
- 数据可视化系统将使用数据集并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。
以下部分介绍 Microsoft Purview 收集的世系信息的粒度的详细信息。 此粒度可能因 Microsoft Purview 中支持的数据系统而异。
- 世系表示为图形,通常包含数据存储系统中的源实体和目标实体,这些实体由计算系统调用的进程连接。
- 数据系统连接到数据目录,以生成和报告引用基础数据系统的物理对象的唯一对象,例如:SQL 存储过程、笔记本等。
- 捕获具有其他元数据(如所有权)的高保真世系,以人类可读的格式显示源 & 目标实体的世系。 例如:hive 表级别的世系,而不是分区或文件级别。
标识源实体的属性 () ,该实体用于在目标实体中创建或派生属性 () 。 源属性的名称可以在目标中保留或重命名。 ADF 等系统可以执行从本地环境到云的一次性复制。 例如:Table1/ColumnA -> Table2/ColumnA
。
为了支持根本原因分析和数据质量方案,我们捕获数据处理系统中作业的执行状态。 此要求与替换其他数据处理系统的监视功能无关,其目的也不是替换它们。
世系是支持质量、信任和审核方案的Microsoft Purview 数据目录的一个关键功能。 数据目录的目标是构建一个可靠的框架,在该框架中,环境中的所有数据系统都可以自然地连接和报告世系。 元数据可用后,数据目录可以将数据系统提供的元数据汇集在一起,为数据治理用例提供支持。