Microsoft Purview 数据目录世系用户指南

本文概述了 Microsoft Purview 数据目录 中的数据世系功能。

背景

Microsoft Purview 的平台功能之一是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share和 Power BI 等系统在移动时捕获数据的世系。 还通过 Atlas 挂钩和 REST API 支持自定义世系报告。

世系集合

从企业数据系统在 Microsoft Purview 中收集的元数据会缝合在一起,以显示端到端数据世系。 将世系收集到 Microsoft Purview 中的数据系统大致分为以下三种类型:

每个系统都支持不同级别的世系范围。 查看以下部分或系统的各个世系文章,以确认当前可用的世系范围。

已知限制

  • 用作进程活动源的数据库视图 (Azure 数据工厂、Synapse Pipelines、Azure SQL Database、Azure Data Share) 当前在 Microsoft Purview 中捕获为数据库表对象。 如果同时扫描数据库,则会在 Microsoft Purview 中单独发现视图资产。 在此方案中,在 Microsoft Purview 中捕获了两个名称相同的资产,一个是具有数据世系的表,另一个是视图。
  • 如果存储过程包含 drop 或 create 语句,则当前不会在世系中捕获它们。

数据处理系统

数据集成和 ETL 工具可以在执行时将世系推送到 Microsoft Purview 中。 数据工厂、Data Share、Synapse、Azure Databricks 等工具属于此类数据处理系统。 数据处理系统将数据集引用为来自不同数据库和存储解决方案的源,以创建目标数据集。 下表列出了当前与 Microsoft Purview for 世系集成的数据处理系统列表。

数据处理系统 支持的范围
气流 气流世系
Azure Data Share 共享快照
Azure 数据工厂 复制活动
数据流活动
执行 SSIS 包活动
Azure SQL数据库 (预览版) 存储过程执行的世系提取
Azure Synapse Analytics 复制活动
数据流活动

数据存储系统

Oracle、Teradata 和 SAP 等数据库 & 存储解决方案具有查询引擎,用于使用脚本语言转换数据。 来自视图/存储过程/等的数据世系信息收集到 Microsoft Purview 中,并与来自其他系统的世系拼合在一起。 通过 Microsoft Purview 数据扫描支持以下数据源的世系。 从相应文章中详细了解支持的世系方案。

类别 数据源
Azure Azure Databricks
Database 卡桑德拉
Db2
Google BigQuery
Hive 元存储数据库
Mysql
Oracle
PostgreSQL
雪花
Teradata
服务和应用 欧文
旁观者
SAP ECC
SAP S/4HANA

数据分析和报告系统

数据分析和报告系统(如 Azure 机器学习和 Power BI)将世系报告到 Microsoft Purview 中。 这些系统将使用存储系统中的数据集,并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。

数据分析 & 报告系统 支持的范围
Power BI 数据集、数据流、报表 & 仪表板

世系入门

Microsoft Purview 中的世系包括数据集和进程。 数据集也称为节点,而进程也可以称为边缘:

  • 数据集 (节点) : (结构化或非结构化) 作为进程的输入提供的数据集。 例如,SQL 表、Azure Blob 和 (文件(如 .csv 和 .xml) )都被视为数据集。 在 Microsoft Purview 的世系部分中,数据集由矩形框表示。

  • 进程 (Edge) :对数据集执行的活动或转换称为进程。 例如,ADF 复制活动、Data Share 快照等。 在 Microsoft Purview 的世系部分中,进程由圆边框表示。

若要访问 Microsoft Purview 中资产的世系信息,请执行以下步骤:

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 在 Microsoft Purview 治理门户主页上,搜索数据集名称或进程名称,例如 ADF 复制或数据流活动。 然后按 Enter。

  3. 在搜索结果中,选择资产并选择其 “世系 ”选项卡。

    显示如何选择“世系”选项卡的屏幕截图。

资产级世系

Microsoft Purview 支持数据集和进程的资产级世系。 若要查看资产级别的世系,请转到目录中当前资产的 “世系 ”选项卡。 选择当前数据集资产节点。 默认情况下,属于数据的列列表显示在左窗格中。

显示如何在世系页中选择“查看列”的屏幕截图。

手动世系

对于本地、多云和 SaaS 环境中的许多资产,Microsoft Purview 中的数据世系是 自动化 的。 尽管我们继续添加更多自动化源,但手动世系允许你记录尚未支持自动化的源的世系元数据,而无需使用任何代码。

若要为任何资产添加手动世系,请执行以下步骤:

  1. 在数据目录中搜索资产, 然后选择它以查看详细信息。

  2. 选择 “编辑”,导航到“ 世系 ”选项卡,然后在底部面板中选择“ 添加手动世系 ”。

    编辑资产和添加手动世系的屏幕截图。

  3. 配置资产世系:

    1. 选择资产下拉列表以从建议列表中查找资产,或 选择“查看更多” 以搜索完整目录。 选择要链接的资产。
    2. 选择交换图标,将关系方向配置为为下游世系) 生成 (,或为上游世系) 使用 (。
    3. 如果要删除世系,请选择垃圾桶图标。

    数据资产世系页的屏幕截图,其中突出显示了资产下拉列表。

  4. 在两个数据资产之间添加世系时,还可以配置列级世系。 选择行开头的展开图标,从相应的下拉列表中选择上游列和下游列以配置列映射。 选择加号图标以添加更多列世系;选择回收站图标以删除现有垃圾箱。

    配置列级世系的屏幕截图。

  5. 可以通过再次选择“添加手动世系”按钮来添加更多资产级别 世系 。 完成后,选择“ 保存 ”按钮以保存世系并退出编辑模式。

手动世系的已知限制

  • 当前资产选取器体验允许一次仅选择一个资产。
  • 两个数据资产之间的世系目前支持列级手动世系,而在两者之间涉及进程资产时则不支持。
  • 源资产和目标资产所需的数据管理访问权限。
  • 这些资产类型目前不允许手动世系,因为它们支持自动世系:
    • Azure 数据工厂
    • Synapse 管道
    • Power BI 数据集
    • Teradata 存储过程
    • Azure SQL存储过程

数据集列世系

若要查看数据集的列级世系,请转到目录中当前资产的 “世系 ”选项卡,然后按照以下步骤操作:

  1. 进入世系选项卡后,在左窗格中,选择要在数据世系中显示的每一列旁边的检查框。

    显示如何选择要在世系页中显示的列的屏幕截图。

  2. 将鼠标悬停在左窗格或世系画布数据集中的选定列上,以查看列映射。 突出显示所有列实例。

    显示如何将鼠标悬停在列名上以突出显示数据世系路径中的列流的屏幕截图。

  3. 如果列数大于左窗格中显示的列数,请使用筛选器选项按名称选择特定列。 或者,可以使用鼠标滚动浏览列表。

    显示如何在世系页上按列名称筛选列的屏幕截图。

  4. 如果世系画布包含更多节点和边缘,请使用筛选器按名称选择数据资产或处理节点。 或者,可以使用鼠标在世系窗口周围平移。

    显示世系页上按名称排列的数据资产节点的屏幕截图。

  5. 使用左窗格中的 开关突出显示世系画布中的数据集列表。 如果关闭切换开关,将显示至少包含一个选定列的任何资产。 如果打开切换开关,则仅显示包含所有列的数据集。

    显示如何使用切换开关筛选世系页上的节点列表的屏幕截图。

处理列世系

还可以在数据目录中查看数据进程,例如复制活动。 例如,在此世系流中,选择复制活动:

数据世系流的屏幕截图,其中突出显示了其中一个复制活动节点。

复制活动将展开,然后选择“ 切换到资产 ”按钮,这将提供有关流程本身的更多详细信息。

已展开的复制活动节点的屏幕截图,并选中了“切换到资产”按钮的新开关。

数据进程可以采用一个或多个输入数据集来生成一个或多个输出。 在 Microsoft Purview 中,列级世系可用于进程节点。

  1. 在列面板中的下拉列表中的输入和输出数据集之间切换。

  2. 从一个或多个表中选择列,查看从输入数据集流向相应输出数据集的世系。

    显示进程节点的列世系的屏幕截图。

浏览世系中的资产

  1. 选择“ 切换到任何资产上的资产 ”,从世系视图中查看其相应的元数据。 这样做是从世系视图浏览到目录中另一个资产的有效方法。

    屏幕截图:如何在世系数据资产中选择“切换到资产”。

  2. 对于常用数据集,世系画布可能会变得复杂。 为了避免混乱,默认视图仅显示资产的五个世系级别。 可以通过选择世系画布中的气泡来扩展世系的其余部分。 数据使用者还可以隐藏画布中不感兴趣的资产。 若要进一步减少混乱,请关闭世系画布顶部的“ 更多世系 ”切换。 此操作将隐藏世系画布中的所有气泡。

    显示如何切换“更多世系”的屏幕截图。

  3. 使用世系画布中的智能按钮获取世系的最佳视图:

    1. 全屏
    2. 缩放以适应
    3. 放大缩小字体功能 放大缩小字体功能
    4. 自动对齐
    5. 缩放预览
    6. 更多选项:
      1. 将当前资产居中
      2. 重置为默认视图

    显示如何选择世系智能按钮的屏幕截图。

后续步骤