Microsoft Purview 数据映射的定价

本指南介绍 Microsoft Purview 治理门户中数据映射的定价指南。

有关 Microsoft Purview (以前为 Azure Purview) 的完整定价指南详细信息,请参阅 定价指南概述。

有关特定价格的详细信息,请参阅 Microsoft Purview (以前为 Azure Purview) 定价页。 本文将指导你完成影响Microsoft Purview 数据映射定价的功能和因素。

影响Microsoft Purview 数据映射定价的直接成本基于以下三个维度:

弹性数据映射

  • 数据映射是 Microsoft Purview 治理门户体系结构的基础,因此需要随时更新数据资产中的资产信息

  • 数据映射按 容量单位 (CU) 收费。 如果目录存储多达 10 GB 的元数据存储,并且最多提供 25 个数据映射操作/秒,则会在一个 CU 处预配数据映射

  • 首次创建帐户时,数据映射始终在一个 CU 处预配

  • 但是,数据映射会在该弹性窗口的最小和最大限制之间自动缩放,以满足数据映射中与两个关键因素(操作吞吐量元数据存储)相关的更改

操作吞吐量

  • 基于对数据映射执行的创建、读取、更新、删除操作的事件驱动因素
  • 数据映射操作的一些示例如下:
    • 在数据映射中创建资产
    • 向资产添加关系,例如所有者、管家、父级、世系
    • 编辑资产以添加业务元数据,例如说明、术语表术语
    • 关键字搜索将结果返回到搜索结果页
    • 使用 API 导入或导出信息
  • 如果在数据映射上执行了多个查询,I/O 操作的数量也会增加,从而导致数据映射纵向扩展
  • 并发用户数也构成管理数据映射容量单位的因素
  • 要考虑的其他因素包括搜索查询类型、API 交互、工作流、审批等
  • 数据突发级别
    • 当需要更多操作/秒吞吐量时,数据映射可以在弹性窗口中自动缩放,以满足更改的负载
    • 这构成了需要估计和规划的突发特征
    • 突发特征包括突发级别突发存在的突发持续时间
      • 突发级别是稳定状态下预期一致弹性的乘法索引
      • 突发持续时间是预计此类突发 (弹性) 的月份百分比,因为元数据增加或数据映射上的操作数增加

元数据存储

  • 如果数据资产中的资产数量减少,然后通过后续增量扫描在数据映射中删除,则存储组件会自动减少,因此数据映射会缩减

自动扫描、分类和引入

有两个主要的自动化过程可以触发元数据引入Microsoft Purview 数据映射:

  • 使用本机 连接器进行自动扫描。 此过程包括三个main步骤:

    • 元数据扫描
    • 自动分类
    • 将元数据引入Microsoft Purview 数据映射
  • 使用Azure 数据工厂和/或Azure Synapse管道自动引入。 此过程通常包括:

    • 如果帐户连接到任何Azure 数据工厂或Azure Synapse管道,则会将元数据和世系引入Microsoft Purview 数据映射。

使用本机连接器进行自动扫描

  • 完全扫描处理数据源所选范围内的所有资产,而增量扫描将检测和处理自上一次成功扫描以来已创建、修改或删除的资产

  • (完整扫描或增量扫描的所有扫描) 将选取 更新、修改或删除 的资产

  • 请务必考虑并避免属于不同部门的多个人员或组为同一数据源设置扫描,从而为重复扫描提供更多定价

  • 计划 频繁的增量扫描后 ,初始完全扫描与数据资产中的更改保持一致。 这可确保数据映射始终保持最新状态,并且与完全扫描相比,增量扫描消耗的 v 核心小时数更少

  • 数据源的 “查看详细信息” 链接将使用户能够运行完全扫描。 但是,请考虑在完全扫描后运行增量扫描以优化扫描,除非扫描规则集 (分类/文件类型发生更改)

  • 使用不同的访问控制在父集合中注册数据源并在子集合中注册范围扫描,以确保不产生重复的扫描成本

  • 使用集合授权,限制允许注册数据源以通过精细访问控制数据源管理员角色进行扫描的用户。 这将确保只允许注册有效的数据源,并控制扫描 v 核心小时数,从而降低扫描成本

  • 考虑 数据源类型和 要扫描 的资产数 会影响扫描持续时间

  • 创建自定义扫描规则集,仅包括与业务需求相关的数据资产和分类中可用的文件类型子集,以确保扫描程序的最佳使用

  • 为数据源创建新的扫描时,请遵循实际运行扫描之前建议 的准备顺序 。 这包括收集 特定于业务 分类和 文件类型 的要求, (存储帐户) 启用适当的扫描规则集,以避免多次扫描,并通过错过的要求控制多个扫描的不必要的成本

  • 使扫描计划与 Self-Hosted Integration Runtime (SHIR) VM 保持 (虚拟机) 大小,以避免链接到虚拟机的额外费用

使用Azure 数据工厂和/或Azure Synapse管道自动引入

  • 每次管道在源系统中运行时,都会从Azure 数据工厂或Azure Synapse管道引入元数据和世系。

高级资源集

  • Microsoft Purview 数据映射使用资源集,通过提供扫描数据湖中的所有文件并查找模式 (GUID、本地化模式等 ) 将它们分组为单个资产的功能,解决将大量数据资产映射到单个逻辑资源的挑战

  • 高级资源集 是一项可选功能,它允许客户获取计算的丰富资源集信息(如总大小、分区计数等),并通过模式规则自定义资源组分组。 如果未启用高级资源集功能,则数据目录仍将包含资源集资产,但不包含聚合属性。 在这种情况下,不会向客户计费“资源集”计量。

  • 在Microsoft Purview 数据映射中打开高级资源集之前,请使用基本资源集功能来验证是否满足要求

  • 如果出现以下问题,请考虑启用高级资源集:

    • 数据湖架构不断变化,除了基本资源集功能之外,你正在寻找更多价值,使Microsoft Purview 数据映射能够将参数(如 #partitions、数据资产大小等)作为服务进行计算
    • 需要自定义资源集资产的分组方式。
  • 请务必注意,高级资源集的计费基于脱机层用于聚合资源集信息的计算,并且取决于目录中资源集的大小/数量

后续步骤