在 Microsoft Purview 中监视数据映射填充
在 Microsoft Purview 中,可以扫描各种类型的数据源并查看一段时间内的扫描状态;还可以将其他服务与 Microsoft Purview 连接,并查看引入的资产/关系的趋势。 本文概述了如何监视和获取数据地图总体的鸟瞰图。
监视扫描运行
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 Microsoft Purview 治理门户 按钮。
打开 Microsoft Purview 帐户,然后选择“ 数据映射 ->监视”。 需要对任何集合具有 数据源管理员 角色才能访问此页面。 你将看到属于具有数据源管理员权限的集合的扫描运行。
高级 KPI 显示一段时间内的扫描运行总数。 该时间段默认为过去 30 天,还可以选择过去 7 天。 根据所选的时间筛选器,可以在图形中查看按周或按日划分的成功、失败、取消和正在进行的扫描运行的分布情况。
在图形底部,有一个 “查看更多” 链接供你进一步探索。 该链接将打开 “扫描状态 ”页。 在这里,可以看到扫描名称及其在时间段内成功、失败或取消的次数。 还可以按源类型筛选列表。
可以通过选择扫描名称进一步浏览特定 扫描。 它会将你连接到扫描历史记录页,你可以在其中找到运行 ID 列表,其中包含更多执行详细信息。
可以单击运行 ID 以检查有关扫描运行详细信息的详细信息。
已知限制:
目前,此监视体验不包括以下信息。 可以检查相应的扫描运行详细信息。
- 状态和持续时间仅包括从源) 发现 (扫描阶段,不包括引入阶段。 与扫描运行详细信息面板相比,你可能会看到差异。
- 不涵盖Azure SQL数据库的世系提取扫描运行。
- 对于 Azure Synapse Analytics 工作区、Azure 订阅/资源组和 AWS 帐户的扫描,它仅捕获父扫描运行的状态/计数,而不捕获每个资源的子扫描运行。
扫描运行详细信息
可以导航到从不同位置扫描给定扫描的运行历史记录:
- 如“监视扫描运行”部分中所述,转到“数据映射 -> 监视”。
- 转到数据映射 ->源 -> 选择所需的数据源 -> 请参阅扫描、最近扫描或最近失败的扫描。
- 转到 数据映射 ->集合 -> 选择所需的集合 ->扫描 -> 选择要查看更多的扫描名称。
扫描运行历史记录的保留期为 90 天。
可以单击运行 ID 以检查有关扫描运行详细信息的详细信息:
运行 ID:用于标识给定扫描运行的 GUID。
运行类型:完全扫描或增量扫描。
“扫描 ”部分汇总了 Purview 连接到源的发现阶段的指标,提取元数据/世系并分类数据。
扫描状态:
状态 说明 已完成 扫描阶段成功。 已失败 扫描阶段失败。 可以通过单击旁边的“更多信息”链接来检查错误详细信息。 已取消 扫描运行由用户取消。 正在进行中 扫描正在运行。 已排队 扫描运行正在等待可用的集成运行时资源。
如果使用自承载集成运行时,请注意,每个节点可以同时运行多个并发扫描,具体取决于计算机规范 (CPU 和内存) 。 更多扫描处于“已排队”状态。扼杀 正在限制扫描运行。 这意味着此 Microsoft Purview 帐户目前具有比允许的最大并发计数更多的持续扫描运行。 在此处详细了解限制。 此特定扫描运行正在等待,将在其他正在进行的扫描 () 完成后执行。 在“已限制”或“已排队”状态期间,不会对扫描运行收费。
扫描类型:手动或计划扫描。
发现的资产:从源中枚举的资产数。 对于完整扫描和增量扫描,它包括配置范围中的所有资产,无论它们是现有资产还是自上次扫描运行以来新创建/更新的资产。 对于增量扫描,仅提取新创建或更新的资产的详细元数据。
分类的资产:为对数据进行分类而采样的资产数,无论资产是否具有任何匹配的分类。 它是基于 采样机制的已发现资产的子集。 对于增量扫描,只能选择新创建或更新的资产进行分类。
持续时间:扫描阶段持续时间和开始/结束时间。
数据引入 部分汇总了 Purview 使用标识的元数据和关系填充数据映射的引入阶段的指标。
引入状态:
状态 说明 已完成 所有资产和关系都已成功引入数据映射。 已完成,但 (以前的“部分已完成”) 部分资产和关系已成功引入数据映射,而某些资产和关系会失败。 已失败 引入阶段失败。 已取消 扫描运行由用户取消,因此会一起取消引入。 正在进行中 引入正在进行中。 已排队 引入正在等待可用的服务资源或等待扫描以发现元数据。 引入的资产:引入到数据映射中的资产数。 对于增量扫描,它仅包括新创建或更新的资产,在这种情况下,可能小于“发现的资产”计数。 扫描基于文件的源时,它是资源集聚合前的原始资产计数。
引入的关系:引入到数据映射中的关系数。 它包括世系和其他关系,如外键关系。
持续时间:引入持续时间和开始/结束时间。
查看异常日志 (预览版)
当某些资产或关系在扫描期间无法引入到数据映射中时,例如,引入状态最终显示为已完成但异常,可以在扫描运行详细信息面板中看到“下载日志”按钮。 它提供捕获失败详细信息的异常日志文件。
下表显示了日志文件的架构。
列 | 说明 |
---|---|
TimeStamp | 引入操作发生时的 UTC 时间戳。 |
ErrorCode | 异常的错误代码。 |
OperationItem | 失败的资产/关系的标识符,通常使用完全限定的名称。 |
邮件 | 有关由于什么原因未能引入哪些资产/关系的详细信息。 如果资源集的引入失败,则它可能会应用于匹配同一命名模式的多个资产,并且消息包含受影响的计数。 |
目前,异常日志不包括在扫描阶段 (元数据发现) 发生的失败。 稍后将添加它。
监视链接
可以将其他服务与 Microsoft Purview 连接,以建立“链接”,使该服务资产的元数据和世系可供 Microsoft Purview 使用。 目前,Azure 数据工厂和Azure Synapse Analytics 支持链接。
监视通过链接引入的资产和关系:
转到 Microsoft Purview 帐户 -> 打开 Microsoft Purview 治理门户 ->数据映射 ->监视 ->链接。 需要对任何集合具有 数据源管理员 角色才能访问“监视”选项卡。你将看到属于具有数据源管理员权限的集合的结果。 需要对根集合具有权限才能监视Azure 数据工厂和Azure Synapse Analytics 链接。
可以看到高级 KPI,包括源总数、引入的资产数和关系 (世系) ,然后是随时间推移的趋势图表。 可对以下内容应用其他筛选器,以缩小结果范围:
- 源类型
- 源名称
- 日期范围:默认值为 30 天。 还可以选择过去 7 天或自定义日期范围。 保留期为 45 天。
指标将报告到右上角显示的日期时间。 聚合将每小时发生一次。
在图形底部,有一个 “查看更多” 链接供你进一步探索。 在 “链接状态 ”页中,可以看到源名称的列表,以及源类型、引入的资产、引入的关系和上次运行日期时间。 将传递上一页中的筛选器,你可以按源类型、源名称和日期范围进一步筛选列表。
可以通过单击源名称向下钻取到每个源以查看下一级别的详细信息。 例如,对于 Azure 数据工厂,它显示每个管道活动如何以 格式
<pipeline_name>/<activity_name>
报告资产和与 Microsoft Purview 的关系。
已知限制
- 对于 Azure 数据工厂 和 Azure Synapse Analytics,此链接监视当前捕获从复制活动生成的资产和关系,但不会捕获数据流和 SSIS 活动。
- 聚合和日期筛选器采用 UTC 时间。
扫描不再运行
如果 Microsoft Purview 扫描过去成功运行,但现在失败,检查以下事项:
- 首先检查错误消息以查看失败详细信息。
- 是否已更改或轮换了资源的凭据? 如果是这样,则需要进行更新,使扫描使用正确的凭据。
- 是否Azure Policy阻止对存储帐户进行更新? 如果是这样,请按照 Microsoft Purview 异常标记指南 为 Microsoft Purview 帐户创建例外。
- 是否使用自承载集成运行时? 检查它是否是最新的软件,以及它是否已连接到你的网络。