在 Microsoft Purview 中扫描数据源

在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构,并将分类应用于数据。

本文介绍扫描任何数据源的基本步骤。

提示

每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。

先决条件

下面是当前可在 Microsoft Purview 中注册和扫描的所有源的列表。

必须先执行以下步骤,然后才能扫描数据源:

  1. 注册数据源 - 这实质上为 Microsoft Purview 提供数据源的地址,并将其映射到 Microsoft Purview 数据映射 中的集合
  2. 考虑网络 - 如果源位于本地网络中,或者虚拟专用网络 (VPN) ,或者 如果 Microsoft Purview 帐户使用专用终结点,则需要自承载集成运行时,该工具将位于专用网络中的计算机上,以便源和 Microsoft Purview 可以在扫描期间进行连接。 下面是创建自承载集成运行时的说明。
  3. 请考虑要用于连接到源的凭据。 所有 源页面 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。

创建扫描

在以下步骤中,我们将使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。

重要

以下是创建扫描的常规步骤,但应参阅 源页 ,了解特定于源的先决条件和扫描说明。

  1. 通过以下方式打开 Microsoft Purview 治理门户:

    Azure 门户中 Microsoft Purview 窗口的屏幕截图,其中突出显示了 Microsoft Purview 治理门户按钮。

  2. 导航到“数据映射 ->源”,在映射或表视图中查看已注册的源。

  3. 找到源并选择“ 新建扫描 ”图标。

    “新扫描”按钮的屏幕截图,其中突出显示了已注册的源和新扫描窗口。

  4. 提供扫描 的名称

  5. 选择身份验证方法。 在这里,我们选择了 Purview MSI (托管标识。)

    显示用于运行扫描的托管标识选项的屏幕截图。

  6. 选择当前集合或用于扫描的子集合。 所选集合将容纳扫描期间发现的元数据。

  7. 选择“ 测试连接”。 如果未成功,请参阅[故障排除]部分。 成功连接后,选择“ 继续”。

  8. 根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,可以通过选择列表中的相应项来选择文件夹和子文件夹。

    显示扫描窗口的范围的屏幕截图,其中选择了文件和文件夹。

  9. 选择扫描规则集。 扫描规则集包含扫描将为其检查的数据分类类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集

    选择扫描规则集页的屏幕截图,其中选择了默认集。

  10. 选择扫描触发器。 可以设置计划 (每月或每周) 或运行扫描一次。

    注意

    开始重复时间 必须至少比 计划扫描时间短 1 分钟,否则将在下一次重复周期中触发扫描。

    “设置扫描触发器”页的屏幕截图,其中显示了定期的每月计划。

  11. 查看扫描并选择“ 保存并运行”。

    扫描评审页的屏幕截图,其中突出显示了“保存并运行”按钮。

查看扫描

根据数据源中的数据量,扫描可能需要一些时间才能运行,因此,下面介绍如何检查进度并在扫描完成时查看结果。

  1. 可以从集合或源本身查看扫描。

  2. 若要从集合中查看,请在数据映射中导航到 “集合 ”,然后选择“ 扫描 ”按钮。

    集合页的屏幕截图,其中突出显示了“扫描”按钮。

  3. 选择扫描名称以查看详细信息。

    集合列表中扫描的屏幕截图,其中突出显示了最新的扫描名称。

  4. 或者,可以直接导航到“集合”中的数据源,然后选择“查看详细信息”以检查扫描状态。

    数据映射的屏幕截图,其中突出显示了源的视图详细信息按钮。

  5. 扫描详细信息指示上次 运行状态 中的扫描进度,以及 扫描分类的资产数。

    源详细信息页的屏幕截图,其中突出显示了资产和扫描。

  6. “上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”

    源详细信息页的屏幕截图,其中显示了“正在进行”状态的扫描。

    源详细信息页的屏幕截图,其中显示了显示已完成状态的扫描。

管理扫描

扫描完成后,可以对其进行管理或再次运行。

  1. 从集合列表或源页中选择 “扫描名称 ”以管理扫描。

    源详细信息页的屏幕截图,其中突出显示了扫描名称链接。

  2. 可以再次 运行扫描编辑扫描删除扫描

    管理扫描页的屏幕截图,其中突出显示了“运行”、“编辑”和“删除”按钮。

  3. 可以运行完全扫描,这将扫描范围中的所有内容,但某些源也提供 增量扫描 。 增量扫描将仅扫描自上次扫描以来已更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。

    “立即运行扫描”按钮的屏幕截图,其中显示了完整扫描和增量扫描选项。

故障排除

为扫描设置连接可能会很复杂,因为它是针对网络和凭据的自定义设置。

如果无法连接到源,请执行以下步骤:

  1. 查看 源页 先决条件,确保未错过任何内容。
  2. 查看源页的 “扫描 ”部分中的身份验证选项,确认是否已正确设置身份验证方法。
  3. 查看排查 连接问题页面
  4. 创建支持请求,以便我们的支持团队可以帮助你对特定环境进行故障排除。

后续步骤