扫描 Microsoft Purview 中的数据源

在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构并将分类应用于数据。

本文介绍扫描任何数据源的基本步骤。

提示

每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。

先决条件

下面是当前可在 Purview 中注册和扫描的所有源的列表Microsoft。

必须先执行以下步骤,然后才能扫描数据源:

  1. 注册数据源 - 这实质上是Microsoft Purview 提供数据源的地址,并将其映射到Microsoft Purview 数据映射中的集合或域
  2. 考虑网络, 并为方案选择正确的集成运行时配置
  3. 请考虑要用于连接到源的凭据。 所有 源页面 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。

创建扫描

在以下步骤中,我们将使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。

重要

以下是创建扫描的常规步骤,但应参阅 源页 ,了解特定于源的先决条件和扫描说明。

  1. 打开 Microsoft Purview 门户,导航到 “数据映射 ->数据源 ”,在地图或表视图中查看已注册的源。

    提示

    如果数据映射具有大量已注册的源,则表视图的性能可能更高。

  2. 找到源并选择“ 新建扫描 ”图标。

    “新扫描”按钮的屏幕截图,其中突出显示了已注册的源和新扫描窗口。

  3. 提供扫描 的名称

  4. 选择身份验证方法。 在这里,我们选择了 Purview MSI (托管标识。)

    显示用于运行扫描的托管标识选项的屏幕截图。

  5. 选择用于扫描的当前域、集合或子集合。 你选择的集合或域将容纳扫描期间发现的元数据。

    注意

    扫描将始终与已注册的源位于同一域中,但可以选择子集合。

  6. 选择“ 测试连接”。 如果未成功,请参阅[故障排除]部分。 成功连接后,选择“ 继续”。

  7. 根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,可以通过选择列表中的相应项来选择文件夹和子文件夹。

    显示扫描窗口的范围的屏幕截图,其中选择了文件和文件夹。

  8. 选择扫描规则集。 扫描规则集包含扫描将为其检查的数据分类类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集

    注意

    只能选择与源注册的域关联的凭据和扫描规则集。

    选择扫描规则集页的屏幕截图,其中选择了默认集。

  9. 选择扫描触发器。 可以设置计划或运行扫描一次。 详细了解支持的 计划选项

    “设置扫描触发器”页的屏幕截图,其中显示了定期的每月计划。

  10. 查看扫描并选择“ 保存并运行”。

    扫描评审页的屏幕截图,其中突出显示了“保存并运行”按钮。

计划扫描

设置扫描时,可以选择一次/按需运行扫描,或按定期计划运行扫描。 可以配置以下计划选项:

  • 时区:选择要与扫描计划保持一致的时区。 如果选择的时区遵循夏令时,触发器将针对差值自动调整。
  • 定期:可以选择 每日每周每月 扫描重复周期。
    • 每日重复周期:将定期设置为每 X 天 () ,并指定一天的扫描开始时间。
    • 每周重复周期:将定期设置为每 X 周 () ,选择一天或多天 (周) ,并指定一天的扫描开始时间。
    • 每月定期:将重复周期设置为每 X 个月 () ,选择按月天数或按工作日,选择一天或多天 () /工作日 (月份的) ,并指定当天的扫描开始时间。
  • 开始重复时间:设置扫描计划开始的时间。
  • 指定定期结束日期 (可选) :如果要在一定时间后停止扫描,可以通过选择“检查”框来启用此选项,并提供结束日期。

“设置扫描触发器”页的屏幕截图。

查看扫描

根据数据源中的数据量,扫描可能需要一些时间才能运行,因此,下面介绍如何检查进度并在扫描完成时查看结果。

  1. 可以从集合、域或源本身查看扫描。

  2. 若要从集合或域中查看,请在数据映射中导航到 “集合 ”或“ ”,然后选择“ 扫描 ”按钮。

    集合页的屏幕截图,其中突出显示了“扫描”按钮。

  3. 选择扫描名称以查看详细信息。

    集合列表中扫描的屏幕截图,其中突出显示了最新的扫描名称。

  4. 或者,可以直接导航到其集合域中数据源,然后选择“查看详细信息”以检查扫描状态。

    数据映射的屏幕截图,其中突出显示了源的视图详细信息按钮。

  5. 扫描详细信息指示上次 运行状态 中的扫描进度,以及 扫描分类的资产数。

    源详细信息页的屏幕截图,其中突出显示了资产和扫描。

  6. “上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”

    源详细信息页的屏幕截图,其中显示了“正在进行”状态的扫描。

    源详细信息页的屏幕截图,其中显示了显示已完成状态的扫描。

管理扫描

扫描完成后,可以对其进行管理或再次运行。

  1. 从集合列表或源页中选择 “扫描名称 ”以管理扫描。

    源详细信息页的屏幕截图,其中突出显示了扫描名称链接。

  2. 可以再次 运行扫描编辑扫描删除扫描

    管理扫描页的屏幕截图,其中突出显示了“运行”、“编辑”和“删除”按钮。

  3. 可以运行完全扫描,这将扫描范围中的所有内容,但某些源也提供 增量扫描 。 增量扫描将仅扫描自上次扫描以来已更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。

    “立即运行扫描”按钮的屏幕截图,其中显示了完整扫描和增量扫描选项。

疑难解答

为扫描设置连接可能会很复杂,因为它是针对网络和凭据的自定义设置。

如果无法连接到源,请执行以下步骤:

  1. 查看 源页 先决条件,确保未错过任何内容。
  2. 查看源页的 “扫描 ”部分中的身份验证选项,确认是否已正确设置身份验证方法。
  3. 查看排查 连接问题页面
  4. 创建支持请求,以便我们的支持团队可以帮助你对特定环境进行故障排除。

后续步骤