在 Microsoft Purview 中扫描数据源
在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构,并将分类应用于数据。
本文介绍扫描任何数据源的基本步骤。
提示
每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。
先决条件
下面是当前可在 Microsoft Purview 中注册和扫描的所有源的列表。
必须先执行以下步骤,然后才能扫描数据源:
- 注册数据源 - 这实质上为 Microsoft Purview 提供数据源的地址,并将其映射到 Microsoft Purview 数据映射 中的集合。
- 考虑网络 - 如果源位于本地网络中,或者虚拟专用网络 (VPN) ,或者 如果 Microsoft Purview 帐户使用专用终结点,则需要自承载集成运行时,该工具将位于专用网络中的计算机上,以便源和 Microsoft Purview 可以在扫描期间进行连接。 下面是创建自承载集成运行时的说明。
- 请考虑要用于连接到源的凭据。 所有 源页面 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。
创建扫描
在以下步骤中,我们将使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。
重要
以下是创建扫描的常规步骤,但应参阅 源页 ,了解特定于源的先决条件和扫描说明。
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 “Microsoft Purview 治理门户 ”按钮。
导航到“数据映射 ->源”,在映射或表视图中查看已注册的源。
找到源并选择“ 新建扫描 ”图标。
提供扫描 的名称 。
选择身份验证方法。 在这里,我们选择了 Purview MSI (托管标识。)
选择当前集合或用于扫描的子集合。 所选集合将容纳扫描期间发现的元数据。
选择“ 测试连接”。 如果未成功,请参阅[故障排除]部分。 成功连接后,选择“ 继续”。
根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,可以通过选择列表中的相应项来选择文件夹和子文件夹。
选择扫描规则集。 扫描规则集包含扫描将为其检查的数据分类类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集。
选择扫描触发器。 可以设置计划 (每月或每周) 或运行扫描一次。
注意
开始重复时间 必须至少比 计划扫描时间短 1 分钟,否则将在下一次重复周期中触发扫描。
查看扫描并选择“ 保存并运行”。
查看扫描
根据数据源中的数据量,扫描可能需要一些时间才能运行,因此,下面介绍如何检查进度并在扫描完成时查看结果。
可以从集合或源本身查看扫描。
若要从集合中查看,请在数据映射中导航到 “集合 ”,然后选择“ 扫描 ”按钮。
选择扫描名称以查看详细信息。
或者,可以直接导航到“集合”中的数据源,然后选择“查看详细信息”以检查扫描状态。
扫描详细信息指示上次 运行状态 中的扫描进度,以及 扫描 和 分类的资产数。
“上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”
管理扫描
扫描完成后,可以对其进行管理或再次运行。
从集合列表或源页中选择 “扫描名称 ”以管理扫描。
可以再次 运行扫描 , 编辑扫描, 删除扫描
可以运行完全扫描,这将扫描范围中的所有内容,但某些源也提供 增量扫描 。 增量扫描将仅扫描自上次扫描以来已更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。
故障排除
为扫描设置连接可能会很复杂,因为它是针对网络和凭据的自定义设置。
如果无法连接到源,请执行以下步骤:
- 查看 源页 先决条件,确保未错过任何内容。
- 查看源页的 “扫描 ”部分中的身份验证选项,确认是否已正确设置身份验证方法。
- 查看排查 连接问题页面。
- 创建支持请求,以便我们的支持团队可以帮助你对特定环境进行故障排除。