扫描 Microsoft Purview 中的数据源
在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构并将分类应用于数据。
本文介绍扫描任何数据源的基本步骤。
提示
每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。
下面是当前可在 Purview 中注册和扫描的所有源的列表Microsoft。
必须先执行以下步骤,然后才能扫描数据源:
-
注册数据源 - 这实质上是Microsoft Purview 提供数据源的地址,并将其映射到Microsoft Purview 数据映射中的集合或域。
- 考虑网络, 并为方案选择正确的集成运行时配置。
- 请考虑要用于连接到源的凭据。 所有 源页面 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。
在以下步骤中,我们将使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。
重要
以下是创建扫描的常规步骤,但应参阅 源页 ,了解特定于源的先决条件和扫描说明。
打开 Microsoft Purview 门户,导航到 “数据映射 ->数据源 ”,在地图或表视图中查看已注册的源。
提示
如果数据映射具有大量已注册的源,则表视图的性能可能更高。
找到源并选择“ 新建扫描 ”图标。
提供扫描 的名称 。
选择身份验证方法。 在这里,我们选择了 Purview MSI (托管标识。)
选择用于扫描的当前域、集合或子集合。 你选择的集合或域将容纳扫描期间发现的元数据。
备注
扫描将始终与已注册的源位于同一域中,但可以选择子集合。
选择“ 测试连接”。 如果未成功,请参阅[故障排除]部分。 成功连接后,选择“ 继续”。
根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,可以通过选择列表中的相应项来选择文件夹和子文件夹。
选择扫描规则集。 扫描规则集包含扫描将为其检查的数据分类类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集。
备注
只能选择与源注册的域关联的凭据和扫描规则集。
选择扫描触发器。 可以设置计划或运行扫描一次。 详细了解支持的 计划选项。
查看扫描并选择“ 保存并运行”。
设置扫描时,可以选择一次/按需运行扫描,或按定期计划运行扫描。 可以配置以下计划选项:
-
时区:选择要与扫描计划保持一致的时区。 如果选择的时区遵循夏令时,触发器将针对差值自动调整。
-
定期:可以选择 每日、 每周或 每月 扫描重复周期。
-
每日重复周期:将定期设置为每 X 天 () ,并指定一天的扫描开始时间。
-
每周重复周期:将定期设置为每 X 周 () ,选择一天或多天 (周) ,并指定一天的扫描开始时间。
-
每月定期:将重复周期设置为每 X 个月 () ,选择按月天数或按工作日,选择一天或多天 () /工作日 (月份的) ,并指定当天的扫描开始时间。
-
开始重复时间:设置扫描计划开始的时间。
-
指定定期结束日期 (可选) :如果要在一定时间后停止扫描,可以通过选择“检查”框来启用此选项,并提供结束日期。
根据数据源中的数据量,扫描可能需要一些时间才能运行,因此,下面介绍如何检查进度并在扫描完成时查看结果。
可以从集合、域或源本身查看扫描。
若要从集合或域中查看,请在数据映射中导航到 “集合 ”或“ 域 ”,然后选择“ 扫描 ”按钮。
选择扫描名称以查看详细信息。
或者,可以直接导航到其集合或域中的数据源,然后选择“查看详细信息”以检查扫描状态。
扫描详细信息指示上次 运行状态 中的扫描进度,以及 扫描 和 分类的资产数。
“上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”
扫描完成后,可以对其进行管理或再次运行。
从集合列表或源页中选择 “扫描名称 ”以管理扫描。
可以再次 运行扫描 , 编辑扫描, 删除扫描
可以运行完全扫描,这将扫描范围中的所有内容,但某些源也提供 增量扫描 。 增量扫描将仅扫描自上次扫描以来已更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。
为扫描设置连接可能会很复杂,因为它是针对网络和凭据的自定义设置。
如果无法连接到源,请执行以下步骤:
- 查看 源页 先决条件,确保未错过任何内容。
- 查看源页的 “扫描 ”部分中的身份验证选项,确认是否已正确设置身份验证方法。
- 查看排查 连接问题页面。
-
创建支持请求,以便我们的支持团队可以帮助你对特定环境进行故障排除。