Microsoft Purview 数据世系最佳做法
数据世系被广泛理解为跨越数据起源的生命周期,以及数据在数据资产中随时间推移的位置。 Microsoft Purview 可以在组织数据资产的不同部分以及不同准备级别捕获数据世系,包括:
- 从各种平台暂存的原始数据
- 转换和准备的数据
- 可视化平台使用的数据
为什么需要采用世系?
数据世系是描述存在哪些数据、数据存储位置以及数据如何在系统之间流动的过程。 数据世系很重要的原因有很多,但从较高层面上讲,这些都可以归结为三个类别,我们将在此处探讨:
- 跟踪报表中的数据
- 影响分析
- 捕获更改以及数据在数据生命周期中的驻留位置
Azure 数据工厂世系最佳做法和注意事项
Azure 数据工厂 实例
在数据工厂连接状态变为“已连接”之前,不会自动向目录报告数据世系。 状态的其余部分“已断开连接”和“无法访问”无法捕获世系。
每个数据工厂实例只能连接到一个 Microsoft Purview 帐户。 可以在另一个 Microsoft Purview 帐户中建立新连接,但这会将现有连接变为断开连接。
数据工厂的托管标识用于对 Microsoft Purview 帐户中的世系推送操作进行身份验证。 数据工厂的托管标识需要 Microsoft Purview 根集合上的数据管理员角色。
目前,一次只能连接 10 个数据工厂。 如果要添加 10 个以上的数据工厂,请使用向导一次添加 10 个新的数据工厂连接,或使用 API 在一次操作中连接 10 个以上的数据工厂。
Azure 数据工厂活动
Microsoft Purview 从以下Azure 数据工厂活动中捕获运行时世系:
如果源或目标使用不受支持的数据存储系统,则 Microsoft Purview 会删除世系。
- 复制活动中支持的数据源复制活动连接到Azure 数据工厂
- 数据流连接到Azure 数据工厂支持,列出了数据流活动中支持的数据源
- SSIS 中支持的数据源已列出 SSIS 执行包活动支持来自 SQL Server Integration Services 的世系
如果Azure 数据工厂复制活动使用“连接到Azure 数据工厂复制活动世系的限制”中列出的复制活动功能,则 Microsoft Purview 无法捕获世系
对于数据流活动的世系,Microsoft Purview 仅支持源和接收器。 尚不支持数据流转换的世系。
数据流世系不与 Microsoft Purview 资源集集成。 资源集示例:
限定名称: https://myblob.blob.core.windows.net/sample-data/data{N}.csv 显示名称:“data”对于执行 SSIS 包活动的世系,我们仅支持源和目标。 尚不支持用于转换的世系。
请参阅以下分步指南,在 Microsoft Purview 中推送Azure 数据工厂世系。