第 2 部分:设置和注册数据
如果没有可用于扫描的数据源,可以按照这些步骤完全部署 Azure Data Lake Stroage (ADLS Gen2) 示例。
提示
如果与 Microsoft Purview 帐户在同一租户中已有数据源,请继续执行本部分的下一部分以扫描资产。
在房地产数据资产中,你会发现许多不同的系统用于不同的数据应用程序。 在 Fabric 和 Snowflake 等报表环境中,团队使用数据副本来生成分析解决方案并为报表和仪表板提供支持。 有一些操作数据系统支持应用程序团队或客户用于完成业务流程,这些业务流程基于在此过程中做出的决策收集或添加数据。
若要创建更真实的数据资产,建议在目录中显示许多数据源,这些数据源可以涵盖任何公司可能具有的不同数据用途的广度。 支持用例所需的数据类型可能与需要报表和仪表板的业务用户大相径庭,分析师需要符合的维度和事实来生成报表,数据科学家或数据工程师需要直接从收集数据的系统中的原始源数据,所有这些以及更多功能使不同的用户能够看到查找的重要性, 在同一位置理解和访问数据。
有关将数据添加到资产的其他教程,可以遵循以下指南:
- Fabric Lakehouse 教程 - 提供报告环境的基础
- Azure SQL数据库 (示例) - 提供了一个结构良好的操作数据存储示例
先决条件
- Azure 中的订阅: 立即创建 Azure 免费帐户
- 租户Microsoft Entra ID:Microsoft Entra ID 治理
- Microsoft Purview 帐户
- 管理员对 Microsoft Purview 帐户的访问权限 (如果创建了 Microsoft Purview 帐户,则这是默认设置。新 Microsoft Purview 门户预览中的权限 |Microsoft Learn)
- 所有资源;Microsoft Purview,数据源和Microsoft Entra ID必须位于同一云租户中。
设置数据资产的步骤
创建和填充存储帐户
- 按照本指南创建存储帐户:为Azure Data Lake Storage Gen2创建存储帐户
- 为新的数据湖创建容器:
- 导航到存储帐户的“概述”页。
- 选择“数据存储”部分下的“ 容器 ”选项卡。
- 选择“ + 容器 ”按钮
- 名称为“bronze”,然后选择“ 创建 ”按钮
- 重复这些步骤以创建“黄金”容器
- 从 data.gov 下载一些示例 CSV 数据:按年龄组划分的 Covid-19 疫苗接种和病例趋势,美国
- 将 CSV 上传到创建的存储帐户中名为“bronze”的容器。
- 选择名为“bronze”的容器,然后选择“ 上传 ”按钮。
- 浏览保存 CSV 的位置,然后选择 “Covid-19_Vaccination_Case _Trends ”文件。
- 选择“上传”。
创建Azure 数据工厂
此步骤将演示数据如何在奖牌数据湖的层之间移动,并确保数据采用使用者预期使用的标准化格式,这是运行数据质量的先决条件步骤。
按照本指南创建Azure 数据工厂:创建Azure 数据工厂
使用以下Azure 数据工厂指南:使用映射数据流转换数据,将数据从“bronze”容器中的数据作为 Delta 格式表复制到“gold”容器
通过选择创建的 ADF 资源的“概述”选项卡上的“启动工作室”按钮,从Azure 门户打开Azure 数据工厂 ( ADF) 体验。
在 ADF 工作室中选择“ 创作 ”选项卡。
选择 + 按钮,然后从下拉菜单中选择 “数据流 ”。
将数据流命名为“CSVtoDeltaC19VaxTrends”。
在空框中 选择“添加源 ”。
将“源设置”设置为:
- 输出流名称:“C19csv”
- 说明:留空
- 源类型:内联
- 内联数据集类型:带分隔符的文本
- 链接服务:选择存储 csv 的数据湖
将“源选项”设置为:
- 文件模式:文件
- 文件路径:/bronze/ Covid-19_Vaccination_Case _Trends
- 不允许找到任何文件:保持未选中状态
- 更改数据捕获:保留未选中状态
- 压缩类型:无
- 编码:默认 (UTF-8)
- 列分隔符:逗号 (,)
- 行分隔符:默认 (\r、\n 或\r\n)
- 引号字符:双引号 (“)
- 转义字符:反斜杠 ()
- 第一行作为标题:CHECKED
- 将其余部分保留为默认值
选择创建的源 旁边的小 + ,然后选择 接收器
创建接收器,在其中存储数据的格式和位置,以便将数据从“bronze”中的 csv 移动到“gold”中的增量表。
- 设置接收器值 (将所有设置保留为默认值,除非指定)
- 接收器类型:内联
- 内联数据集类型:增量
- 链接服务:与源中使用的数据湖相同,因为我们将存储在不同的容器中。
设置设置值 (将所有设置保留为默认值,除非指定)
- 文件夹路径:gold/Covid19 疫苗和病例趋势
需要输入值,因为此名称是我们希望数据的存储方式,并且不存在要选择的名称。
选择“ 验证”,这会检查数据流并提供修复任何错误的说明。
选择“ 全部发布”。
选择 + 按钮,然后从下拉菜单中选择管道
将管道命名为“CSV 到增量 C19 Vax 趋势”
选择在前面步骤 CSV 到 Delta (C19VaxTrends) 中创建的数据流,并将其拖放到打开的管道选项卡上。
选择 “验证”
选择 “发布”
选择“ 调试 ” (使用活动运行时) 来运行管道。
提示
如果遇到空格错误或增量格式不适当的字符:打开下载的 CSV 并更正。 然后,重新上传并覆盖青铜区域中的 CSV。 然后重新运行管道。
导航到数据湖中的黄金容器,现在应会看到在管道期间创建的新 Delta 表。
扫描资产
如果尚未将数据资产扫描到Microsoft Purview 数据映射,则可以按照以下步骤填充数据映射。
扫描数据资产中的源将自动收集数据资产的元数据, (这些源中的表、文件、文件夹、报表等 ) 。 通过注册数据源并创建扫描,可以建立对目录中显示的源和资产的技术所有权,并确保可以控制谁可以访问 purview Microsoft 中的哪些元数据。 通过在域级别注册和存储源和资产,它将存储在访问层次结构的最高级别。 通常,最好创建一些集合,在其中扫描资产元数据并为该数据建立正确的访问层次结构。
-
为 Microsoft Purview 托管标识 (MSI 提供读取者访问权限,) 数据湖或其他数据存储。
提示
MSI 是 Microsoft Purview 实例的帐户名称。
如果选择使用 Microsoft Fabric 或 SQL,可以使用以下指南提供访问权限:
注册数据湖并扫描资产
在“域”选项卡下的“Microsoft Purview 数据映射”中,选择域的角色分配, (它将是Microsoft Purview 帐户的名称) :
- 将自己添加为数据源管理员和数据策展人到域。
- 选择“ 数据源管理员”角色旁边的人员图标。
- 在名称中搜索Microsoft Entra ID (它可能需要输入完全如Microsoft Entra ID) 中拼写的全名。
- 选择“确定”。
- 为数据策展人重复这些步骤。
- 将自己添加为数据源管理员和数据策展人到域。
注册数据湖:
- 选择“ 数据源 ”选项卡。
- 选择“注册”。
- 选择Azure Data Lake Storage Gen2存储类型。
提供连接的详细信息:
- 订阅 (可选)
- 数据源名称 (这是 ADLS Gen2 源) 的名称
- 应在其中存储资产元数据的集合 (可选)
- 选择 “注册”
数据源注册完成后,可以配置扫描。 注册表示Microsoft Purview 已连接到数据源,并将其置于正确的集合中以获取所有权。 然后,扫描将从源读取元数据并填充数据映射中的资产。
选择在“数据源”选项卡中注册的源
选择“新扫描”并提供详细信息:
- 对此扫描使用默认集成运行时
- 凭据应Microsoft Purview MSI (系统)
- 扫描级别为自动检测
- 选择集合或使用域 (集合必须是注册数据源的同一集合或子集合)
- 选择“继续”
提示
此时,Microsoft Purview 将测试连接,以验证是否可以完成扫描。 如果尚未授予 Microsoft Purview MSI 读取器对数据源的访问权限,它将失败。 如果你不是数据源所有者或具有用户访问权限参与者扫描将失败,因为它要求你有权创建连接。
现在,仅选择容器“gold”,我们将增量表置于本教程的“生成数据”部分。 这将阻止扫描数据存储中的任何其他数据资产。
- 黄金旁边应该只有一个蓝色检查,你可以在所有内容旁边保留检查,因为它将扫描完整的源,仍然创建我们将使用的资产等。
- 选择“ 继续”
在“选择扫描规则集”屏幕中,应使用默认扫描规则集。
选择“ 继续”
在设置扫描触发器中,你将设置扫描的频率,以便在继续将数据资产添加到湖的黄金容器时,它会继续填充数据映射。 选择“ 一次”。
选择 继续。
选择“ 保存并运行”。 这将创建一个扫描,该扫描将仅从数据湖的黄金容器读取元数据,并填充我们将在后续部分Microsoft Purview 数据目录中使用的表。 如果仅选择“保存”,则不会运行扫描,并且不会看到资产。 扫描运行后,你将看到创建的扫描, 上次运行 状态为 “已排队”。 扫描读取完成后,你的资产已准备好用于下一部分。 这可能需要几分钟或数小时,具体取决于源中的资产数量。