在 Microsoft Purview 中连接和管理 Google BigQuery 项目
本文概述了如何注册 Google BigQuery 项目,以及如何在 Microsoft Purview 中对 Google BigQuery 进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章。
支持的功能
元数据提取 | 完整扫描 | 增量扫描 | 作用域扫描 | 分类 | 标记 | 访问策略 | 血统 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 否 | 否 |
扫描 Google BigQuery 源时,Microsoft Purview 支持:
提取技术元数据,包括:
- 项目
- 数据集
- 包含列的表
- 包含列的视图
提取表和视图之间的资产关系的静态世系。
设置扫描时,可以选择扫描整个 Google BigQuery 项目,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的数据集子集。
已知限制
- 目前,Microsoft Purview 仅支持扫描美国多区域位置的 Google BigQuery 数据集。 如果指定的数据集位于其他位置(例如 us-east1 或 EU),你将观察到扫描完成,但 Microsoft Purview 中未显示任何资产。
- 从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。
先决条件
具有活动订阅的 Azure 帐户。 免费创建帐户。
有效的 Microsoft Purview 帐户。
需要数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
设置最新的 自承载集成运行时。 有关详细信息,请参阅 创建和配置自承载集成运行时指南。
确保在安装了自承载集成运行时的计算机上安装 了 JDK 11 。 在新安装 JDK 后重启计算机,使其生效。
确保在自承载集成运行时计算机上安装Visual C++ 可再发行程序包 (版本 Visual Studio 2012 Update 4 或更高版本) 。 如果未安装此更新, 可以在此处下载。
在运行自承载集成运行时的计算机上下载并解压缩 BigQuery JDBC 驱动程序 。 记下用于设置扫描的文件夹路径。
注意
自承载集成运行时应可以访问驱动程序。 默认情况下,自承载集成运行时使用本地服务帐户“NT SERVICE\DIAHostService”。 确保它具有驱动程序文件夹的“读取和执行”和“列出文件夹内容”权限。
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Google BigQuery 项目。
注册步骤
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 Microsoft Purview 治理门户 按钮。
在左侧导航中选择“ 数据映射 ”。
选择“ 注册”。
在“注册源”上,选择“ Google BigQuery ”。 选择“ 继续”。
在“注册源 (Google BigQuery) ”屏幕上,执行以下操作:
输入数据源将在目录中列出的 名称 。
输入 ProjectID。 这应该是完全限定的项目 ID。 例如,mydomain.com:myProject
选择集合或创建新集合 (可选)
选择“注册”。
扫描
按照以下步骤扫描 Google BigQuery 项目以自动识别资产。 有关一般扫描的详细信息,请参阅 扫描和引入简介。
创建并运行扫描
在“管理中心”中,选择“集成运行时”。 确保已设置自承载集成运行时。 如果未设置,请使用 此处提到的步骤。
导航到 “源”。
选择已注册的 BigQuery 项目。
选择“ + 新建扫描”。
提供以下详细信息:
名称:扫描的名称
通过集成运行时进行连接:选择配置的自承载集成运行时
凭据:配置 BigQuery 凭据时,请确保:
- 选择“ 基本身份验证” 作为“身份验证”方法
- 在“用户名”字段中提供服务帐户的电子邮件 ID。 例如,
xyz\@developer.gserviceaccount.com
- 按照以下步骤生成私钥,复制整个 JSON 密钥文件,然后将其存储为密钥保管库机密的值。
若要从 Google 的云平台创建新的私钥,请执行以下操作:
- 在导航菜单中,选择“IAM & 管理员” -> “服务帐户” -> 选择项目 ->
- 选择要为其创建密钥的服务帐户的电子邮件地址。
- 选择“ 密钥 ”选项卡。
- 选择 “添加密钥 ”下拉菜单,然后选择“创建新密钥”。
- 选择 JSON 格式。
注意
运行扫描进程时,私钥的内容保存在 VM 上的临时文件中。 扫描成功完成后,将删除此临时文件。 如果扫描失败,系统将继续重试,直到成功。 请确保在运行 SHIR 的 VM 上适当限制访问。
若要详细了解凭据,请参阅 此处的链接。
驱动程序位置:指定计算机中运行自主机集成运行时的 JDBC 驱动程序位置的路径,例如
D:\Drivers\GoogleBigQuery
。 它是有效 JAR 文件夹位置的路径。 请确保自承载集成运行时可以访问驱动程序,有关详细信息,请参阅 先决条件部分。数据集:指定要导入的 BigQuery 数据集的列表。 例如,dataset1;dataset2。 当列表为空时,将导入所有可用的数据集。 使用 SQL LIKE 表达式语法的可接受数据集名称模式包括使用 %。
示例:A%;%B;%C%;D
- 从 A 或 开始
- 以 B 结尾或
- 包含 C 或
- 等于 D
不能接受使用 NOT 和特殊字符。
最大可用内存:VM 上可供扫描进程使用的最大内存 () GB。 这取决于要扫描的 Google BigQuery 项目的大小。
选择“ 测试连接”。
选择 继续。
选择 扫描触发器。 可以设置计划或运行扫描一次。
查看扫描并选择“ 保存并运行”。
查看扫描和扫描运行
查看现有扫描:
- 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
- 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
- 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描,请执行以下操作:
转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描 ”来编辑扫描。
- 选择“取消扫描运行”, 取消正在进行的扫描。
- 通过选择“删除扫描” 来删除扫描。
注意
- 删除扫描不会删除从以前的扫描创建的目录资产。
- 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。
血统
扫描 Google BigQuery 源后,可以 浏览数据目录 或 搜索数据目录 以查看资产详细信息。
转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Google BigQuery 世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系 和 世系用户指南。
后续步骤
注册源后,请按照以下指南详细了解 Microsoft Purview 和数据。