在 Microsoft Purview 中连接和管理 Hive 元存储数据库

本文概述了如何注册 Hive 元存储数据库,以及如何在 Microsoft Purview 中对 Hive 元存储数据库进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章

支持的功能

元数据提取 完整扫描 增量扫描 作用域扫描 分类 标记 访问策略 血统 数据共享 实时视图
是的*

* 除了数据源中资产的世系之外,如果数据集用作 数据工厂Synapse 管道中的源/接收器,也支持沿袭。

支持的 Hive 版本为 2.x 到 3.x。 支持的平台是 Apache Hadoop、Cloudera 和 Hortonworks。 如果要扫描 Azure Databricks,建议使用更兼容且用户更友好的 Azure Databricks 连接器

扫描 Hive 元存储源时,Microsoft Purview 支持:

  • 提取技术元数据,包括:

    • 服务器
    • Databases
    • 表,包括列、外键、唯一约束和存储说明
    • 视图,包括列和存储说明
  • 提取表和视图之间的资产关系的静态世系。

设置扫描时,可以选择扫描整个 Hive 元存储数据库,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的架构子集。

已知限制

从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。

先决条件

注册

本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Hive 元存储数据库。

Hive 元存储数据库唯一支持的身份验证是基本身份验证。

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 在左窗格中选择“ 数据映射 ”。

  3. 选择“注册”。

  4. “注册源”中,选择“ Hive 元存储>继续”。

  5. “注册源 (Hive 元存储) ”屏幕上,执行以下操作:

    1. 对于 “名称”,请输入 Microsoft Purview 将列为数据源的名称。

    2. 对于 Hive 群集 URL,请输入从 Ambari URL 获取的值。 例如,输入 hive.azurehdinsight.net

    3. 对于 Hive 元存储服务器 URL,请输入服务器的 URL。 例如,输入 sqlserver://hive.database.windows.net

    4. 对于 “选择集合”,请从列表中选择一个集合或创建一个新集合。 此为可选步骤。

    显示用于注册 Hive 源的框的屏幕截图。

  6. 选择“完成”

扫描

提示

若要排查扫描的任何问题,请:

  1. 确认已遵循所有 先决条件
  2. 查看 扫描故障排除文档

使用以下步骤扫描 Hive 元存储数据库以自动标识资产。 有关一般扫描的详细信息,请参阅 Microsoft Purview 中的扫描和引入

  1. 在“管理中心”中,选择“集成运行时”。 确保已设置自承载集成运行时。 如果未设置,请使用 创建和管理自承载集成运行时中的步骤。

  2. 转到 “源”。

  3. 选择已注册的 Hive 元存储数据库。

  4. 选择“ + 新建扫描”。

  5. 提供以下详细信息:

    1. 名称:输入扫描的名称。

    2. 通过集成运行时进行连接:选择配置的自承载集成运行时。

    3. 凭据:选择要连接到数据源的凭据。 请确保:

      • 创建凭据时选择“基本身份验证”。
      • 在相应的框中提供元存储用户名。
      • 将元存储密码存储在密钥中。

      有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据

    4. 元存储 JDBC 驱动程序位置:指定运行自主机集成运行时的计算机中的 JDBC 驱动程序位置的路径, D:\Drivers\HiveMetastore例如 。 它是有效 JAR 文件夹位置的路径。 请确保自承载集成运行时可以访问驱动程序,有关详细信息,请参阅 先决条件部分

    5. 元存储 JDBC 驱动程序类:提供连接驱动程序的类名称。 例如,输入 \com.microsoft.sqlserver.jdbc.SQLServerDriver

    6. 元存储 JDBC URL:提供连接 URL 值并定义与元存储数据库服务器 URL 的连接。 例如:jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300

      注意

      hive-site.xml复制 URL 时,从字符串中删除 amp; ,否则扫描将失败。

      将 SSL 证书下载 到自承载集成运行时计算机,然后在 URL 中更新 SSL 证书在计算机上位置的路径。

      在扫描配置中输入本地文件路径时,请将 Windows 路径分隔符字符从反斜杠 () \ 更改为正斜杠 (/) 。 例如,如果将 SSL 证书放置在本地文件路径 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem,请将 serverSslCert 参数值更改为 D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

      元存储 JDBC URL 值将类似于以下示例:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. 元存储数据库名称:提供 Hive 元存储数据库的名称。

    8. 架构:指定要导入的 Hive 架构的列表。 例如: schema1;schema2

      如果该列表为空,则导入所有用户架构。 所有系统架构 (例如,默认情况下,SysAdmin) 和 对象将被忽略。

      使用 SQL LIKE 表达式语法的可接受架构名称模式包括百分号 (%) 。 例如, A%; %B; %C%; D 表示:

      • 从 A 或 开始
      • 以 B 或 结尾
      • 包含 C 或
      • 等于 D

      NOT不接受使用 和 特殊字符。

    9. 最大可用内存:客户计算机上可供扫描进程使用的最大内存 () GB。 此值取决于要扫描的 Hive 元存储数据库的大小。

      注意

      作为经验法则,请为每 1000 个表提供 1GB 内存。

    显示扫描详细信息框的屏幕截图。

  6. 选择 继续

  7. 对于 “扫描触发器”,选择是设置计划还是运行扫描一次。

  8. 查看扫描并选择“ 保存并运行”。

查看扫描和扫描运行

查看现有扫描:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。
  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描
  3. 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描,请执行以下操作:

  1. 转到 Microsoft Purview 治理门户。 在左窗格中,选择“ 数据映射”。

  2. 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描 ”来编辑扫描
    • 选择“取消扫描运行”, 取消正在进行的扫描
    • 通过选择“删除扫描” 来删除扫描

注意

  • 删除扫描不会删除从以前的扫描创建的目录资产。
  • 如果源表已更改,并且你在 Microsoft Purview 的“ 架构 ”选项卡上编辑说明后重新扫描源表,则资产将不再使用架构更改进行更新。

血统

扫描 Hive 元存储源后,可以 浏览数据目录搜索数据目录 以查看资产详细信息。

转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Hive 元存储世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系世系用户指南

后续步骤

注册源后,请使用以下指南详细了解 Microsoft Purview 和数据: