DBeaver 与 Azure Databricks 集成

备注

本文介绍由第三方开发的 DBeaver。 若要联系供应商,请查看 GitHub 上 dbeaver/dbeaver 存储库的 问题 页面。

DBeaver 是面向开发人员、数据库管理员、数据分析师、数据工程师和需要处理数据库的其他人的本地多平台数据库工具。 DBeaver 支持 Azure Databricks 和其他常用数据库。

本文介绍如何使用本地开发计算机来安装、配置和使用免费的开源 DBeaver Community Edition (CE)来处理 Azure Databricks 中的数据库。

备注

本文已使用 macOS、Databricks JDBC 驱动程序 版本 2.6.36 进行测试,DBeaver CE 版本 23.3.0。

要求

安装 DBeaver 之前,本地开发计算机必须满足以下要求:

  • Linux 64 位、macOS 或 Windows 64 位操作系统。 (支持 Linux 32 位,但不建议这样做。
  • Databricks JDBC 驱动程序 安装到本地开发计算机上,并从下载的 DatabricksJDBC42.jar 文件中提取 DatabricksJDBC42-<version>.zip 文件。

还必须具有 Azure Databricks 群集SQL 仓库 才能与 DBeaver 连接。

步骤 1:安装 DBeaver

下载并安装 DBeaver CE,如下所示:

  • Linux:从 DBeaver 网站上的 下载 页下载并运行其中一个 Linux 安装程序。 此页上也提供了 snapflatpak 安装选项。
  • macOS:使用 Homebrew 运行 brew install --cask dbeaver-community,或使用 MacPorts 运行 sudo port install dbeaver-community。 macOS 安装程序也可从 DBeaver 网站上的 下载 页获取。
  • Windows:使用 Chocolatey 运行 choco install dbeaver。 还可以从 DBeaver 网站上的 下载 页获取 Windows 安装程序。

步骤 2:配置适用于 DBeaver 的 Azure Databricks JDBC 驱动程序

使用前面下载的 Databricks JDBC 驱动程序的相关信息设置 DBeaver。

  1. 启动 DBeaver。
  2. 如果系统提示创建新数据库,请单击 “否”
  3. 如果系统提示你连接到或选择数据库,请单击 取消
  4. 单击 数据库 > 驱动程序管理器
  5. 驱动程序管理器 对话框中,单击 “新建”。
  6. 创建新驱动程序 对话框中,单击 选项卡。
  7. 单击“添加文件”
  8. 导航到提取 Azure Databricks JDBC 驱动程序的文件夹。
  9. 导航到下一级以找到 .jar 文件。
  10. 突出显示 .jar 文件,然后单击 打开
  11. 在“设置” 选项卡上,对于 驱动程序名称,请输入 Databricks
  12. 在“设置” 选项卡上,对于 类名,请输入 com.databricks.client.jdbc.Driver
  13. 单击“确定”。
  14. 驱动程序管理器 对话框中,单击 关闭

步骤 3:将 DBeaver 连接到 Azure Databricks 数据库

使用 DBeaver 连接到群集或 SQL 仓库,以访问 Azure Databricks 工作区中的数据库。

  1. 在 DBeaver 中,单击 数据库 > 新数据库连接

  2. 在“连接到数据库”对话框的“所有”选项卡上,单击“Databricks”,然后单击“下一步”

  3. 单击 “主”选项卡,然后在 Azure Databricks 资源的 JDBC URL 字段中输入值。 有关 JDBC URL 字段语法,请参阅 Databricks JDBC 驱动程序的身份验证设置

  4. 单击 “测试连接”

    提示

    在测试连接之前,应启动 Azure Databricks 资源。 否则,在资源启动时,测试可能需要几分钟才能完成。

  5. 如果连接成功,请在“连接测试”对话框中,单击“确定”

  6. 在“连接到数据库”对话框中,单击“完成”

数据库导航器 窗口中,将显示一个 Databricks 条目。 若要更改连接名称,使其更易于识别,请执行以下操作:

  1. 右键单击“Databricks”,然后单击“编辑连接”
  2. 连接配置 对话框中,单击 常规
  3. 对于 连接名称,请将 Databricks 替换为不同的连接名称。
  4. 单击“确定”。

对要访问 DBeaver 的每个资源重复此步骤中的说明。

步骤 4:使用 DBeaver 浏览数据对象

使用 DBeaver 访问 Azure Databricks 工作区中的数据对象,例如表和表属性、视图、索引、数据类型和其他数据对象类型。

  1. 在 DBeaver 的 数据库导航器 窗口中,右键单击要使用的连接。

  2. 如果 连接 已启用,请单击该选项。 (如果禁用了 连接,那么你已经连接上了。)

    提示

    在尝试连接到资源之前,应当启动资源。 否则,在资源启动时,连接可能需要几分钟才能完成。

  3. 展开刚才连接到的连接。

  4. 展开并浏览可用的数据对象。 双击数据对象以获取有关它的详细信息。

重复此步骤中的说明以访问其他数据对象。

步骤 5:使用 DBeaver 运行 SQL 语句

使用 DBeaver 从 trips 目录的 samples 架构加载示例 nyctaxi 表。

  1. 在 DBeaver 的 数据库导航器 窗口中,右键单击要使用的连接。

  2. 如果 连接 已启用,请单击该选项。 (如果禁用了 连接,那么你已经连接上了。)

    提示

    在尝试连接到资源之前,应当启动资源。 否则,在资源启动时,连接可能需要几分钟才能完成。

  3. 单击 SQL 编辑器 > 新建 SQL 脚本

  4. 在“(connection-name)Script-1 选项卡上,输入以下 SQL 语句:

    SELECT * FROM samples.nyctaxi.trips;
    
  5. 单击 SQL 编辑器 > 执行 SQL 脚本

后续步骤

其他资源