DBeaver 与 Azure Databricks 的集成
注意
本文介绍了 Databricks 既不提供也不支持的 DBeaver。 若要联系提供商,请参阅 GitHub 上 dbeaver/dbeaver 存储库的“问题”页。
DBeaver 是一个本地多平台数据库工具,适用于开发人员、数据库管理员、数据分析师、数据工程师以及需要使用数据库的其他人员。 DBeaver 支持 Azure Databricks 和其他常用数据库。
本文介绍了如何使用本地开发计算机来安装、配置和使用免费的开源 DBeaver Community Edition (CE),以使用 Azure Databricks 中的数据库。
注意
本文已使用 macOS、Databricks JDBC 驱动程序版本2.6.36 和 DBeaver CE 版本 23.3.0 进行了测试。
要求
安装 DBeaver 之前,本地开发计算机必须满足以下要求:
- Linux 64 位、macOS 或 Windows 64 位操作系统。 (支持 Linux 32 位,但不建议使用。)
- 将 Databricks JDBC Driver 下载到本地开发计算机上,并从下载的
DatabricksJDBC42-<version>.zip
文件中解压缩DatabricksJDBC42.jar
文件。
你还必须有 Azure Databricks 群集或 SQL 仓库才能连接 DBeaver。
步骤 1:安装 DBeaver
下载并安装 DBeaver CE,如下所述:
- Linux:从 DBeaver 网站的下载页面下载并运行 Linux 安装程序之一。 此页面上还提供了
snap
和flatpak
安装选项。 - macOS:使用 Homebrew 运行
brew install --cask dbeaver-community
,或使用 MacPorts 运行sudo port install dbeaver-community
。 DBeaver 网站的下载页面上也提供了 macOS 安装程序。 - Windows:使用 Chocolatey 运行
choco install dbeaver
。 DBeaver 网站的下载页面上也提供了 Windows 安装程序。
步骤 2:配置适用于 DBeaver 的 Azure Databricks JDBC 驱动程序
使用前面下载的 Databricks JDBC 驱动程序的相关信息设置 DBeaver。
- 启动 DBeaver。
- 如果系统提示你创建新数据库,请单击“否”。
- 如果系统提示你连接或选择数据库,请单击“取消”。
- 单击数据库>驱动程序管理器。
- 在“驱动程序管理器”对话框中,单击“新建”。
- 在“新建驱动程序”对话框中,单击“库”选项卡。
- 单击“添加文件”。
- 导航到提取 Azure Databricks JDBC 驱动程序的文件夹。
- 在较低级别导航以查找
.jar
文件。 - 突出显示
.jar
文件,然后单击打开。 - 在“设置”选项卡上,输入
Databricks
作为“驱动程序名称”。 - 在“设置”选项卡上,输入
com.databricks.client.jdbc.Driver
作为“类名”。 - 单击“确定”。
- 在“驱动程序管理器”对话框中,单击“关闭”。
步骤 3:将 DBeaver 连接到你的 Azure Databricks 数据库
使用 DBeaver 连接到群集或 SQL 仓库,以访问你的 Azure Databricks 工作区中的数据库。
在 DBeaver 中,单击数据库>新建数据库连接。
在“连接到数据库”对话框的“所有”选项卡上,单击“Databricks”,然后单击“下一步”。
单击“主要”选项卡,在你的 Azure Databricks 资源的“JDBC URL”字段中输入一个值。 有关“JDBC URL”字段语法,请参阅 Databricks JDBC 驱动程序的身份验证设置。
单击 “测试连接”。
提示
在测试连接之前,你应当启动 Azure Databricks 资源。 否则,测试会在资源启动的同时进行,可能需要几分钟才能完成。
如果连接成功,请在“连接测试”对话框中单击“确定”。
在“连接到数据库”对话框中,单击“完成”。
此时“数据库导航器”窗口中会显示一个“Databricks”条目。 若要更改连接名称,使其更易于识别,请执行以下操作:
- 右键单击“Databricks”,然后单击“编辑连接”。
- 在“连接配置”对话框中,单击“常规”。
- 对于“连接名称”,请将“
Databricks
”替换为另一个连接名称。 - 单击“确定”。
针对需要 DBeaver 访问的每个资源,按此步骤中的说明重复操作。
步骤 4:使用 DBeaver 浏览数据对象
使用 DBeaver 访问 Azure Databricks 工作区中的数据对象,例如表和表属性、视图、索引、数据类型和其他数据对象类型。
在 DBeaver 中的“数据库导航器”窗口中,右键单击要使用的连接。
如果“连接”按钮已启用,请单击它。 (如果“连接”按钮被禁用,则你已连接。)
提示
在尝试连接到资源之前,应当启动资源。 否则,连接会在资源启动的同时进行,可能需要几分钟才能完成。
展开刚才连接到的连接。
展开并浏览可用的数据对象。 双击该数据对象以获取有关它的详细信息。
按此步骤中的说明重复操作,以访问其他数据对象。
步骤 5:使用 DBeaver 运行 SQL 语句
使用 DBeaver 从 samples
目录的 nyctaxi
架构中加载示例 trips
表。
在 DBeaver 中的“数据库导航器”窗口中,右键单击要使用的连接。
如果“连接”按钮已启用,请单击它。 (如果“连接”按钮被禁用,则你已连接。)
提示
在尝试连接到资源之前,应当启动资源。 否则,连接会在资源启动的同时进行,可能需要几分钟才能完成。
单击 SQL 编辑器>新建 SQL 脚本。
在“(connection-name) Script-1”选项卡上,输入以下 SQL 语句:
SELECT * FROM samples.nyctaxi.trips;
单击“SQL 编辑器”>“执行 SQL 脚本”。
后续步骤
- 使用数据库对象编辑器来处理数据库对象属性、数据和实体关系图。
- 使用数据编辑器查看和编辑数据库表或视图中的数据。
- 使用 SQL 编辑器来处理 SQL 脚本。
- 在 DBeaver 中使用实体关系图 (ERD)。
- 在 DBeaver 中导入和导出数据。
- 使用 DBeaver 迁移数据。
- 排查 DBeaver 的 JDBC 驱动程序问题。