重要
Lakebase 自动缩放在以下区域处于 Beta 版本:eastus2,westeurope,westus。
Lakebase 自动缩放是最新版本的 Lakebase,可自动缩放计算、缩放到零、分支和即时还原。 有关 与 Lakebase 预配的功能比较,请参阅 在版本之间进行选择。
几分钟内即可完成 Lakebase Postgres 的启动与运行。 创建第一个项目,连接到数据库,并浏览包括 Unity 目录集成在内的关键功能。
创建第一个项目
从应用切换器打开 Lakebase 应用。
选择 “自动缩放 ”以访问 Lakebase 自动缩放 UI。
单击“新建项目”。 为项目命名并选择 Postgres 版本。 项目是使用一个单独的 production 分支、默认 databricks_postgres 数据库以及为该分支配置的计算资源创建的。
您的电脑可能需要几分钟才能激活。 默认情况下,分支的 production 计算资源始终开启(已禁用缩放到零),但可以根据需要配置此设置。
项目的区域会自动设置为工作区区域。 有关详细配置选项,请参阅 “创建项目”。
连接到数据库
在项目中,选择 生产 分支并单击“ 连接”。 可以通过 OAuth 身份验证使用 Databricks 身份进行连接,也可以创建本地 Postgres 密码角色。 连接字符串适用于标准 Postgres 客户端,例如 psqlpgAdmin 或任何与 Postgres 兼容的工具。
创建新的工程项目时,会自动为 Databricks 身份(例如 user@databricks.com)创建一个 Postgres 角色。 此角色拥有默认 databricks_postgres 数据库,并且是 databricks_superuser 的成员,因此获得了广泛特权来管理数据库对象。
若要使用 Databricks 身份通过 OAuth 进行连接,请从连接对话框中复制 psql 连接片段。
psql 'postgresql://your-email@databricks.com@ep-abc-123.databricks.com/databricks_postgres?sslmode=require'
在 psql 终端中输入连接命令后,系统会提示你提供 OAuth 令牌。 单击连接对话框中的 “复制 OAuth 令牌 ”选项获取令牌。
有关连接详细信息和身份验证选项,请参阅 快速入门。
创建首个表
Lakebase SQL 编辑器预加载了示例 SQL,可帮助你入门。 在项目中,选择 生产 分支,打开 SQL 编辑器,并运行提供的语句来创建 playing_with_lakebase 表并插入示例数据。 还可以使用表编辑器进行视觉数据管理或连接到外部 Postgres 客户端。
详细了解查询选项:SQL 编辑器 | | Postgres 客户端
在 Unity 目录中注册
在生产分支上创建了一个表后,让我们在 Unity 目录中注册数据库,以便可以从 Databricks SQL 编辑器查询该数据。
- 使用应用切换器导航到 Lakehouse。
- 在目录资源管理器中,单击加号图标并 创建目录。
- 输入目录名称(例如
lakebase_catalog)。 - 选择 Lakebase Postgres 作为目录类型并启用 自动缩放 选项。
- 选择项目、
production分支和databricks_postgres数据库。 - 单击 “创建” 。
现在,可以使用 SQL 仓库查询 playing_with_lakebase 刚刚从 Databricks SQL 编辑器创建的表:
SELECT * FROM lakebase_catalog.public.playing_with_lakebase;
这使联合查询能够将你的 Lakebase 事务数据与 Lakehouse 分析结合在一起。 有关详细信息,请参阅 在 Unity Catalog 中进行注册。
使用反向 ETL 同步数据
你刚刚了解了如何在 Unity 目录中使 Lakebase 数据可查询。 Lakebase 也以相反的方向工作:将特选的分析数据从 Unity 目录引入 Lakebase 数据库。 如果扩充了 Lakehouse 中计算的数据、ML 功能或聚合指标,这些指标需要由具有低延迟事务查询的应用程序提供服务,这非常有用。
首先,在 Unity 目录中创建一个表示分析数据的表。 打开 SQL 仓库或笔记本并运行:
CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
(1001, 'premium', 2500.00, 'high'),
(1002, 'standard', 450.00, 'medium'),
(1003, 'premium', 3200.00, 'high'),
(1004, 'basic', 120.00, 'low')
AS segments(user_id, tier, lifetime_value, engagement);
现在将此表同步到 Lakebase 数据库:
- 在 Lakehouse Catalog Explorer 中,导航到 main>default>user_segments。
- 单击“ 创建>同步表”。
- 配置同步:
-
表名:输入
user_segments_synced。 - 数据库类型:选择 Lakebase 无服务器(自动缩放)。
- 同步模式:为一次性数据同步选择 快照 。
- 选择项目、 生产 分支和
databricks_postgres数据库。
-
表名:输入
- 单击 “创建” 。
同步完成后,表将显示在 Lakebase 数据库中。 同步过程在 Postgres 中创建一个 default 架构以匹配 Unity 目录架构,因此 main.default.user_segments_synced 会变为 default.user_segments_synced此架构。 使用应用切换器导航回 Lakebase 并在 Lakebase SQL 编辑器中查询它:
SELECT * FROM "default"."user_segments_synced" WHERE "engagement" = 'high';
湖仓分析功能现在已经可以用于事务数据库中的实时服务。 有关连续同步、高级配置和数据类型映射,请参阅 反向 ETL。