重要
此功能目前以公共预览版提供。
本页介绍如何使用 Google Sheets Databricks 连接器 从 Google Sheets 连接到 Azure Databricks。 Databricks 加载项从 Google Sheets 中查询 Azure Databricks 数据,从而实现进一步分析。
在您开始之前
- 创建 Azure Databricks 工作区。 请参阅 “创建工作区”。
- 创建 Azure Databricks SQL 仓库。 请参阅 创建 SQL 仓库。
- 有权访问 Google Sheets。
- 安装 适用于 Google Sheets 的 Databricks 连接器。
- 如果 Azure Databricks 工作区启用了 IP 访问列表,则帐户管理员必须将 Google Cloud IP 列表添加到允许列表。
- 若要了解有关 IP 访问列表的详细信息,请参阅 为帐户控制台配置 IP 访问列表。
- 有关 Google Cloud IP 列表,请参阅 此 IP 列表。
将 Azure Databricks 数据导入 Google Sheets
使用用于 Google Sheets 的 Databricks 连接器将数据从 Azure Databricks 导入 Google Sheets,方法是连接到 Azure Databricks 工作区并编写或导入查询。
步骤 1:连接到 Azure Databricks 工作区
在 Google Sheets 中,选择 “扩展 > Databricks 连接器 > 启动”边栏 以打开连接器。
在 “登录 ”对话框中,输入 Azure Databricks 工作区 URL。 若要了解如何查找工作区 URL,请参阅 获取工作区对象的标识符。
- 工作区 URL 采用以下格式:
adb-<workspace-id>.<random-number>.azuredatabricks.net
- 工作区 URL 采用以下格式:
单击登录。
对话框提示你登录或显示登录状态。
步骤 2:将 Databricks 连接器用于 Google Sheets
Google Sheets 的 Databricks 加载项针对你在 Unity 目录中有权访问的数据运行查询,并将数据导入 Google Sheets。 连接器会自动将所有查询保存为导入。 可以在 Google Sheets 中刷新结果、重复使用现有查询和跟踪数据源。
(可选)在“数据”选项卡中,单击连接器边栏右上角的圆圈并选择您首选的 Databricks SQL 仓库。 连接器启动所选的 SQL 仓库。
若要编写新的 SQL 查询,请执行:
- 在连接器边栏中,对于 “源”,选择“ 创建新查询”。
- Databricks 建议输入查询的名称,以便可识别它。
- 可以浏览目录、架构和表。
- 在 查询文本中,输入 SQL 查询。
- 在 “高级”选项下,选择是否要将查询结果保存到新工作表或当前工作表中。
- 如果选择当前工作表,请指定要开始在其中添加数据的单元格。
若要从现有 SQL 查询更新或创建新查询,
- 在连接器边栏中,对于 源,选择 选择查询。
- 在 “查询”中,选择要使用的查询。
- 如果需要,请编辑查询。
(可选)若要向查询添加查询参数,请执行以下作:
- 确保查询至少有一个查询参数,格式为
:parameter_name. 有关查询参数的详细信息,请参阅 “使用查询参数”。 - 单击“ + 添加参数”。
- 在第一个框中输入参数。 请确保参数名称与在查询编辑器中输入的内容匹配。
- 在第二个框中输入参数值的工作表名称和单元格位置,包括工作表名称后面的感叹号。
- 若要添加更多查询参数,请再次单击“ + 添加参数 ”。
例如,以下查询包括查询参数,该参数
:trip_distance在工作表sheet_1、单元格 H1 中定义。
- 确保查询至少有一个查询参数,格式为
要运行查询:
- 对于新查询,请单击“ 保存和导入 ”以运行查询并填充工作表。
- 对于现有查询,请单击“ 更新和导入”。 如果要将更新的查询保存为新查询,请单击 “更新”和“导入 ”旁边的向下箭头,然后单击“ 另存为新建”。
重要
查询操作超过三分钟后会超时。 如果查询超出此限制,则会自动取消。 对于大型结果集,将立即写入前 1,000 行,并逐步提取剩余的数据。 如果数据提取中断,部分结果将保留在工作表中,可以通过重新运行查询来清除。
您的工作表已填入查询结果。
注释
导入数据后,查询将绑定到工作表。 更改工作表名称会中断映射。 有关如何处理名称更改的信息,请参阅 “限制”。
管理导入的数据
若要管理从 Azure Databricks 导入的数据,
- 选择连接器边栏中的“ 导入 ”选项卡。
- 若要刷新导入,请单击查询名称旁边的刷新图标。
- 若要查看导入与哪个工作表连接,请单击
在查询名称旁边,选择>“转到工作表”。
- 若要编辑导入,请单击
> 在 查询名称旁边编辑。
- 若要删除导入,请单击
在查询名称旁边单击> 删除。 这会删除查询,而不是导入 Google Sheets 中的数据。 必须手动删除导入的数据。
更改 Azure Databricks 工作区
若要更改连接到的 Azure Databricks 工作区,请执行以下操作:
- 选择 “扩展 > Databricks 连接器”> 更改工作区。
- 输入新的工作区 URL,并向工作区进行身份验证。
共享影响
加载项不会影响您共享 Google 表格的功能。 但是,共享文件的方式会影响收件人可以使用加载项执行的操作。
- 具有“查看者”或“注释者”角色的收件人无法访问加载项。
- 具有编辑器角色和等效数据资产访问权限的收件人可以使用其 Google 帐户的插件。 他们可以像所有者一样使用连接器。
- 具有编辑器角色和对基础资源的相同访问权限的收件人可以在登录到同一 Azure Databricks 工作区时刷新导入。
局限性
无法重命名或删除附加到现有导入的工作表。 如果这样做,则无法刷新导入。 若要解决此问题,请执行以下之一:
- 使用完全相同的名称重新创建工作表。
- 通过选择 “选择查询 ”作为源、重用导入并单击“ 另存为新建”来创建新的导入。
如果两个查询映射到相同或重叠的范围,加载项将显示最近执行的查询的结果。 这会覆盖以前导入的数据。