迁移到适用于 Scala 的 Databricks Connect

注意

适用于 Scala 的 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect 为公开预览版

本文介绍如何从适用于 Databricks Runtime 12.2 LTS 及更低版本的 Databricks Connect 迁移到适用于 Databricks Runtime 13.3 LTS 的 Databricks Connect 以及适用于 Scala 的更高版本。 Databricks Connect 使你能够将常用 IDE、笔记本服务器和自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Partner Connect?。 有关本文的 Python 版本,请参阅迁移到适用于 Python 的 Databricks Connect

注意

在开始使用 Databricks Connect 之前,必须先设置 Databricks Connect 客户端

  1. 安装安装要求中列出的、与你的 Azure Databricks 群集相符的正确 Java 开发工具包 (JDK) 和 Scala 版本(如果尚未在本地安装)。

  2. 在 Scala 项目的生成文件中,例如 build.sbt (sbt)、pom.xml (Maven) 或 build.gradle (Gradle),更新对 Databricks Connect 客户端的以下引用:

    Sbt

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
    

    Maven

    <dependency>
      <groupId>com.databricks</groupId>
      <artifactId>databricks-connect</artifactId>
      <version>14.0.0</version>
    </dependency>
    

    Gradle

    implementation 'com.databricks.databricks-connect:14.0.0'
    

    14.0.0 替换为与群集上的 Databricks Runtime 版本匹配的 Databricks Connect 库版本。 可以在 Maven 中央存储库中找到 Databricks Connect 库版本号。

  3. 更新 Scala 代码以初始化 spark 变量(表示 DatabricksSession 类的实例化,类似于 Spark 中的 SparkSession)。 有关代码示例,请参阅适用于 Scala 的 Databricks Connect 代码示例