Použití IntelliJ IDEA s Připojení Databricks pro Scala

Článek
04/19/2024

Poznámka:

Tento článek se zabývá Připojení Databricks pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat Databricks Připojení pro Scala a IntelliJ IDEA s modulem plug-in Scala. Databricks Připojení umožňuje připojení oblíbených prostředí IDEs, serverů poznámkových bloků a dalších vlastních aplikací ke clusterům Azure Databricks. Podívejte se, co je Databricks Připojení?.

Poznámka:

Než začnete používat databricks Připojení, musíte nastavit klienta Připojení Databricks.

Pokud chcete použít Databricks Připojení a IntelliJ IDEA s modulem plug-in Scala k vytvoření, spuštění a ladění ukázkového projektu Scalasbt, postupujte podle těchto pokynů. Tyto pokyny byly testovány v IntelliJ IDEA Community Edition 2023.3.6. Pokud používáte jinou verzi nebo edici IntelliJ IDEA, můžou se následující pokyny lišit.

Ujistěte se, že je sada Java Development Kit (JDK) nainstalovaná místně. Databricks doporučuje, aby vaše místní verze sady JDK odpovídala verzi sady JDK ve vašem clusteru Azure Databricks.
Spusťte IntelliJ IDEA.
Klikněte na Soubor > nový > projekt.
Dejte projektu nějaký smysluplný název.
V části Umístění klikněte na ikonu složky a podle pokynů na obrazovce zadejte cestu k novému projektu Scala.
V případě jazyka klikněte na Scala.
V případě systému sestavení klikněte na tlačítko sbt.
V rozevíracím seznamu JDK vyberte existující instalaci sady JDK na vývojovém počítači, která odpovídá verzi sady JDK v clusteru, nebo vyberte Stáhnout sadu JDK a podle pokynů na obrazovce stáhněte sadu JDK, která odpovídá verzi sady JDK ve vašem clusteru.

Poznámka:

Volba instalace sady JDK, která je vyšší nebo nižší než verze sady JDK ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
V rozevíracím seznamu sbt vyberte nejnovější verzi.
V rozevíracím seznamu Scala vyberte verzi Scala, která odpovídá verzi Scala ve vašem clusteru.

Poznámka:

Volba verze Scala, která je nižší nebo vyšší než verze Scala ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
Jako předponu balíčku zadejte hodnotu předpony balíčku pro zdroje projektu, například org.example.application.
Ujistěte se, že je zaškrtnuté políčko Přidat vzorový kód .
Klikněte na Vytvořit.
Přidejte balíček Připojení Databricks: s otevřeným novým projektem Scala v okně nástroje Projektu (zobrazit > projekt Windows Tool) >otevřete soubor s názvem build.sbtv cíli názvu> projektu.
Na konec build.sbt souboru přidejte následující kód, který deklaruje závislost projektu na konkrétní verzi knihovny Připojení Databricks pro Scala:
```
libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
```
Nahraďte 14.3.1 verzí knihovny Připojení Databricks, která odpovídá verzi Databricks Runtime ve vašem clusteru. Čísla verzí knihovny Databricks Připojení najdete v centrálním úložišti Maven.
Kliknutím na tlačítko Načíst sbt změní ikonu oznámení a aktualizujte projekt Scala novým umístěním knihovny a závislostí.
Počkejte, až sbt indikátor průběhu v dolní části integrovaného vývojového prostředí zmizí. Dokončení sbt procesu načítání může trvat několik minut.
Přidejte kód: v okně nástroje Project otevřete soubor s názvem Main.scala, v názvu projektu> src > main > scala.

Nahraďte veškerý existující kód v souboru následujícím kódem a pak soubor uložte:

package org.example.application

import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.SparkSession

object Main {
  def main(args: Array[String]): Unit = {
    val spark = DatabricksSession.builder().remote().getOrCreate()
    val df = spark.read.table("samples.nyctaxi.trips")
    df.limit(5).show()
  }
}

Spusťte kód: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks.
Po spuštění clusteru v hlavní nabídce klikněte na Spustit > "Main".
V okně nástroje Spustit (Zobrazit > nástroj Windows > Spustit) se na kartě Hlavní zobrazí prvních 5 řádků samples.nyctaxi.trips tabulky. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.
Ladění kódu: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks, pokud ještě není spuštěný.
V předchozím kódu klikněte na hřbet vedle df.limit(5).show() a nastavte zarážku.
Po spuštění clusteru v hlavní nabídce klikněte na Spustit ladění > Main.
V okně nástroje Ladění (Zobrazit > nástroj Windows > Ladění) na kartě Konzola klikněte na ikonu kalkulačky (Vyhodnocení výrazu).
Zadejte výraz df.schema a kliknutím na Vyhodnotit zobrazte schéma datového rámce.
Na bočním panelu okna nástroje Ladění klikněte na zelenou šipku (Resume Program).
V podokně Konzola se zobrazí prvních 5 řádků samples.nyctaxi.trips tabulky. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.

Sdílet prostřednictvím

Použití IntelliJ IDEA s Připojení Databricks pro Scala

Váš názor

Váš názor

Další materiály