Použití IntelliJ IDEA s Připojení Databricks pro Scala
Poznámka:
Tento článek se zabývá Připojení Databricks pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat Databricks Připojení pro Scala a IntelliJ IDEA s modulem plug-in Scala. Databricks Připojení umožňuje připojení oblíbených prostředí IDEs, serverů poznámkových bloků a dalších vlastních aplikací ke clusterům Azure Databricks. Podívejte se, co je Databricks Připojení?.
Poznámka:
Než začnete používat databricks Připojení, musíte nastavit klienta Připojení Databricks.
Pokud chcete použít Databricks Připojení a IntelliJ IDEA s modulem plug-in Scala k vytvoření, spuštění a ladění ukázkového projektu Scalasbt
, postupujte podle těchto pokynů. Tyto pokyny byly testovány v IntelliJ IDEA Community Edition 2023.3.6. Pokud používáte jinou verzi nebo edici IntelliJ IDEA, můžou se následující pokyny lišit.
Ujistěte se, že je sada Java Development Kit (JDK) nainstalovaná místně. Databricks doporučuje, aby vaše místní verze sady JDK odpovídala verzi sady JDK ve vašem clusteru Azure Databricks.
Spusťte IntelliJ IDEA.
Klikněte na Soubor > nový > projekt.
Dejte projektu nějaký smysluplný název.
V části Umístění klikněte na ikonu složky a podle pokynů na obrazovce zadejte cestu k novému projektu Scala.
V případě jazyka klikněte na Scala.
V případě systému sestavení klikněte na tlačítko sbt.
V rozevíracím seznamu JDK vyberte existující instalaci sady JDK na vývojovém počítači, která odpovídá verzi sady JDK v clusteru, nebo vyberte Stáhnout sadu JDK a podle pokynů na obrazovce stáhněte sadu JDK, která odpovídá verzi sady JDK ve vašem clusteru.
Poznámka:
Volba instalace sady JDK, která je vyšší nebo nižší než verze sady JDK ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
V rozevíracím seznamu sbt vyberte nejnovější verzi.
V rozevíracím seznamu Scala vyberte verzi Scala, která odpovídá verzi Scala ve vašem clusteru.
Poznámka:
Volba verze Scala, která je nižší nebo vyšší než verze Scala ve vašem clusteru, může způsobit neočekávané výsledky nebo se váš kód nemusí vůbec spustit.
Jako předponu balíčku zadejte hodnotu předpony balíčku pro zdroje projektu, například
org.example.application
.Ujistěte se, že je zaškrtnuté políčko Přidat vzorový kód .
Klikněte na Vytvořit.
Přidejte balíček Připojení Databricks: s otevřeným novým projektem Scala v okně nástroje Projektu (zobrazit > projekt Windows Tool) >otevřete soubor s názvem
build.sbt
v cíli názvu> projektu.Na konec
build.sbt
souboru přidejte následující kód, který deklaruje závislost projektu na konkrétní verzi knihovny Připojení Databricks pro Scala:libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
Nahraďte
14.3.1
verzí knihovny Připojení Databricks, která odpovídá verzi Databricks Runtime ve vašem clusteru. Čísla verzí knihovny Databricks Připojení najdete v centrálním úložišti Maven.Kliknutím na tlačítko Načíst sbt změní ikonu oznámení a aktualizujte projekt Scala novým umístěním knihovny a závislostí.
Počkejte, až
sbt
indikátor průběhu v dolní části integrovaného vývojového prostředí zmizí. Dokončenísbt
procesu načítání může trvat několik minut.Přidejte kód: v okně nástroje Project otevřete soubor s názvem
Main.scala
, v názvu projektu> src > main > scala.Nahraďte veškerý existující kód v souboru následujícím kódem a pak soubor uložte:
package org.example.application import com.databricks.connect.DatabricksSession import org.apache.spark.sql.SparkSession object Main { def main(args: Array[String]): Unit = { val spark = DatabricksSession.builder().remote().getOrCreate() val df = spark.read.table("samples.nyctaxi.trips") df.limit(5).show() } }
Spusťte kód: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks.
Po spuštění clusteru v hlavní nabídce klikněte na Spustit > "Main".
V okně nástroje Spustit (Zobrazit > nástroj Windows > Spustit) se na kartě Hlavní zobrazí prvních 5 řádků
samples.nyctaxi.trips
tabulky. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.Ladění kódu: Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks, pokud ještě není spuštěný.
V předchozím kódu klikněte na hřbet vedle
df.limit(5).show()
a nastavte zarážku.Po spuštění clusteru v hlavní nabídce klikněte na Spustit ladění > Main.
V okně nástroje Ladění (Zobrazit > nástroj Windows > Ladění) na kartě Konzola klikněte na ikonu kalkulačky (Vyhodnocení výrazu).
Zadejte výraz
df.schema
a kliknutím na Vyhodnotit zobrazte schéma datového rámce.Na bočním panelu okna nástroje Ladění klikněte na zelenou šipku (Resume Program).
V podokně Konzola se zobrazí prvních 5 řádků
samples.nyctaxi.trips
tabulky. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro