Sdílet prostřednictvím


Použití editoru Visual Studio Code s Připojení Databricks pro Scala

Poznámka:

Tento článek se zabývá Připojení Databricks pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat Databricks Připojení pro Scala se sadou Visual Studio Code. Databricks Připojení umožňuje připojení oblíbených prostředí IDEs, serverů poznámkových bloků a dalších vlastních aplikací ke clusterům Azure Databricks. Podívejte se, co je Databricks Připojení?. Verzi pythonu tohoto článku najdete v tématu Použití editoru Visual Studio Code s Připojení Databricks pro Python.

Poznámka:

Než začnete používat databricks Připojení, musíte nastavit klienta Připojení Databricks.

Pokud chcete použít Databricks Připojení a Visual Studio Code s rozšířením Scala (Kovy) k vytvoření, spuštění a ladění ukázkového projektu Scalasbt, postupujte podle těchto pokynů. Tuto ukázku můžete také přizpůsobit stávajícím projektům Scala.

  1. Ujistěte se, že jsou místně nainstalované sady Java Development Kit (JDK) a Scala. Databricks doporučuje, aby místní verze sady JDK a Scala odpovídaly verzi sady JDK a Scala ve vašem clusteru Azure Databricks.

  2. Ujistěte se, že je místně nainstalovaná nejnovější verze sbt .

  3. Nainstalujte rozšíření Scala (Kovy) pro Visual Studio Code.

  4. V editoru Visual Studio Code otevřete složku, ve které chcete vytvořit projekt Scala (Otevřít složku souboru>).

  5. Na bočním panelu klepněte na ikonu rozšíření Kovy a potom klepněte na tlačítko Nový projekt Scala.

  6. V paletě příkazů zvolte šablonu s názvem scala/hello-world.g8 a dokončete pokyny na obrazovce a dokončete vytváření projektu Scala v zadané složce.

  7. Přidejte nastavení sestavení projektu: V zobrazení Průzkumníka (Průzkumník zobrazení>) otevřete build.sbt soubor z kořenového adresáře projektu, nahraďte jeho obsah následujícím kódem a soubor uložte:

    scalaVersion := "2.12.15"
    
    libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
    

    Nahraďte 2.12.15 nainstalovanou verzi Scala, která by měla odpovídat verzi, která je součástí verze Databricks Runtime ve vašem clusteru.

    Nahraďte 14.0.0 verzí knihovny Připojení Databricks, která odpovídá verzi Databricks Runtime ve vašem clusteru. Čísla verzí knihovny Databricks Připojení najdete v centrálním úložišti Maven.

  8. Přidejte kód Scala: Otevřete src/main/scala/Main.scala soubor vzhledem k kořenovému adresáři projektu, nahraďte jeho obsah následujícím kódem a soubor uložte:

    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main extends App {
      val spark = DatabricksSession.builder().remote().getOrCreate()
      val df = spark.read.table("samples.nyctaxi.trips")
      df.limit(5).show()
    }
    
  9. Sestavení projektu: Spusťte příkaz >Kovy: Import sestavení z palety příkazů.

  10. Přidat nastavení spuštění projektu: V zobrazení Spustit a ladit (Zobrazit > spuštění) klikněte na odkaz označený vytvořit soubor launch.json.

  11. Na paletě příkazů vyberte Ladicí program Scala.

  12. Do souboru přidejte následující konfiguraci launch.json spuštění a pak soubor uložte:

    {
      // Use IntelliSense to learn about possible attributes.
      // Hover to view descriptions of existing attributes.
      // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
      "version": "0.2.0",
      "configurations": [
        {
          "type": "scala",
          "request": "launch",
          "name": "Scala: Run main class",
          "mainClass": "Main",
          "args": [],
          "jvmOptions": []
        }
      ]
    }
    
  13. Spusťte projekt: Klikněte na ikonu přehrát (Spustit ladění) vedle položky Scala: Spustit hlavní třídu. V zobrazení konzoly ladění (zobrazení > konzoly ladění) se zobrazí prvních 5 řádků samples.nyctaxi.trips tabulky. Veškerý kód Scala běží místně, zatímco veškerý kód Scala zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu.

  14. Ladění projektu: Nastavte zarážky v kódu a potom znovu klikněte na ikonu přehrávání. Veškerý kód Scala je laděný místně, zatímco veškerý kód Scala se bude dál spouštět v clusteru ve vzdáleném pracovním prostoru Azure Databricks. Základní kód modulu Spark nelze ladit přímo z klienta.