Visual Studio Code gebruiken met Databricks Verbinding maken voor Scala

Artikel
03/01/2024

Notitie

Dit artikel bevat informatie over Databricks Verbinding maken voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Verbinding maken gebruikt voor Scala met Visual Studio Code. Met Databricks Verbinding maken kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken? Zie Visual Studio Code gebruiken met Databricks Verbinding maken voor Python voor de Python-versie van dit artikel.

Notitie

Voordat u Databricks Verbinding maken gaat gebruiken, moet u de Databricks Verbinding maken-client instellen.

Als u Databricks Verbinding maken en Visual Studio Code wilt gebruiken met de extensie Scala (Metals) om een scala-voorbeeldproject sbt te maken, uit te voeren en fouten op te sporen, volgt u deze instructies. U kunt dit voorbeeld ook aanpassen aan uw bestaande Scala-projecten.

Zorg ervoor dat de Java Development Kit (JDK) en Scala lokaal zijn geïnstalleerd. Databricks raadt aan dat uw lokale JDK- en Scala-versie overeenkomt met de versie van de JDK en Scala in uw Azure Databricks-cluster.
Zorg ervoor dat de nieuwste versie lokaal sbt is geïnstalleerd.
Installeer de Extensie Scala (Metals) voor Visual Studio Code.
Open in Visual Studio Code de map waarin u het Scala-project wilt maken (map bestand > openen).
Klik op de zijbalk op het pictogram Metalen extensie en klik vervolgens op Nieuw Scala-project.
Kies in het opdrachtpalet de sjabloon scala/hello-world.g8 en voltooi de instructies op het scherm om het Scala-project in de opgegeven map te maken.
Instellingen voor projectbuild toevoegen: Open het build.sbt bestand in de Verkenner-weergave (View > Explorer) vanuit de hoofdmap van het project, vervang de inhoud van het bestand door het volgende en sla het bestand op:
```
scalaVersion := "2.12.15"

libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
```
Vervang 2.12.15 door uw geïnstalleerde versie van Scala. Deze moet overeenkomen met de versie die is opgenomen in de Databricks Runtime-versie in uw cluster.

Vervang 14.0.0 door de versie van de Databricks-Verbinding maken-bibliotheek die overeenkomt met de Databricks Runtime-versie in uw cluster. U vindt de versienummers van de Databricks-Verbinding maken-bibliotheek in de centrale Maven-opslagplaats.

Scala-code toevoegen: Open het src/main/scala/Main.scala bestand ten opzichte van de hoofdmap van het project, vervang de inhoud van het bestand door het volgende en sla het bestand op:

import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.SparkSession

object Main extends App {
  val spark = DatabricksSession.builder().remote().getOrCreate()
  val df = spark.read.table("samples.nyctaxi.trips")
  df.limit(5).show()
}

Bouw het project: Voer de opdracht >Metalen uit: Import build from the Command Palette.
Instellingen voor projectuitvoering toevoegen: Klik in de weergave Uitvoeren en foutopsporing (Uitvoering weergeven>) op de koppeling met het label Een launch.json-bestand maken.
Selecteer Scala Debugger in het opdrachtpalet.

Voeg de volgende uitvoeringsconfiguratie toe aan het launch.json bestand en sla het bestand op:

{
  // Use IntelliSense to learn about possible attributes.
  // Hover to view descriptions of existing attributes.
  // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
  "version": "0.2.0",
  "configurations": [
    {
      "type": "scala",
      "request": "launch",
      "name": "Scala: Run main class",
      "mainClass": "Main",
      "args": [],
      "jvmOptions": []
    }
  ]
}

Voer het project uit: klik op het pictogram Afspelen (Foutopsporing starten) naast Scala: Hoofdklasse uitvoeren. In de weergave Foutopsporingsconsole (Weergave > foutopsporingsconsole) worden de eerste vijf rijen van de samples.nyctaxi.trips tabel weergegeven. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.
Fouten opsporen in het project: Stel onderbrekingspunten in uw code in en klik nogmaals op het afspeelpictogram. Alle Scala-code wordt lokaal opgespoord, terwijl alle Scala-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.

Delen via

Visual Studio Code gebruiken met Databricks Verbinding maken voor Scala

Aanvullende resources