IntelliJ IDEA gebruiken met Databricks Verbinding maken voor Scala
Notitie
Dit artikel bevat informatie over Databricks Verbinding maken voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt beschreven hoe u Databricks Verbinding maken gebruikt voor Scala en IntelliJ IDEA met de Scala-invoegtoepassing. Met Databricks Verbinding maken kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken?
Notitie
Voordat u Databricks Verbinding maken gaat gebruiken, moet u de Databricks Verbinding maken-client instellen.
Als u Databricks Verbinding maken en IntelliJ IDEA wilt gebruiken met de Scala-invoegtoepassing voor het maken, uitvoeren en opsporen van fouten in een scala-voorbeeldprojectsbt
, volgt u deze instructies. Deze instructies zijn getest met IntelliJ IDEA Community Edition 2023.3.6. Als u een andere versie of editie van IntelliJ IDEA gebruikt, kunnen de volgende instructies variëren.
Zorg ervoor dat de Java Development Kit (JDK) lokaal is geïnstalleerd. Databricks raadt aan dat uw lokale JDK-versie overeenkomt met de versie van de JDK in uw Azure Databricks-cluster.
Start IntelliJ IDEA.
Klik op Bestand > nieuw > project.
Geef uw project een zinvolle naam.
Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Scala-project op te geven.
Klik voor Taal op Scala.
Klik voor buildsysteem op sbt.
Selecteer in de vervolgkeuzelijst JDK een bestaande installatie van de JDK op uw ontwikkelcomputer die overeenkomt met de JDK-versie op uw cluster, of selecteer JDK downloaden en volg de instructies op het scherm om een JDK te downloaden die overeenkomt met de JDK-versie in uw cluster.
Notitie
Als u een JDK-installatie kiest die zich boven of onder de JDK-versie van uw cluster bevindt, kan dit onverwachte resultaten opleveren of wordt uw code helemaal niet uitgevoerd.
Selecteer in de vervolgkeuzelijst sbt de meest recente versie.
Selecteer in de vervolgkeuzelijst Scala de versie van Scala die overeenkomt met de Scala-versie in uw cluster.
Notitie
Als u een Scala-versie kiest die lager of hoger is dan de Scala-versie op uw cluster, kan dit onverwachte resultaten opleveren of wordt uw code mogelijk helemaal niet uitgevoerd.
Voor pakketvoorvoegsel voert u bijvoorbeeld
org.example.application
een waarde voor het pakketvoorvoegsel in voor de bronnen van uw project.Zorg ervoor dat het selectievakje Voorbeeldcode toevoegen is ingeschakeld.
Klik op Create.
Voeg het Databricks-Verbinding maken-pakket toe: open het nieuwe Scala-project in het venster projecthulpprogramma (View > Tool Windows > Project), open het bestand met de naam
build.sbt
, in het projectnaamdoel>.Voeg de volgende code toe aan het einde van het
build.sbt
bestand, waarmee de afhankelijkheid van uw project wordt opgegeven op een specifieke versie van de Databricks Verbinding maken-bibliotheek voor Scala:libraryDependencies += "com.databricks" % "databricks-connect" % "14.3.1"
Vervang
14.3.1
door de versie van de Databricks-Verbinding maken-bibliotheek die overeenkomt met de Databricks Runtime-versie in uw cluster. U vindt de versienummers van de Databricks-Verbinding maken-bibliotheek in de centrale Maven-opslagplaats.Klik op het meldingspictogram voor het laden van wijzigingen om uw Scala-project bij te werken met de nieuwe bibliotheeklocatie en -afhankelijkheid.
Wacht totdat de
sbt
voortgangsindicator onder aan de IDE verdwijnt. Hetsbt
laden kan enkele minuten duren.Voeg code toe: open in het venster projecthulpprogramma het bestand met de naam
Main.scala
, in project-name> src > main > scala.Vervang bestaande code in het bestand door de volgende code en sla het bestand op:
package org.example.application import com.databricks.connect.DatabricksSession import org.apache.spark.sql.SparkSession object Main { def main(args: Array[String]): Unit = { val spark = DatabricksSession.builder().remote().getOrCreate() val df = spark.read.table("samples.nyctaxi.trips") df.limit(5).show() } }
Voer de code uit: start het doelcluster in uw externe Azure Databricks-werkruimte.
Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > 'Hoofd'.
In het venster Hulpprogramma Uitvoeren (Windows Uitvoeren weergeven >>) worden op het tabblad Main de eerste vijf rijen van de
samples.nyctaxi.trips
tabel weergegeven. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.Fouten opsporen in de code: start het doelcluster in uw externe Azure Databricks-werkruimte als deze nog niet wordt uitgevoerd.
Klik in de voorgaande code op de rugmarge naast om
df.limit(5).show()
een onderbrekingspunt in te stellen.Nadat het cluster is gestart, klikt u in het hoofdmenu op > Hoofdopsporing uitvoeren.
Klik in het venster Foutopsporingsprogramma (Windows >> Foutopsporing weergeven) op het tabblad Console op het rekenmachinepictogram (Expressie evalueren).
Voer de expressie
df.schema
in en klik op Evalueren om het schema van het DataFrame weer te geven.Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
In het consolevenster worden de eerste vijf rijen van de
samples.nyctaxi.trips
tabel weergegeven. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor