Delen via


Visual Studio Code gebruiken met Databricks Verbinding maken voor Scala

Notitie

Dit artikel bevat informatie over Databricks Verbinding maken voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Verbinding maken gebruikt voor Scala met Visual Studio Code. Met Databricks Verbinding maken kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken? Zie Visual Studio Code gebruiken met Databricks Verbinding maken voor Python voor de Python-versie van dit artikel.

Notitie

Voordat u Databricks Verbinding maken gaat gebruiken, moet u de Databricks Verbinding maken-client instellen.

Als u Databricks Verbinding maken en Visual Studio Code wilt gebruiken met de extensie Scala (Metals) om een scala-voorbeeldproject sbt te maken, uit te voeren en fouten op te sporen, volgt u deze instructies. U kunt dit voorbeeld ook aanpassen aan uw bestaande Scala-projecten.

  1. Zorg ervoor dat de Java Development Kit (JDK) en Scala lokaal zijn geïnstalleerd. Databricks raadt aan dat uw lokale JDK- en Scala-versie overeenkomt met de versie van de JDK en Scala in uw Azure Databricks-cluster.

  2. Zorg ervoor dat de nieuwste versie lokaal sbt is geïnstalleerd.

  3. Installeer de Extensie Scala (Metals) voor Visual Studio Code.

  4. Open in Visual Studio Code de map waarin u het Scala-project wilt maken (map bestand > openen).

  5. Klik op de zijbalk op het pictogram Metalen extensie en klik vervolgens op Nieuw Scala-project.

  6. Kies in het opdrachtpalet de sjabloon scala/hello-world.g8 en voltooi de instructies op het scherm om het Scala-project in de opgegeven map te maken.

  7. Instellingen voor projectbuild toevoegen: Open het build.sbt bestand in de Verkenner-weergave (View > Explorer) vanuit de hoofdmap van het project, vervang de inhoud van het bestand door het volgende en sla het bestand op:

    scalaVersion := "2.12.15"
    
    libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
    

    Vervang 2.12.15 door uw geïnstalleerde versie van Scala. Deze moet overeenkomen met de versie die is opgenomen in de Databricks Runtime-versie in uw cluster.

    Vervang 14.0.0 door de versie van de Databricks-Verbinding maken-bibliotheek die overeenkomt met de Databricks Runtime-versie in uw cluster. U vindt de versienummers van de Databricks-Verbinding maken-bibliotheek in de centrale Maven-opslagplaats.

  8. Scala-code toevoegen: Open het src/main/scala/Main.scala bestand ten opzichte van de hoofdmap van het project, vervang de inhoud van het bestand door het volgende en sla het bestand op:

    import com.databricks.connect.DatabricksSession
    import org.apache.spark.sql.SparkSession
    
    object Main extends App {
      val spark = DatabricksSession.builder().remote().getOrCreate()
      val df = spark.read.table("samples.nyctaxi.trips")
      df.limit(5).show()
    }
    
  9. Bouw het project: Voer de opdracht >Metalen uit: Import build from the Command Palette.

  10. Instellingen voor projectuitvoering toevoegen: Klik in de weergave Uitvoeren en foutopsporing (Uitvoering weergeven>) op de koppeling met het label Een launch.json-bestand maken.

  11. Selecteer Scala Debugger in het opdrachtpalet.

  12. Voeg de volgende uitvoeringsconfiguratie toe aan het launch.json bestand en sla het bestand op:

    {
      // Use IntelliSense to learn about possible attributes.
      // Hover to view descriptions of existing attributes.
      // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
      "version": "0.2.0",
      "configurations": [
        {
          "type": "scala",
          "request": "launch",
          "name": "Scala: Run main class",
          "mainClass": "Main",
          "args": [],
          "jvmOptions": []
        }
      ]
    }
    
  13. Voer het project uit: klik op het pictogram Afspelen (Foutopsporing starten) naast Scala: Hoofdklasse uitvoeren. In de weergave Foutopsporingsconsole (Weergave > foutopsporingsconsole) worden de eerste vijf rijen van de samples.nyctaxi.trips tabel weergegeven. Alle Scala-code wordt lokaal uitgevoerd, terwijl alle Scala-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale aanroeper.

  14. Fouten opsporen in het project: Stel onderbrekingspunten in uw code in en klik nogmaals op het afspeelpictogram. Alle Scala-code wordt lokaal opgespoord, terwijl alle Scala-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.