VSCode-Erweiterung für Databricks-Tutorial: Ausführen von Python auf einem Cluster und als Auftrag

Artikel
08/02/2024

In diesem Tutorial erfahren Sie, wie Sie mit der Verwendung der Databricks-Erweiterung für Visual Studio Code beginnen können, indem Sie eine einfache Python-Codedatei in einem Azure Databricks-Cluster und als Azure Databricks-Auftragsausführung in Ihrem Remotearbeitsbereich ausführen. Weitere Informationen finden Sie unter Was ist die Databricks-Erweiterung für Visual Studio Code?.

Was tun Sie in diesem Tutorial?

In diesem praktischen Tutorial gehen Sie wie folgt vor:

Erstellen Sie einen Azure Databricks-Cluster, um Ihren lokalen Python-Code auszuführen.
Installieren Sie Visual Studio Code und die Databricks-Erweiterung für Visual Studio Code.
Anhand dieser Informationen können Sie die Azure Databricks-Authentifizierung einrichten und die Databricks-Erweiterung für Visual Studio Code konfigurieren.
Konfigurieren Sie die Databricks-Erweiterung für Visual Studio Code mit Informationen zu Ihrem Remotecluster, und lassen Sie die Erweiterung den Cluster starten.
Konfigurieren Sie die Databricks-Erweiterung für Visual Studio Code mit dem Speicherort in Ihrem Azure Databricks-Remotearbeitsbereich, um Ihren lokalen Python-Code hochzuladen, und lassen Sie die Erweiterung mit der Überwachung auf Codeuploadereignisse beginnen.
Schreiben und speichern Sie Python-Code, der ein Codeuploadereignis auslöst.
Verwenden Sie die Databricks-Erweiterung für Visual Studio Code, um den hochgeladenen Code auf Ihrem Remotecluster auszuführen und dann mit Ihrem Cluster als Remoteauftrag auszuführen.

In diesem Tutorial wird nur die Ausführung einer Python-Codedatei veranschaulicht und es wird nur das Einrichten der OAuth-User-to-Machine-Authentifizierung (U2M) veranschaulicht. Informationen zum Debuggen von Python-Codedateien und zum Ausführen und Debuggen von Notebooks sowie zum Einrichten anderer Authentifizierungstypen finden Sie in den nächsten Schritten.

Schritt 1: Erstellen eines Clusters

Wenn Sie bereits über einen Azure Databricks-Remotecluster verfügen, den Sie verwenden möchten, notieren Sie sich den Namen des Clusters, und fahren Sie mit dem Schritt 2 zur Installierung von Visual Studio Code fort. Um die verfügbaren Cluster anzuzeigen, klicken Sie in der Seitenleiste Ihres Arbeitsbereichs auf Compute.

Databricks empfiehlt, einen Personal Compute-Cluster zu erstellen, um schnell loszulegen. Gehen Sie wie folgt vor, um diesen Cluster zu erstellen:

Klicken Sie in Ihrem Azure Databricks-Arbeitsbereich auf der Seitenleiste auf Compute.
Klicken Sie auf Mit Personal Compute erstellen.
Klicken Sie auf Compute erstellen.
Notieren Sie sich den Namen Ihres Clusters, da Sie ihn später in Schritt 5 benötigen, wenn Sie der Erweiterung Clusterinformationen hinzufügen.

Schritt 2: Installieren von Visual Studio Code

Um Visual Studio Code zu installieren, befolgen Sie die Anweisungen für macOS, Linux oder Windows.

Wenn Sie Visual Studio Code bereits installiert haben, überprüfen Sie, ob es sich um Version 1.69.1 oder höher handelt. Klicken Sie dazu im Hauptmenü in Visual Studio Code auf Code > Über Visual Studio Code für macOS oder Hilfe > Info für Linux oder Windows.

Wenn Sie Visual Studio Code aktualisieren möchten, klicken Sie im Hauptmenü auf Code > Suchen nach Updates für macOS oder Hilfe > Suchen nach Updates für Linux oder Windows".

Schritt 3: Installieren der Databricks-Erweiterung

Visual Studio Code-Erweiterung installieren

Klicken Sie in der Visual Studio Code-Seitenleiste auf das Erweiterungen-Symbol.
Geben Sie unter Nach Erweiterungen in Marketplace suchen Databricks ein.
Klicken Sie in der Eingabe mit der Bezeichnung Databricks mit dem Untertitel IDE-Unterstützung für Databricks von Databricks auf Installieren.

Schritt 4: Einrichten der Azure Databricks-Authentifizierung

In diesem Schritt aktivieren Sie die Authentifizierung zwischen der Databricks-Erweiterung für Visual Studio Code und Ihrem Azure Databricks-Remotearbeitsbereich wie folgt:

Öffnen Sie in Visual Studio Code einen leeren Ordner auf Ihrem lokalen Entwicklungscomputer, in dem Sie den Python-Code speichern, den Sie später in Schritt 7 erstellen und ausführen. Dafür klicken Sie im Hauptmenü auf Datei > Ordner öffnen, und befolgen Sie die Anweisungen auf dem Bildschirm.
Klicken Sie auf der Seitenleiste von Visual Studio Code auf das Databricks-Logosymbol.
Klicken Sie im Bereich Konfiguration auf Databricks konfigurieren.
Geben Sie in der Befehlspalette als Databricks-Host Ihre arbeitsbereichsspezifische URL ein, z. B https://adb-1234567890123456.7.azuredatabricks.net. Betätigen Sie anschließend die Eingabetaste.
Wählen Sie OAuth (U2M) aus.
Befolgen Sie die Anweisungen auf dem Bildschirm in Ihrem Webbrowser, um die Authentifizierung mit Azure Databricks abzuschließen. Wenn Sie dazu aufgefordert werden, erlauben Sie all-apis-Zugriff.

Schritt 5: Hinzufügen von Clusterinformationen zur Databricks-Erweiterung und Starten des Clusters

Wenn der Konfigurationsbereich bereits aus dem vorherigen Schritt geöffnet ist, in dem Sie die Authentifizierung eingerichtet haben, klicken Sie neben Cluster auf das Zahnradsymbol (Cluster konfigurieren).
Wählen Sie in der Befehlspalette den Namen des Clusters aus, den Sie in Schritt 1 erstellt haben.
Starten Sie den Cluster, wenn er noch nicht gestartet wurde: Klicken Sie neben Cluster auf das Wiedergabesymbol (Cluster starten), wenn es sichtbar ist.

Cluster starten

Schritt 6: Hinzufügen des Speicherorts für den Codeupload zur Databricks-Erweiterung und Starten des Uploadlisteners

Wenn der Konfigurationsbereich bereits aus dem vorherigen Schritt ist, in dem Sie Clusterinformationen hinzugefügt haben, klicken Sie neben Synchronisierungsziel auf das Zahnradsymbol (Synchronisierungsziel konfigurieren).
Wählen Sie in der Befehlspalette die Option Neues Synchronisierungsziel erstellen.
Drücken Sie Enter, um den generierten Namen des Remoteuploadverzeichnisses zu bestätigen.
Starten Sie den Uploadlistener, wenn er noch nicht gestartet wurde: Klicken Sie neben Synchronisierungsziel auf das Kreissymbol mit dem Pfeil (Synchronisierung starten), wenn es sichtbar ist.

Uploadlistener starten

Schritt 7: Erstellen und Ausführen von Python-Code

Erstellen Sie eine lokale Python-Codedatei: Klicken Sie auf der Seitenleiste auf das Ordnersymbol (Explorer).
Klicken Sie im Hauptmenü auf File > New File. Geben Sie der Datei den Namen demo.py und speichern Sie sie im Projektstamm.

Fügen Sie der Datei den folgenden Code hinzu, und speichern Sie sie. Dieser Code erstellt und zeigt den Inhalt eines einfachen PySpark-DataFrames an:

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# Output:
#
# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

Klicken Sie in der Explorer-Ansicht mit der rechten Maustaste auf die Datei demo.py, und klicken Sie dann auf Upload and Run File on Databricks. Die Ausgabe wird in der Debugging-Konsole angezeigt.

Datei auf Databricks hochladen und ausführen

Schritt 8: Ausführen des Codes als Auftrag

Im vorherigen Schritt haben Sie Ihren Python-Code direkt auf dem Remotecluster ausgeführt. In diesem Schritt initiieren Sie einen Workflow, der den Cluster verwendet, um den Code stattdessen als Azure Databricks-Auftrag auszuführen. Weitere Informationen finden Sie unter Was sind Databricks-Aufträge?.

Um diesen Code als Auftrag auszuführen, klicken Sie in der Explorer-Ansicht mit der rechten Maustaste auf die demo.py-Datei und klicken Sie dann auf Datei als Workflow auf Databricks ausführen. Die Ausgabe wird auf einer separaten Editor-Registerkarte neben dem demo.py-Datei-Editor angezeigt.

Datei als Workflow auf Databricks ausführen

Sie haben das Ende dieses Tutorials erreicht.

Nächste Schritte

Nachdem Sie nun die Databricks-Erweiterung für Visual Studio Code erfolgreich zum Hochladen und Remote-Ausführen einer lokalen Python-Datei verwendet haben, erfahren Sie mehr über die Verwendung der Erweiterung:

Erfahren Sie mehr über weitere Möglichkeiten zum Einrichten der Authentifizierung für die Erweiterung. Weitere Informationen finden Sie unter Einrichten der Authentifizierung für die Databricks-Erweiterung für VS Code.
Erfahren Sie, wie Sie PySpark- und Databricks Utilities-Code vervollständigen, Python-Code mit Databricks Connect ausführen oder debuggen, eine Datei oder ein Notebook als Azure Databricks-Auftrag ausführen, Tests mit pytest ausführen, Definitionsdateien für Umgebungsvariablen verwenden, benutzerdefinierte Ausführungskonfigurationen erstellen und vieles mehr. Siehe Entwicklungsaufgaben für die Databricks-Erweiterung für Visual Studio Code.

Freigeben über