Freigeben über


Databricks Connect für Python

Hinweis

Dieser Artikel behandelt Databricks Connect für Databricks Runtime Version 13.3 LTS und höher.

In diesem Artikel werden die ersten Schritte mit Databricks Connect unter Verwendung von Python und PyCharm veranschaulicht.

Mit Databricks Connect können Sie beliebte IDEs wie PyCharm, Notebookserver und andere benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?.

Lernprogramm

Wenn Sie dieses Tutorial überspringen und stattdessen eine andere IDE verwenden möchten, lesen Sie den Abschnitt Nächste Schritte.

Anforderungen

Um dieses Tutorial abzuschließen, müssen Sie die folgenden Anforderungen erfüllen:

  • In Ihrem Azure Databricks-Zielarbeitsbereich muss Unity Catalog aktiviert sein.
  • Sie haben PyCharm installiert. Dieses Tutorial wurde mit PyCharm Community Edition 2023.3.5 getestet. Wenn Sie eine andere Version oder Edition von PyCharm verwenden, können die folgenden Anweisungen variieren.
  • Ihr Compute erfüllt die Installationsanforderungen von Databricks Connect für Python.
  • Wenn Sie klassisches Computing verwenden, benötigen Sie die Cluster-ID. Um Ihre Cluster-ID abzurufen, wählen Sie in Ihrem Arbeitsbereich auf der Randleiste Compute und dann den Namen Ihres Clusters aus. Kopieren Sie in der Adressleiste Ihres Webbrowsers die Zeichenfolge zwischen clusters und configuration in der URL.

Schritt 1: Konfigurieren der Azure Databricks-Authentifizierung

In diesem Tutorial werden die OAuth U2M-Authentifizierung (User-to-Machine) von Azure Databricks und ein Azure Databricks-Konfigurationsprofil für die Authentifizierung an Ihrem Azure Databricks-Arbeitsbereich verwendet. Informationen zum Verwenden eines anderen Authentifizierungstyps finden Sie unter Konfigurieren von Verbindungseigenschaften.

Die Konfiguration der OAuth U2M-Authentifizierung erfordert die Verwendung der Databricks-Befehlszeilenschnittstelle. Informationen zum Installieren der Databricks CLI finden Sie unter Installieren oder Aktualisieren der Databricks CLI.

Initiieren Sie wie folgt die OAuth U2M-Authentifizierung:

  1. Verwenden Sie die Databricks-CLI, um die OAuth-Tokenverwaltung lokal zu initiieren, indem Sie den folgenden Befehl für jeden Zielarbeitsbereich ausführen.

    Ersetzen Sie <workspace-url> im folgenden Befehl durch Ihre arbeitsbereichsspezifische Azure Databricks-URL, z. B. https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Wenn Sie Databricks Serverless-Compute mit DB Connect verwenden möchten, führen Sie alternativ die Schritte unter Konfigurieren einer Verbindung mit serverlosem Compute aus.

  2. Die Databricks-CLI fordert Sie auf, die von Ihnen eingegebenen Informationen als Azure Databricks-Konfigurationsprofil zu speichern. Drücken Sie die EINGABETASTE (Enter), um den vorgeschlagenen Profilnamen zu übernehmen, oder geben Sie den Namen eines neuen oder bereits vorhandenen Profils ein. Ist bereits ein Profil mit dem gleichen Namen vorhanden, wird es mit den von Ihnen eingegebenen Informationen überschrieben. Sie können Profile verwenden, um Ihren Authentifizierungskontext schnell über mehrere Arbeitsbereiche hinweg zu wechseln.

    Um eine Liste vorhandener Profile abzurufen, führen Sie in der Databricks-CLI den Befehl databricks auth profiles in einem separaten Terminal oder in einer separaten Eingabeaufforderung aus. Um die vorhandenen Einstellungen eines bestimmten Profils anzuzeigen, können Sie den Befehl databricks auth env --profile <profile-name> ausführen.

  3. Führen Sie in Ihrem Webbrowser die Anweisungen auf dem Bildschirm aus, um sich bei Ihrem Azure Databricks-Arbeitsbereich anzumelden.

  4. Verwenden Sie in der Liste der verfügbaren Cluster, die im Terminal oder in der Eingabeaufforderung angezeigt wird, die NACH-OBEN- und NACH-UNTEN-TASTEN, um den Azure Databricks-Zielcluster in Ihrem Arbeitsbereich auszuwählen, und drücken Sie dann die EINGABETASTE (Enter). Sie können auch einen beliebigen Teil des Anzeigenamens des Clusters eingeben, um die Liste der verfügbaren Cluster zu filtern.

  5. Führen Sie einen der folgenden Befehle aus, um den aktuellen OAuth-Tokenwert und den Zeitstempel für den bevorstehenden Ablauf des Tokens eines Profils anzuzeigen:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Wenn Sie über mehrere Profile mit dem gleichen --host-Wert verfügen, müssen Sie möglicherweise die Optionen --host und -p angeben, damit die Databricks-CLI die richtigen übereinstimmenden OAuth-Tokeninformationen findet.

Schritt 2: Erstellen des Projekts

  1. Starten Sie PyCharm.
  2. Klicken Sie im Hauptmenü auf Datei > Neues Projekt.
  3. Klicken Sie im Dialogfeld Neues Projekt auf Pure Python.
  4. Klicken Sie unter Speicherort auf das Ordnersymbol, und folgen Sie den Anweisungen auf dem Bildschirm, um den Pfad zu Ihrem neuen Python-Projekt anzugeben.
  5. Lassen Sie main.py Willkommensskript erstellen ausgewählt.
  6. Klicken Sie für den Dolmetschertyp auf Project venv.
  7. Erweitern Sie die Python-Version, und verwenden Sie das Ordnersymbol oder die Dropdownliste, um den Pfad zum Python-Dolmetscher aus den vorherigen Anforderungen anzugeben.
  8. Klicken Sie auf Erstellen.

Erstellen des PyCharm-Projekts

Schritt 3: Hinzufügen des Databricks Connect-Pakets

  1. Klicken Sie im Hauptmenü von PyCharm auf Ansicht > Toolfenster > Python-Pakete.
  2. Geben Sie im Suchfeld databricks-connectein.
  3. Klicken Sie in der Liste PyPI-Repository auf databricks-connect.
  4. Wählen Sie in Dropdownliste Neueste des Ergebnisbereichs die Version aus, die der Databricks Runtime-Version Ihres Clusters entspricht. Wenn in Ihrem Cluster also beispielsweise Databricks Runtime 14.3 installiert ist, wählen Sie 14.3.1 aus.
  5. Klicken Sie auf Paket installieren.
  6. Nach der Installation des Pakets können Sie das Fenster Python-Pakete schließen.

Installieren Sie das Databricks Connect-Paket

Schritt 4: Hinzufügen von Code

  1. Klicken Sie im Toolfenster Projekt mit der rechten Maustaste auf den Stammordner des Projekts, und klicken Sie anschließend auf Neu > Python-Datei.

  2. Geben Sie main.py ein, und doppelklicken Sie auf Python-Datei.

  3. Geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei abhängig vom Namen Ihres Konfigurationsprofils.

    Wenn Ihr Konfigurationsprofil aus Schritt 1 DEFAULT lautet, geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Wenn Ihr Konfigurationsprofil aus Schritt 1 nicht DEFAULT lautet, geben Sie stattdessen den folgenden Code in die Datei ein. Ersetzen Sie den Platzhalter <profile-name> durch den Namen Ihres Konfigurationsprofils aus Schritt 1 und speichern Sie dann die Datei:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Schritt 5: Ausführen des Codes

  1. Starten Sie den Zielcluster in Ihrem Azure Databricks-Remotearbeitsbereich.
  2. Klicken Sie nach dem Start des Clusters im Hauptmenü auf Ausführen > Main ausführen.
  3. Im Toolfenster Ausführen (Ansicht > Toolfenster > Ausführen) werden auf der Registerkarte Ausführen im Bereich main die ersten 5 Zeilen von samples.nyctaxi.trips angezeigt.

Schritt 6: Debuggen des Codes

  1. Wählen Sie, während der Cluster noch ausgeführt wird, im vorherigen Code den Bundsteg neben df.show(5) aus, um einen Breakpoint festzulegen.
  2. Wählen Sie im Hauptmenü Ausführen > Main Debuggen aus.
  3. Erweitern Sie im Toolfenster Debuggen (Ansicht > Toolfenster > Debuggen) im Bereich Variablen der Registerkarte Debugger die Variablenknoten df und spark, um sich Informationen zu den Variablen df und spark des Codes anzusehen.
  4. Klicken Sie auf der Randleiste des Toolfensters Debuggen auf den grünen Pfeil (Programm fortsetzen).
  5. Im Bereich Konsole der Registerkarte Debugger werden die ersten fünf Zeilen von samples.nyctaxi.trips angezeigt.

Debuggen des PyCharm-Projekts

Nächste Schritte

Weitere Informationen zu Databricks Connect finden Sie z. B. in den folgenden Artikeln: