Freigeben über


Databricks Connect für Python

Hinweis

Dieser Artikel behandelt Databricks Connect für Databricks Runtime Version 13.3 LTS und höher.

Databricks Connect ermöglicht es Ihnen, beliebte IDEs wie PyCharm, Notizbuchserver und andere benutzerdefinierte Anwendungen mit Azure Databricks zu verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?.

In diesem Artikel wird veranschaulicht, wie Sie schnell mit Databricks Connect für Python mit PyCharm beginnen.

Lernprogramm

Im folgenden Lernprogramm erstellen Sie ein Projekt in PyCharm, installieren Databricks Connect für Databricks Runtime 13.3 LTS und höher, und führen Sie einfachen Code zur Berechnung in Ihrem Databricks-Arbeitsbereich aus PyCharm aus. Weitere Informationen und Beispiele finden Sie in den nächsten Schritten.

Anforderungen

Um dieses Tutorial abzuschließen, müssen Sie die folgenden Anforderungen erfüllen:

  • In Ihrem Azure Databricks-Zielarbeitsbereich muss Unity Catalog aktiviert sein.
  • Sie haben PyCharm installiert. Dieses Tutorial wurde mit PyCharm Community Edition 2023.3.5 getestet. Wenn Sie eine andere Version oder Edition von PyCharm verwenden, können die folgenden Anweisungen variieren.
  • Ihre lokale Umgebung und Compute erfüllen die Anforderungen von Databricks Connect für die Python-Installationsversion.
  • Wenn Sie klassische Rechenressourcen verwenden, benötigen Sie die Cluster-ID. Um Ihre Cluster-ID abzurufen, klicken Sie in Ihrem Arbeitsbereich auf der Randleiste auf "Berechnen ", und klicken Sie dann auf den Namen Ihres Clusters. Kopieren Sie in der Adressleiste Ihres Webbrowsers die Zeichenfolge zwischen clusters und configuration in der URL.

Schritt 1: Konfigurieren der Azure Databricks-Authentifizierung

In diesem Tutorial werden die OAuth U2M-Authentifizierung (User-to-Machine) von Azure Databricks und ein Azure Databricks-Konfigurationsprofil für die Authentifizierung an Ihrem Azure Databricks-Arbeitsbereich verwendet. Informationen zum Verwenden eines anderen Authentifizierungstyps finden Sie unter Konfigurieren von Verbindungseigenschaften.

Die Konfiguration der OAuth U2M-Authentifizierung erfordert die Verwendung der Databricks-Befehlszeilenschnittstelle (Command Line Interface, CLI). Informationen zum Installieren der Databricks-CLI finden Sie unter Installieren oder Aktualisieren der Databricks-CLI.

Initiieren Sie wie folgt die OAuth U2M-Authentifizierung:

  1. Verwenden Sie die Databricks-CLI, um die OAuth-Tokenverwaltung lokal zu initiieren, indem Sie den folgenden Befehl für jeden Zielarbeitsbereich ausführen.

    Ersetzen Sie <workspace-url> im folgenden Befehl durch Ihre arbeitsbereichsspezifische Azure Databricks-URL, z. B. https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Tipp

    Informationen zum Verwenden von serverlosen Berechnungen mit Databricks Connect finden Sie unter Konfigurieren einer Verbindung mit serverlosem Compute.

  2. Die Databricks-CLI fordert Sie auf, die von Ihnen eingegebenen Informationen als Azure Databricks-Konfigurationsprofil zu speichern. Drücken Sie die EINGABETASTE (Enter), um den vorgeschlagenen Profilnamen zu übernehmen, oder geben Sie den Namen eines neuen oder bereits vorhandenen Profils ein. Ist bereits ein Profil mit dem gleichen Namen vorhanden, wird es mit den von Ihnen eingegebenen Informationen überschrieben. Sie können Profile verwenden, um Ihren Authentifizierungskontext schnell über mehrere Arbeitsbereiche hinweg zu wechseln.

    Um eine Liste vorhandener Profile abzurufen, führen Sie in der Databricks-CLI den Befehl databricks auth profiles in einem separaten Terminal oder in einer separaten Eingabeaufforderung aus. Um die vorhandenen Einstellungen eines bestimmten Profils anzuzeigen, führen Sie den Befehl databricks auth env --profile <profile-name>aus.

  3. Führen Sie in Ihrem Webbrowser die Anweisungen auf dem Bildschirm aus, um sich bei Ihrem Azure Databricks-Arbeitsbereich anzumelden.

  4. Verwenden Sie in der Liste der verfügbaren Cluster, die im Terminal oder in der Eingabeaufforderung angezeigt wird, die NACH-OBEN- und NACH-UNTEN-TASTEN, um den Azure Databricks-Zielcluster in Ihrem Arbeitsbereich auszuwählen, und drücken Sie dann die EINGABETASTE (Enter). Sie können auch einen beliebigen Teil des Anzeigenamens des Clusters eingeben, um die Liste der verfügbaren Cluster zu filtern.

  5. Um den aktuellen OAuth-Tokenwert eines Profils und den bevorstehenden Ablaufzeitstempel eines Profils anzuzeigen, führen Sie einen der folgenden Befehle aus:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Wenn Sie über mehrere Profile mit dem gleichen --host-Wert verfügen, müssen Sie möglicherweise die Optionen --host und -p angeben, damit die Databricks-CLI die richtigen übereinstimmenden OAuth-Tokeninformationen findet.

Schritt 2: Erstellen des Projekts

  1. Starten Sie PyCharm.
  2. Klicken Sie im Hauptmenü auf Datei > Neues Projekt.
  3. Klicken Sie im Dialogfeld Neues Projekt auf Pure Python.
  4. Klicken Sie unter Speicherort auf das Ordnersymbol, und folgen Sie den Anweisungen auf dem Bildschirm, um den Pfad zu Ihrem neuen Python-Projekt anzugeben.
  5. Lassen Sie main.py Willkommensskript erstellen ausgewählt.
  6. Klicken Sie für den Dolmetschertyp auf Project venv.
  7. Erweitern Sie die Python-Version, und verwenden Sie das Ordnersymbol oder die Dropdownliste, um den Pfad zum Python-Dolmetscher aus den vorherigen Anforderungen anzugeben.
  8. Klicken Sie auf Erstellen.

Erstellen des PyCharm-Projekts

Schritt 3: Hinzufügen des Databricks Connect-Pakets

  1. Klicken Sie im Hauptmenü von PyCharm auf "Windows > Python-Pakete anzeigen>".
  2. Geben Sie im Suchfeld databricks-connectein.
  3. Klicken Sie in der Liste PyPI-Repository auf databricks-connect.
  4. Wählen Sie in der neueste Auswahlliste des Ergebnisbereichs die Version aus, die der Databricks-Runtime-Version Ihres Clusters entspricht. Wenn in Ihrem Cluster also beispielsweise Databricks Runtime 14.3 installiert ist, wählen Sie 14.3.1 aus.
  5. Klicken Sie auf Paket installieren.
  6. Nach der Installation des Pakets können Sie das Fenster Python-Pakete schließen.

Installieren Sie das Databricks Connect-Paket

Schritt 4: Hinzufügen von Code

  1. Klicken Sie im Projekttoolfenster mit der rechten Maustaste auf den Stammordner des Projekts, und klicken Sie auf "Neue > Python-Datei".

  2. Geben Sie main.py ein, und doppelklicken Sie auf Python-Datei.

  3. Geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei abhängig vom Namen Ihres Konfigurationsprofils.

    Wenn Ihr Konfigurationsprofil aus Schritt 1 DEFAULT lautet, geben Sie den folgenden Code in die Datei ein und speichern Sie die Datei:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Wenn Ihr Konfigurationsprofil aus Schritt 1 nicht DEFAULT lautet, geben Sie stattdessen den folgenden Code in die Datei ein. Ersetzen Sie den Platzhalter <profile-name> durch den Namen Ihres Konfigurationsprofils aus Schritt 1 und speichern Sie dann die Datei:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Schritt 5: Ausführen des Codes

  1. Starten Sie den Zielcluster in Ihrem Azure Databricks-Remotearbeitsbereich.
  2. Nachdem der Cluster gestartet wurde, klicken Sie im Hauptmenü auf „Ausführen 'main'>“.
  3. Im Fenster "Ausführen" (Ansicht > Werkzeugfenster > Ausführen), im Tab "Ausführen" im Hauptfenster erscheinen die ersten 5 Zeilen von samples.nyctaxi.trips.

Schritt 6: Debuggen des Codes

  1. Wählen Sie, während der Cluster noch ausgeführt wird, im vorherigen Code den Bundsteg neben df.show(5) aus, um einen Breakpoint festzulegen.
  2. Klicken Sie im Hauptmenü auf "Debuggen ausführen>".
  3. Im Debug-Werkzeugfenster (Ansicht > Werkzeugfenster > Debug), im Tab Debugger im Bereich Variablen, erweitern Sie die Variablenknoten df und spark, um Informationen über die Variablen des Codes zu durchsuchen.
  4. Klicken Sie in der Randleiste des Debugtools auf den grünen Pfeil (Programm fortsetzen).
  5. Im Debugger-Registerkarte im Konsolebereich erscheinen die ersten fünf Zeilen der samples.nyctaxi.trips.

Debuggen des PyCharm-Projekts

Nächste Schritte

Weitere Informationen zu Databricks Connect finden Sie z. B. in den folgenden Artikeln: