Databricks-Verbinding maken voor Python

Notitie

Dit artikel bevat informatie over Databricks Verbinding maken voor Databricks Runtime 13.0 en hoger.

In dit artikel wordt gedemonstreerd hoe u snel aan de slag kunt met Databricks Verbinding maken met behulp van Python en PyCharm.

Met Databricks Verbinding maken kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. Zie Wat is Databricks Verbinding maken?

Zelfstudie

Zie Volgende stappen als u deze zelfstudie wilt overslaan en in plaats daarvan een andere IDE wilt gebruiken.

Vereisten

Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:

  • Uw Azure Databricks-doelwerkruimte en -cluster moeten voldoen aan de vereisten voor clusterconfiguratie voor Databricks Verbinding maken.

  • U moet de cluster-id beschikbaar hebben. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen clusters en configuration in de URL.

  • U hebt PyCharm geïnstalleerd. Deze zelfstudie is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.

  • Python 3 is geïnstalleerd op uw ontwikkelcomputer en de secundaire versie van de Python-clientinstallatie is hetzelfde als de secundaire Python-versie van uw Azure Databricks-cluster. In de volgende tabel ziet u de Python-versie die is geïnstalleerd met elke Databricks Runtime.

    Databricks Runtime-versie Python-versie
    15,0 ML,
    15.0
    3.11
    13.0 ML - 14.3 ML,
    13.0 - 14.3
    3.10

Stap 1: Azure Databricks-verificatie configureren

In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth-verificatie van gebruikers naar machine (U2M) en een Azure Databricks-configuratieprofiel voor verificatie met uw Azure Databricks-werkruimte. Als u in plaats daarvan een ander verificatietype wilt gebruiken, raadpleegt u Verbindingseigenschappen configureren.

Voor het configureren van OAuth U2M-verificatie is de Databricks CLI als volgt vereist:

  1. Als deze nog niet is geïnstalleerd, installeert u de Databricks CLI als volgt:

    Linux, macos

    Gebruik Homebrew om de Databricks CLI te installeren door de volgende twee opdrachten uit te voeren:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    U kunt winget, Chocolatey of Windows-subsysteem voor Linux (WSL) gebruiken om de Databricks CLI te installeren. Als u deze procedure niet kunt gebruiken winget, Chocolatey of WSL, moet u deze procedure overslaan en in plaats daarvan de Opdrachtprompt of PowerShell gebruiken om de Databricks CLI te installeren vanuit de bron .

    Notitie

    Het installeren van de Databricks CLI met Chocolatey is experimenteel.

    winget Als u de Databricks CLI wilt installeren, voert u de volgende twee opdrachten uit en start u de opdrachtprompt opnieuw:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Voer de volgende opdracht uit om Chocolatey te gebruiken om de Databricks CLI te installeren:

    choco install databricks-cli
    

    WSL gebruiken om de Databricks CLI te installeren:

    1. Installeer curl en zip via WSL. Zie de documentatie van uw besturingssysteem voor meer informatie.

    2. Gebruik WSL om de Databricks CLI te installeren door de volgende opdracht uit te voeren:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Controleer of de Databricks CLI is geïnstalleerd door de volgende opdracht uit te voeren, waarin de huidige versie van de geïnstalleerde Databricks CLI wordt weergegeven. Deze versie moet 0.205.0 of hoger zijn:

    databricks -v
    

    Notitie

    Als u maar databricks een fout krijgt, zoals command not found: databricks, of als u uitvoert databricks -v en een versienummer van 0.18 of lager wordt vermeld, betekent dit dat uw computer de juiste versie van het uitvoerbare Bestand van de Databricks CLI niet kan vinden. Zie Uw CLI-installatie controleren om dit probleem op te lossen.

Start OAuth U2M-verificatie als volgt:

  1. Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.

    Vervang in de volgende opdracht bijvoorbeeld https://adb-1234567890123456.7.azuredatabricks.netdoor <workspace-url> de URL van uw Azure Databricks per werkruimte.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks-configuratieprofiel. Druk Enter om de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.

    Als u een lijst met bestaande profielen wilt ophalen, gebruikt u in een afzonderlijke terminal of opdrachtprompt de Databricks CLI om de opdracht databricks auth profilesuit te voeren. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdracht databricks auth env --profile <profile-name>uit.

  3. Voltooi in uw webbrowser de instructies op het scherm om u aan te melden bij uw Azure Databricks-werkruimte.

  4. Gebruik in de lijst met beschikbare clusters die worden weergegeven in uw terminal of opdrachtprompt de pijl-omhoog en pijl-omlaag om het Azure Databricks-doelcluster in uw werkruimte te selecteren en druk Enterop . U kunt ook een deel van de weergavenaam van het cluster typen om de lijst met beschikbare clusters te filteren.

  5. Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Als u meerdere profielen met dezelfde --host waarde hebt, moet u mogelijk de --host en -p opties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.

Stap 2: Het project maken

  1. Start PyCharm.
  2. Klik in het hoofdmenu op Bestand > nieuw project.
  3. Klik in het dialoogvenster Nieuw project op Pure Python.
  4. Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar uw nieuwe Python-project op te geven.
  5. Laat Een main.py welkomstscript maken geselecteerd.
  6. Klik voor het type Interpreter op Project venv.
  7. Vouw de Python-versie uit en gebruik het mappictogram of de vervolgkeuzelijst om het pad naar de Python-interpreter op te geven uit de voorgaande vereisten.
  8. Klik op Create.

Het PyCharm-project maken

Stap 3: Het Databricks-Verbinding maken-pakket toevoegen

  1. Klik in het hoofdmenu van PyCharm op Windows > Python-pakketten weergeven>.
  2. Typ databricks-connect in het zoekvak.
  3. Klik in de lijst met PyPI-opslagplaatsen op Databricks-connect.
  4. Selecteer in de meest recente vervolgkeuzelijst van het resultaatvenster de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als in uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, selecteert u 14.3.1.
  5. Klik op Pakket installeren.
  6. Nadat het pakket is geïnstalleerd, kunt u het venster Python-pakketten sluiten.

Het Databricks-Verbinding maken-pakket installeren

Stap 4: Code toevoegen

  1. Klik in het venster Project met de rechtermuisknop op de hoofdmap van het project en klik op Nieuw > Python-bestand.

  2. Voer het Python-bestand in main.py en dubbelklik erop.

  3. Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.

    Als uw configuratieprofiel uit stap 1 de naam DEFAULTheeft, voert u de volgende code in het bestand in en slaat u het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Als uw configuratieprofiel uit stap 1 geen naam DEFAULTheeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding <profile-name> door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Stap 5: De code uitvoeren

  1. Start het doelcluster in uw externe Azure Databricks-werkruimte.
  2. Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > 'main'.
  3. In het venster Hulpprogramma Uitvoeren (Windows Uitvoeren weergeven >>), in het hoofdvenster van het tabblad Uitvoeren, worden de eerste 5 rijen van het samples.nyctaxi.trips venster weergegeven.

Stap 6: Fouten opsporen in de code

  1. Terwijl het cluster nog steeds wordt uitgevoerd, klikt u in de voorgaande code op de rugmarge naast om een onderbrekingspunt in te df.show(5) stellen.
  2. Klik in het hoofdmenu op Hoofdopsporing >uitvoeren.
  3. Vouw in het venster Foutopsporingsprogramma (Windows >> Foutopsporing weergeven) in het deelvenster Variabelen van het foutopsporingsprogramma de df- en Spark-variabeleknooppunten uit om door informatie over de code df en spark variabelen te bladeren.
  4. Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
  5. In het consolevenster van het tabblad Foutopsporingsprogramma worden de eerste vijf rijen van het samples.nyctaxi.trips tabblad Weergegeven.

Fouten opsporen in het PyCharm-project

Volgende stappen

Zie de volgende artikelen voor meer informatie over Databricks Verbinding maken: