Databricks Anslut för Python

Kommentar

Den här artikeln beskriver Databricks Anslut för Databricks Runtime 13.0 och senare.

Den här artikeln visar hur du snabbt kommer igång med Databricks Anslut med hjälp av Python och PyCharm.

Med Databricks Anslut kan du ansluta populära ID:er som PyCharm, notebook-servrar och andra anpassade program till Azure Databricks-kluster. Se Vad är Databricks Anslut?.

Självstudier

Mer information om hur du hoppar över den här självstudien och använder en annan IDE finns i Nästa steg.

Krav

För att slutföra den här självstudien måste du uppfylla följande krav:

  • Din Azure Databricks-målarbetsyta och ditt kluster måste uppfylla kraven för klusterkonfiguration för Databricks Anslut.

  • Du måste ha ditt kluster-ID tillgängligt. Om du vill hämta ditt kluster-ID klickar du på Beräkning i sidofältet i arbetsytan och klickar sedan på klustrets namn. Kopiera teckensträngen mellan clusters och configuration i URL:en i webbläsarens adressfält.

  • Du har Installerat PyCharm . Den här självstudien har testats med PyCharm Community Edition 2023.3.5. Om du använder en annan version eller utgåva av PyCharm kan följande instruktioner variera.

  • Du har Python 3 installerat på utvecklingsdatorn och den lägre versionen av python-klientens installation är samma som den lägre Python-versionen av ditt Azure Databricks-kluster. I följande tabell visas Python-versionen som är installerad med varje Databricks Runtime.

    Databricks Runtime-version Python-version
    15,0 ML,
    15.0
    3.11
    13,0 ML - 14,3 ML,
    13.0 - 14.3
    3,10

Steg 1: Konfigurera Azure Databricks-autentisering

I den här självstudien används autentisering med Azure Databricks OAuth från användare till dator (U2M) och en Azure Databricks-konfigurationsprofil för autentisering med din Azure Databricks-arbetsyta. Information om hur du använder en annan autentiseringstyp finns i Konfigurera anslutningsegenskaper.

För att konfigurera OAuth U2M-autentisering krävs Databricks CLI enligt följande:

  1. Om den inte redan är installerad installerar du Databricks CLI på följande sätt:

    Linux, macos

    Använd Homebrew för att installera Databricks CLI genom att köra följande två kommandon:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    Du kan använda winget, Chocolatey eller Windows-undersystem för Linux (WSL) för att installera Databricks CLI. Om du inte kan använda winget, Chocolatey eller WSL bör du hoppa över den här proceduren och använda Kommandotolken eller PowerShell för att installera Databricks CLI från källan i stället.

    Kommentar

    Det är experimentellt att installera Databricks CLI med Chocolatey.

    Om du vill använda winget för att installera Databricks CLI kör du följande två kommandon och startar sedan om kommandotolken:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Kör följande kommando för att använda Chocolatey för att installera Databricks CLI:

    choco install databricks-cli
    

    Så här använder du WSL för att installera Databricks CLI:

    1. Installera curl och zip via WSL. Mer information finns i dokumentationen för ditt operativsystem.

    2. Använd WSL för att installera Databricks CLI genom att köra följande kommando:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Bekräfta att Databricks CLI har installerats genom att köra följande kommando, som visar den aktuella versionen av det installerade Databricks CLI. Den här versionen ska vara 0.205.0 eller senare:

    databricks -v
    

    Kommentar

    Om du kör databricks men får ett fel som command not found: databricks, eller om du kör databricks -v och ett versionsnummer 0.18 eller senare visas, innebär det att datorn inte kan hitta rätt version av databricks CLI-körbara filer. Information om hur du åtgärdar detta finns i Verifiera CLI-installationen.

Initiera OAuth U2M-autentisering på följande sätt:

  1. Använd Databricks CLI för att initiera OAuth-tokenhantering lokalt genom att köra följande kommando för varje målarbetsyta.

    I följande kommando ersätter du <workspace-url> med url:en för Azure Databricks per arbetsyta, till exempel https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Databricks CLI uppmanar dig att spara den information som du angav som en Azure Databricks-konfigurationsprofil. Tryck Enter för att acceptera det föreslagna profilnamnet eller ange namnet på en ny eller befintlig profil. Alla befintliga profiler med samma namn skrivs över med den information som du angav. Du kan använda profiler för att snabbt växla autentiseringskontext över flera arbetsytor.

    Om du vill hämta en lista över befintliga profiler i en separat terminal eller kommandotolk använder du Databricks CLI för att köra kommandot databricks auth profiles. Om du vill visa en specifik profils befintliga inställningar kör du kommandot databricks auth env --profile <profile-name>.

  3. I webbläsaren slutför du anvisningarna på skärmen för att logga in på din Azure Databricks-arbetsyta.

  4. I listan över tillgängliga kluster som visas i terminalen eller kommandotolken använder du upppilen och nedåtpilen för att välja Azure Databricks-målklustret på arbetsytan och trycker sedan på Enter. Du kan också ange valfri del av klustrets visningsnamn för att filtrera listan över tillgängliga kluster.

  5. Om du vill visa en profils aktuella OAuth-tokenvärde och tokens kommande förfallotidsstämpel kör du något av följande kommandon:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Om du har flera profiler med samma --host värde kan du behöva ange --host alternativen och -p tillsammans för att hjälpa Databricks CLI att hitta rätt matchande OAuth-tokeninformation.

Steg 2: Skapa projektet

  1. Starta PyCharm.
  2. På huvudmenyn klickar du på Arkiv > Nytt projekt.
  3. I dialogrutan Nytt projekt klickar du på Ren Python.
  4. För Plats klickar du på mappikonen och slutför anvisningarna på skärmen för att ange sökvägen till ditt nya Python-projekt.
  5. Låt Skapa ett main.py välkomstskript vara valt.
  6. För Tolktyp klickar du på Projekt venv.
  7. Expandera Python-versionen och använd mappikonen eller listrutan för att ange sökvägen till Python-tolken från ovanstående krav.
  8. Klicka på Skapa.

Skapa PyCharm-projektet

Steg 3: Lägg till Databricks-Anslut-paketet

  1. På PyCharms huvudmeny klickar du på Visa verktyg Windows > Python-paket>.
  2. Skriv databricks-connect i sökrutan.
  3. I listan över PyPI-lagringsplatser klickar du på databricks-connect.
  4. I resultatfönstrets senaste listruta väljer du den version som matchar klustrets Databricks Runtime-version. Om klustret till exempel har Databricks Runtime 14.3 installerat väljer du 14.3.1.
  5. Klicka på Installera paket.
  6. När paketet har installerats kan du stänga fönstret Python-paket .

Installera Databricks Anslut-paketet

Steg 4: Lägg till kod

  1. I fönstret Projektverktyg högerklickar du på projektets rotmapp och klickar på Ny > Python-fil.

  2. Ange main.py och dubbelklicka på Python-filen.

  3. Ange följande kod i filen och spara sedan filen, beroende på namnet på konfigurationsprofilen.

    Om konfigurationsprofilen från steg 1 heter DEFAULTanger du följande kod i filen och sparar sedan filen:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Om konfigurationsprofilen från steg 1 inte heter DEFAULTanger du följande kod i filen i stället. Ersätt platshållaren <profile-name> med namnet på konfigurationsprofilen från steg 1 och spara sedan filen:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Steg 5: Kör koden

  1. Starta målklustret på din fjärranslutna Azure Databricks-arbetsyta.
  2. När klustret har startat klickar du på Kör kör > "main" på huvudmenyn.
  3. I fönstret Kör verktyg (Visa > verktyget Windows > Kör) i huvudfönstret på fliken Kör visas de första 5 radernasamples.nyctaxi.trips.

Steg 6: Felsöka koden

  1. När klustret fortfarande körs klickar du på rännstenen bredvid i föregående kod för att df.show(5) ange en brytpunkt.
  2. På huvudmenyn klickar du på Kör > felsöka "main".
  3. Expandera df- och spark-variabelnoderna i fönstret Variabler på fliken Variabler i felsökningsverktyget (Visa > verktyget Windows-felsökning>) för att bläddra bland information om kodens df och spark variablerna.
  4. I sidofältet förfelsökningsverktyget klickar du på den gröna pilen (Återuppta program).
  5. I fönstret Konsol på fliken Felsökare visas de första 5 radernasamples.nyctaxi.trips.

Felsöka PyCharm-projektet

Nästa steg

Mer information om Databricks Anslut finns i artiklar som följande: