Połączenie usługi Databricks dla języka Python

Uwaga

W tym artykule opisano Połączenie databricks dla środowiska Databricks Runtime 13.0 lub nowszego.

W tym artykule pokazano, jak szybko rozpocząć pracę z usługą Databricks Połączenie przy użyciu języków Python i PyCharm.

Usługa Databricks Połączenie umożliwia łączenie popularnych środowisk IDE, takich jak PyCharm, serwery notesów i inne aplikacje niestandardowe z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Połączenie?.

Samouczek

Aby pominąć ten samouczek i użyć innego środowiska IDE, zobacz Następne kroki.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Docelowy obszar roboczy i klaster usługi Azure Databricks muszą spełniać wymagania dotyczące konfiguracji klastra dla usługi Databricks Połączenie.

  • Musisz mieć dostępny identyfikator klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

  • Masz zainstalowany pakiet PyCharm. Ten samouczek został przetestowany z wersją PyCharm Community Edition 2023.3.5. Jeśli używasz innej wersji lub wydania pakietu PyCharm, poniższe instrukcje mogą się różnić.

  • Masz zainstalowany język Python 3 na komputerze deweloperskim, a wersja pomocnicza instalacji klienta języka Python jest taka sama jak wersja pomocnicza języka Python klastra usługi Azure Databricks. W poniższej tabeli przedstawiono wersję języka Python zainstalowaną z każdym środowiskiem Databricks Runtime.

    Wersja środowiska Databricks Runtime Wersja języka Python
    15.0 ML,
    15.0
    3.11
    13.0 ML - 14.3 ML,
    13.0 - 14.3
    3,10

Krok 1. Konfigurowanie uwierzytelniania usługi Azure Databricks

W tym samouczku używane jest uwierzytelnianie użytkownika do komputera (U2M) usługi Azure Databricks oraz profil konfiguracji usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks. Aby zamiast tego użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.

Konfigurowanie uwierzytelniania OAuth U2M wymaga interfejsu wiersza polecenia usługi Databricks w następujący sposób:

  1. Jeśli nie został jeszcze zainstalowany, zainstaluj interfejs wiersza polecenia usługi Databricks w następujący sposób:

    Linux, macos

    Użyj oprogramowania Homebrew , aby zainstalować interfejs wiersza polecenia usługi Databricks, uruchamiając następujące dwa polecenia:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    Do zainstalowania interfejsu wiersza polecenia usługi Databricks można użyć zestawu narzędzi winget, Chocolatey lub Podsystem Windows dla systemu Linux (WSL). Jeśli nie możesz użyć wingetpolecenia , Chocolatey lub WSL, należy pominąć tę procedurę i użyć wiersza polecenia lub programu PowerShell, aby zainstalować interfejs wiersza polecenia usługi Databricks ze źródła .

    Uwaga

    Instalowanie interfejsu wiersza polecenia usługi Databricks za pomocą platformy Chocolatey jest eksperymentalne.

    winget Aby zainstalować interfejs wiersza polecenia usługi Databricks, uruchom następujące dwa polecenia, a następnie uruchom ponownie wiersz polecenia:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Aby zainstalować interfejs wiersza polecenia usługi Databricks za pomocą aplikacji Chocolatey, uruchom następujące polecenie:

    choco install databricks-cli
    

    Aby użyć programu WSL do zainstalowania interfejsu wiersza polecenia usługi Databricks:

    1. Instalowanie curl i zip za pośrednictwem programu WSL. Aby uzyskać więcej informacji, zobacz dokumentację systemu operacyjnego.

    2. Użyj programu WSL, aby zainstalować interfejs wiersza polecenia usługi Databricks, uruchamiając następujące polecenie:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Upewnij się, że interfejs wiersza polecenia usługi Databricks jest zainstalowany, uruchamiając następujące polecenie, które wyświetla bieżącą wersję zainstalowanego interfejsu wiersza polecenia usługi Databricks. Ta wersja powinna mieć wartość 0.205.0 lub nowszą:

    databricks -v
    

    Uwaga

    Jeśli uruchomisz databricks polecenie , ale wystąpi błąd, taki jak command not found: databricks, lub jeśli uruchomisz databricks -v polecenie i zostanie wyświetlony numer wersji 0.18 lub poniżej, oznacza to, że maszyna nie może odnaleźć poprawnej wersji pliku wykonywalnego interfejsu wiersza polecenia usługi Databricks. Aby rozwiązać ten problem, zobacz Weryfikowanie instalacji interfejsu wiersza polecenia.

Zainicjuj uwierzytelnianie OAuth U2M w następujący sposób:

  1. Użyj interfejsu wiersza polecenia usługi Databricks, aby lokalnie zainicjować zarządzanie tokenami OAuth, uruchamiając następujące polecenie dla każdego docelowego obszaru roboczego.

    W poniższym poleceniu zastąp ciąg <workspace-url> adresem URL usługi Azure Databricks na obszar roboczy, na przykład https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Interfejs wiersza polecenia usługi Databricks monituje o zapisanie informacji wprowadzonych jako profil konfiguracji usługi Azure Databricks. Naciśnij klawisz Enter , aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.

    Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie databricks auth profiles. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom polecenie databricks auth env --profile <profile-name>.

  3. W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego usługi Azure Databricks.

  4. Na liście dostępnych klastrów wyświetlanych w terminalu lub wierszu polecenia użyj strzałek w górę i w dół, aby wybrać docelowy klaster usługi Azure Databricks w obszarze roboczym, a następnie naciśnij klawisz Enter. Możesz również wpisać dowolną część nazwy wyświetlanej klastra, aby filtrować listę dostępnych klastrów.

  5. Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Jeśli masz wiele profilów o tej samej --host wartości, może być konieczne określenie --host opcji i -p , aby ułatwić interfejsowi wiersza polecenia usługi Databricks znalezienie prawidłowych pasujących informacji o tokenie OAuth.

Krok 2. Tworzenie projektu

  1. Uruchom plik PyCharm.
  2. W menu głównym kliknij pozycję Plik > nowy projekt.
  3. W oknie dialogowym Nowy projekt kliknij pozycję Pure Python.
  4. W obszarze Lokalizacja kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu języka Python.
  5. Pozostaw wybraną opcję Utwórz skrypt powitalny main.py.
  6. W polu Typ interpretera kliknij pozycję Projekt venv.
  7. Rozwiń węzeł Wersja języka Python i użyj ikony folderu lub listy rozwijanej, aby określić ścieżkę do interpretera języka Python z poprzednich wymagań.
  8. Kliknij pozycję Utwórz.

Tworzenie projektu PyCharm

Krok 3. Dodawanie pakietu Połączenie usługi Databricks

  1. W menu głównym narzędzia PyCharm kliknij pozycję Wyświetl narzędzia Windows > Python Packages>.
  2. W polu wyszukiwania wpisz databricks-connect.
  3. Na liście repozytorium PyPI kliknij pozycję databricks-connect.
  4. Z najnowszej listy rozwijanej okienka wyników wybierz wersję zgodną z wersją środowiska Databricks Runtime klastra. Jeśli na przykład klaster ma zainstalowane środowisko Databricks Runtime 14.3, wybierz pozycję 14.3.1.
  5. Kliknij pozycję Zainstaluj pakiet.
  6. Po zainstalowaniu pakietu można zamknąć okno Pakiety języka Python.

Instalowanie pakietu Połączenie usługi Databricks

Krok 4. Dodawanie kodu

  1. W oknie narzędzia Project kliknij prawym przyciskiem myszy folder główny projektu, a następnie kliknij pozycję Nowy > plik języka Python.

  2. Wprowadź main.py i kliknij dwukrotnie plik języka Python.

  3. Wprowadź następujący kod w pliku, a następnie zapisz plik w zależności od nazwy profilu konfiguracji.

    Jeśli profil konfiguracji z kroku 1 nosi nazwę DEFAULT, wprowadź następujący kod w pliku, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Jeśli profil konfiguracji z kroku 1 nie ma nazwy DEFAULT, zamiast tego wprowadź następujący kod do pliku. Zastąp symbol zastępczy <profile-name> nazwą profilu konfiguracji z kroku 1, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Krok 5. Uruchamianie kodu

  1. Uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.
  2. Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > polecenie "main".
  3. W oknie Uruchom narzędzie (Wyświetl > narzędzie Uruchom w systemie Windows>) w okienku głównym karty Uruchamianie zostanie wyświetlonych pierwszych 5 wierszysamples.nyctaxi.trips.

Krok 6. Debugowanie kodu

  1. Gdy klaster nadal działa, w poprzednim kodzie kliknij gutter obok, aby ustawić df.show(5) punkt przerwania.
  2. W menu głównym kliknij pozycję Uruchom > debugowanie "main".
  3. W oknie Narzędzia debugowania (Wyświetl > narzędzie Debugowanie systemu Windows>) w okienku Zmienne debugerarozwiń węzły zmiennych df i spark, aby przeglądać informacje o kodzie df i spark zmiennych.
  4. Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).
  5. W okienku Konsoladebugera zostanie wyświetlonych pierwszych 5 wierszysamples.nyctaxi.trips.

Debugowanie projektu PyCharm

Następne kroki

Aby dowiedzieć się więcej na temat Połączenie usługi Databricks, zobacz artykuły takie jak: