Udostępnij za pośrednictwem


Samouczek: uruchamianie kodu z narzędzia PyCharm w przypadku obliczeń klasycznych

Uwaga / Notatka

Ten artykuł dotyczy programu Databricks Connect dla środowiska Databricks Runtime 13.3 LTS i nowszych wersji.

Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, takich jak PyCharm, serwerów notebooków i innych aplikacji niestandardowych z zasobami obliczeniowymi Azure Databricks. Zobacz Databricks Connect.

W tym artykule pokazano, jak szybko rozpocząć pracę z programem Databricks Connect na potrzeby Python przy użyciu PyCharm. Utworzysz projekt w narzędziu PyCharm, zainstalujesz program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego, a następnie uruchomisz prosty kod w klasycznym środowisku obliczeniowym w obszarze roboczym usługi Databricks z poziomu rozwiązania PyCharm.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Obszar roboczy, środowisko lokalne i obliczenia spełniają wymagania dotyczące programu Databricks Connect dla Python. Zobacz Wymagania dotyczące użycia usługi Databricks Connect.
  • Masz zainstalowany pakiet PyCharm. Ten samouczek został przetestowany z wersją PyCharm Community Edition 2023.3.5. Jeśli używasz innej wersji lub wydania pakietu PyCharm, poniższe instrukcje mogą się różnić.
  • Jeśli używasz klasycznych obliczeń, będziesz potrzebować identyfikatora klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij Obliczenia na pasku bocznym, a następnie kliknij nazwę swojego klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

Krok 1. Konfigurowanie uwierzytelniania Azure Databricks

W tym samouczku jest używane uwierzytelnianie Azure Databricks OAuth typu użytkownik-do-maszyna oraz profil konfiguracji Azure Databricks do uwierzytelniania w środowisku obszaru roboczego Azure Databricks. Aby użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.

Konfigurowanie uwierzytelniania OAuth U2M wymaga Databricks CLI. Aby uzyskać informacje na temat instalowania interfejsu wiersza polecenia usługi Databricks, zobacz Instalowanie lub aktualizowanie interfejsu wiersza polecenia usługi Databricks.

Zainicjuj uwierzytelnianie OAuth U2M w następujący sposób:

  1. Użyj Databricks CLI, aby lokalnie zainicjować zarządzanie tokenami OAuth, uruchamiając następujące polecenie dla każdego docelowego obszaru roboczego.

    W poniższym poleceniu zastąp <workspace-url> adresem URL obszaru roboczego Azure Databricks per-workspace, na przykład https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Wskazówka

    Aby używać bezserwerowych obliczeń z usługą Databricks Connect, zobacz Konfigurowanie połączenia z bezserwerowymi obliczeniami.

  2. Interfejs wiersza polecenia usługi Databricks monituje, aby zapisać wprowadzone informacje jako profil konfiguracji Azure Databricks . Naciśnij Enter , aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.

    Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie databricks auth profiles. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom polecenie databricks auth env --profile <profile-name>.

  3. W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego Azure Databricks.

  4. Na liście dostępnych klastrów wyświetlanych w terminalu lub wierszu polecenia użyj klawiszy strzałki w górę i strzałki w dół, aby wybrać docelowy klaster Azure Databricks w obszarze roboczym, a następnie naciśnij przycisk Enter. Możesz również wpisać dowolną część nazwy wyświetlanej klastra, aby filtrować listę dostępnych klastrów.

  5. Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Jeśli masz wiele profilów o tej samej wartości --host, może być konieczne jednoczesne określenie opcji --host i -p, aby pomóc interfejsowi CLI usługi Databricks w znalezieniu prawidłowych informacji pasujących do tokenu OAuth.

Krok 2. Tworzenie projektu

  1. Uruchom plik PyCharm.
  2. W menu głównym wybierz pozycję Plik > nowy projekt.
  3. W oknie dialogowym Nowy Project kliknij pozycję Pure Python.
  4. W przypadku Location kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu Python.
  5. Pozostaw zaznaczoną opcję Utwórz skrypt powitalny main.py.
  6. Dla Interpreter type kliknij Project venv.
  7. Rozwiń wersję Python i użyj ikony folderu lub listy rozwijanej, aby określić ścieżkę do interpretera Python określonych w poprzednich wymaganiach.
  8. Kliknij pozycję Utwórz.

Tworzenie projektu PyCharm

Krok 3. Dodawanie pakietu Databricks Connect

  1. W menu głównym narzędzia PyCharm kliknij pozycję View > Tool Windows > Python Packages.
  2. W polu wyszukiwania wpisz databricks-connect.
  3. Na liście repozytorium PyPI kliknij pozycję databricks-connect.
  4. Z najnowszej listy rozwijanej okienka wyników wybierz wersję zgodną z wersją środowiska Databricks Runtime klastra. Jeśli na przykład klaster ma zainstalowane środowisko Databricks Runtime 14.3, wybierz pozycję 14.3.1.
  5. Kliknij pozycję Zainstaluj pakiet.
  6. Po zainstalowaniu pakietu można zamknąć okno Python Packages.

Instalowanie pakietu Databricks Connect

Krok 4. Dodawanie kodu

  1. W oknie narzędzia Project kliknij prawym przyciskiem myszy folder główny Project, a następnie kliknij Nowy Plik Python>.

  2. Wprowadź main.py i kliknij dwukrotnie plik Python.

  3. Wprowadź następujący kod w pliku, a następnie zapisz plik w zależności od nazwy profilu konfiguracji.

    Jeśli profil konfiguracji z kroku 1 nosi nazwę DEFAULT, wprowadź następujący kod w pliku, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Jeśli profil konfiguracji z kroku 1 nie ma nazwy DEFAULT, zamiast tego wprowadź następujący kod do pliku. Zastąp symbol zastępczy <profile-name> nazwą profilu konfiguracji z kroku 1, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Krok 5. Uruchamianie kodu

  1. Uruchom klaster docelowy w zdalnym obszarze roboczym Azure Databricks.
  2. Po uruchomieniu klastra, w menu głównym kliknij >.
  3. W oknie narzędzia Run (View > Tool Windows > Run), w zakładce Run, w głównym okienku main, pojawi się pierwszych 5 wierszy samples.nyctaxi.trips.

Krok 6. Debugowanie kodu

  1. Gdy klaster nadal działa, kliknij w marginesie obok df.show(5), aby ustawić punkt przerwania.
  2. Na głównym pasku menu kliknij Uruchom > Debug 'main'.
  3. W oknie narzędzia Debug (View > Tool Windows > Debug) w karcie Debugger w okienku Variables, rozwiń węzły zmiennych df i spark, aby przeglądać informacje o kodzie df i zmiennych spark.
  4. Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).
  5. W panelu Debugera 'Konsola' pojawiają się pierwsze 5 wierszy .

Debugowanie projektu PyCharm