Samouczek rozszerzenia VSCode dla usługi Databricks: uruchamianie języka Python w klastrze i jako zadanie

Artykuł
03/18/2024

W tym samouczku pokazano, jak rozpocząć pracę z rozszerzeniem usługi Databricks dla programu Visual Studio Code, uruchamiając podstawowy plik kodu języka Python w klastrze usługi Azure Databricks i jako zadanie usługi Azure Databricks uruchomione w zdalnym obszarze roboczym. Zobacz Co to jest rozszerzenie usługi Databricks dla programu Visual Studio Code?.

Co zrobisz w tym samouczku?

W tym samouczku praktycznym wykonasz następujące czynności:

Utwórz klaster usługi Azure Databricks, aby uruchomić lokalny kod języka Python.
Zainstaluj program Visual Studio Code i rozszerzenie usługi Databricks dla programu Visual Studio Code.
Skonfiguruj uwierzytelnianie usługi Azure Databricks i skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code przy użyciu tych informacji.
Skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code z informacjami o klastrze zdalnym i ma rozszerzenie do uruchamiania klastra.
Skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code z lokalizacją w zdalnym obszarze roboczym usługi Azure Databricks w celu przekazania lokalnego kodu w języku Python, a rozszerzenie rozpocznie nasłuchiwanie zdarzeń przekazywania kodu.
Napisz i zapisz kod w języku Python, który wyzwala zdarzenie przekazywania kodu.
Użyj rozszerzenia Databricks dla programu Visual Studio Code, aby uruchomić przekazany kod w klastrze zdalnym, a następnie uruchomić go z klastrem jako zdalne uruchomienie zadania.

W tym samouczku pokazano tylko, jak uruchomić plik kodu języka Python, a w tym samouczku pokazano tylko, jak skonfigurować uwierzytelnianie użytkownika do komputera (U2M) OAuth. Aby dowiedzieć się, jak debugować pliki kodu języka Python, uruchamiać i debugować notesy oraz konfigurować inne typy uwierzytelniania, zobacz Następne kroki.

Krok 1. Tworzenie klastra

Jeśli masz już zdalny klaster usługi Azure Databricks, którego chcesz użyć, zanotuj nazwę klastra i przejdź do kroku 2, aby zainstalować program Visual Studio Code. Aby wyświetlić dostępne klastry, na pasku bocznym obszaru roboczego kliknij pozycję Obliczenia.

Usługa Databricks zaleca utworzenie klastra usługi Personal Compute w celu szybkiego rozpoczęcia pracy. Aby utworzyć ten klaster, wykonaj następujące czynności:

W obszarze roboczym usługi Azure Databricks na pasku bocznym kliknij pozycję Obliczenia.
Kliknij pozycję Utwórz przy użyciu obliczeń osobistych.
Kliknij pozycję Utwórz obliczenia.
Zanotuj nazwę klastra, ponieważ będzie ona potrzebna w dalszej części kroku 5 podczas dodawania informacji o klastrze do rozszerzenia.

Krok 2. Instalowanie programu Visual Studio Code

Aby zainstalować program Visual Studio Code, postępuj zgodnie z instrukcjami dotyczącymi systemów macOS, Linux lub Windows.

Jeśli masz już zainstalowany program Visual Studio Code, sprawdź, czy jest to wersja 1.69.1 lub nowsza. W tym celu w programie Visual Studio Code w menu głównym kliknij pozycję Code About Visual Studio Code for macOS (Informacje > o programie Visual Studio Code dla systemu macOS) lub Help About for Linux or Windows (Informacje o programie > Visual Studio Code dla systemu Linux lub Windows).

Aby zaktualizować program Visual Studio Code, w menu głównym kliknij pozycję Sprawdzanie kodu > pod kątem Aktualizacje dla systemu macOS lub Sprawdzanie pomocy > pod kątem Aktualizacje dla systemu Linux lub Windows.

Krok 3. Instalowanie rozszerzenia usługi Databricks

Instalowanie rozszerzenia programu Visual Studio Code

Na pasku bocznym programu Visual Studio Code kliknij ikonę Rozszerzenia .
W obszarze Rozszerzenia wyszukiwania w witrynie Marketplace wprowadź ciąg Databricks.
W wpisie oznaczonym jako Databricks z obsługą podtytułu IDE dla usługi Databricks firmy Databricks kliknij przycisk Zainstaluj.

Krok 4. Konfigurowanie uwierzytelniania usługi Azure Databricks

W tym kroku włączysz uwierzytelnianie między rozszerzeniem usługi Databricks dla programu Visual Studio Code i zdalnym obszarem roboczym usługi Azure Databricks w następujący sposób:

W programie Visual Studio Code otwórz pusty folder na lokalnej maszynie programistycznej, który będzie używany do przechowywania kodu języka Python, który zostanie utworzony i uruchomiony w dalszej części kroku 7. W tym celu w menu głównym kliknij pozycję Plik > Otwórz folder i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.
Na pasku bocznym programu Visual Studio Code kliknij ikonę logo usługi Databricks .
W okienku Konfiguracja kliknij pozycję Konfiguruj usługę Databricks.
W palecie poleceń w polu Host usługi Databricks wprowadź adres URL obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net. Następnie naciśnij klawisz Enter.
Wybierz pozycję OAuth (użytkownik do komputera).
Wykonaj instrukcje na ekranie w przeglądarce internetowej, aby zakończyć uwierzytelnianie za pomocą usługi Azure Databricks. Jeśli zostanie wyświetlony monit, zezwól na dostęp do wszystkich interfejsów API.

Krok 5. Dodawanie informacji o klastrze do rozszerzenia usługi Databricks i uruchamianie klastra

Po otwarciu okienka Konfiguracja z poprzedniego kroku, w którym skonfigurowaliśmy uwierzytelnianie, obok pozycji Klaster kliknij ikonę koła zębatego (Konfiguruj klaster).
W palecie poleceń wybierz nazwę klastra utworzonego w kroku 1.
Uruchom klaster, jeśli jeszcze nie został uruchomiony: obok pozycji Klaster, jeśli ikona odtwarzania (uruchom klaster) jest widoczna, kliknij ją.

Uruchamianie klastra

Krok 6. Dodawanie lokalizacji przekazywania kodu do rozszerzenia usługi Databricks i uruchamianie odbiornika przekazywania

Po otwarciu okienka Konfiguracja z poprzedniego kroku, w którym dodano informacje o klastrze, obok pozycji Synchronizuj miejsce docelowe kliknij ikonę koła zębatego (Konfiguruj miejsce docelowe synchronizacji).
W palecie poleceń wybierz pozycję Utwórz nowe miejsce docelowe synchronizacji.
Naciśnij klawisz Enter , aby potwierdzić wygenerowaną zdalną nazwę katalogu przekazywania.
Uruchom odbiornik przekazywania, jeśli jeszcze nie został uruchomiony: obok pozycji Synchronizuj miejsce docelowe, jeśli jest widoczna ikona ze strzałką (Rozpocznij synchronizację), kliknij ją.

Uruchamianie odbiornika przekazywania

Krok 7. Tworzenie i uruchamianie kodu w języku Python

Utwórz lokalny plik kodu języka Python: na pasku bocznym kliknij ikonę folderu (Eksploratora).
W menu głównym kliknij pozycję Plik > nowy plik. Nadaj plikowi nazwę demo.py i zapisz go w katalogu głównym projektu.

Dodaj następujący kod do pliku, a następnie zapisz go. Ten kod tworzy i wyświetla zawartość podstawowej ramki danych PySpark:

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# Output:
#
# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

W widoku Eksploratora kliknij prawym przyciskiem demo.py myszy plik, a następnie kliknij polecenie Przekaż i uruchom plik w usłudze Databricks. Dane wyjściowe są wyświetlane w okienku Konsola debugowania.

Przekazywanie i uruchamianie pliku w usłudze Databricks

Krok 8. Uruchamianie kodu jako zadania

W poprzednim kroku uruchomiono kod języka Python bezpośrednio w klastrze zdalnym. W tym kroku zainicjujesz przepływ pracy, który używa klastra do uruchamiania kodu jako zadania usługi Azure Databricks. Zobacz Co to jest usługa Azure Databricks Jobs?.

Aby uruchomić ten kod jako zadanie, w widoku Eksplorator kliknij prawym przyciskiem myszy demo.py plik, a następnie kliknij polecenie Uruchom plik jako przepływ pracy w usłudze Databricks. Dane wyjściowe są wyświetlane na osobnej karcie edytora obok edytora demo.py plików.

Uruchamianie pliku jako przepływu pracy w usłudze Databricks

Osiągnięto koniec tego samouczka.

Następne kroki

Teraz, gdy pomyślnie użyto rozszerzenia usługi Databricks dla programu Visual Studio Code do przekazania lokalnego pliku języka Python i uruchomienia go zdalnie, dowiedz się więcej o sposobie korzystania z rozszerzenia:

Dowiedz się więcej o dodatkowych sposobach konfigurowania uwierzytelniania dla rozszerzenia. Zobacz Konfigurowanie uwierzytelniania dla rozszerzenia usługi Databricks dla programu VS Code.
Dowiedz się, jak włączyć uzupełnianie kodu PySpark i Databricks Utilities, uruchomić lub debugować kod języka Python za pomocą Połączenie usługi Databricks, uruchomić plik lub notes jako zadanie usługi Azure Databricks, uruchomić testy za pomocą pytestpolecenia , użyć plików definicji zmiennych środowiskowych, utworzyć niestandardowe konfiguracje uruchamiania i nie tylko. Zobacz Zadania programistyczne dla rozszerzenia usługi Databricks dla programu Visual Studio Code.

Udostępnij za pośrednictwem