Udostępnij za pośrednictwem


Samouczek rozszerzenia VSCode dla usługi Databricks: uruchamianie języka Python w klastrze i jako zadanie

W tym samouczku pokazano, jak rozpocząć pracę z rozszerzeniem usługi Databricks dla programu Visual Studio Code, uruchamiając podstawowy plik kodu języka Python w klastrze usługi Azure Databricks i jako zadanie usługi Azure Databricks uruchomione w zdalnym obszarze roboczym. Zobacz Co to jest rozszerzenie usługi Databricks dla programu Visual Studio Code?.

Co zrobisz w tym samouczku?

W tym samouczku praktycznym wykonasz następujące czynności:

  • Utwórz klaster usługi Azure Databricks, aby uruchomić lokalny kod języka Python.
  • Zainstaluj program Visual Studio Code i rozszerzenie usługi Databricks dla programu Visual Studio Code.
  • Skonfiguruj uwierzytelnianie usługi Azure Databricks i skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code przy użyciu tych informacji.
  • Skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code z informacjami o klastrze zdalnym i ma rozszerzenie do uruchamiania klastra.
  • Skonfiguruj rozszerzenie usługi Databricks dla programu Visual Studio Code z lokalizacją w zdalnym obszarze roboczym usługi Azure Databricks w celu przekazania lokalnego kodu w języku Python, a rozszerzenie rozpocznie nasłuchiwanie zdarzeń przekazywania kodu.
  • Napisz i zapisz kod w języku Python, który wyzwala zdarzenie przekazywania kodu.
  • Użyj rozszerzenia Databricks dla programu Visual Studio Code, aby uruchomić przekazany kod w klastrze zdalnym, a następnie uruchomić go z klastrem jako zdalne uruchomienie zadania.

W tym samouczku pokazano tylko, jak uruchomić plik kodu języka Python, a w tym samouczku pokazano tylko, jak skonfigurować uwierzytelnianie użytkownika do komputera (U2M) OAuth. Aby dowiedzieć się, jak debugować pliki kodu języka Python, uruchamiać i debugować notesy oraz konfigurować inne typy uwierzytelniania, zobacz Następne kroki.

Krok 1. Tworzenie klastra

Jeśli masz już zdalny klaster usługi Azure Databricks, którego chcesz użyć, zanotuj nazwę klastra i przejdź do kroku 2, aby zainstalować program Visual Studio Code. Aby wyświetlić dostępne klastry, na pasku bocznym obszaru roboczego kliknij pozycję Obliczenia.

Usługa Databricks zaleca utworzenie klastra usługi Personal Compute w celu szybkiego rozpoczęcia pracy. Aby utworzyć ten klaster, wykonaj następujące czynności:

  1. W obszarze roboczym usługi Azure Databricks na pasku bocznym kliknij pozycję Obliczenia.
  2. Kliknij pozycję Utwórz przy użyciu obliczeń osobistych.
  3. Kliknij pozycję Utwórz obliczenia.
  4. Zanotuj nazwę klastra, ponieważ będzie ona potrzebna w dalszej części kroku 5 podczas dodawania informacji o klastrze do rozszerzenia.

Krok 2. Instalowanie programu Visual Studio Code

Aby zainstalować program Visual Studio Code, postępuj zgodnie z instrukcjami dotyczącymi systemów macOS, Linux lub Windows.

Jeśli masz już zainstalowany program Visual Studio Code, sprawdź, czy jest to wersja 1.69.1 lub nowsza. W tym celu w programie Visual Studio Code w menu głównym kliknij pozycję Code About Visual Studio Code for macOS (Informacje > o programie Visual Studio Code dla systemu macOS) lub Help About for Linux or Windows (Informacje o programie > Visual Studio Code dla systemu Linux lub Windows).

Aby zaktualizować program Visual Studio Code, w menu głównym kliknij pozycję Sprawdzanie kodu > pod kątem Aktualizacje dla systemu macOS lub Sprawdzanie pomocy > pod kątem Aktualizacje dla systemu Linux lub Windows.

Krok 3. Instalowanie rozszerzenia usługi Databricks

Instalowanie rozszerzenia programu Visual Studio Code

  1. Na pasku bocznym programu Visual Studio Code kliknij ikonę Rozszerzenia .
  2. W obszarze Rozszerzenia wyszukiwania w witrynie Marketplace wprowadź ciąg Databricks.
  3. W wpisie oznaczonym jako Databricks z obsługą podtytułu IDE dla usługi Databricks firmy Databricks kliknij przycisk Zainstaluj.

Krok 4. Konfigurowanie uwierzytelniania usługi Azure Databricks

W tym kroku włączysz uwierzytelnianie między rozszerzeniem usługi Databricks dla programu Visual Studio Code i zdalnym obszarem roboczym usługi Azure Databricks w następujący sposób:

  1. W programie Visual Studio Code otwórz pusty folder na lokalnej maszynie programistycznej, który będzie używany do przechowywania kodu języka Python, który zostanie utworzony i uruchomiony w dalszej części kroku 7. W tym celu w menu głównym kliknij pozycję Plik > Otwórz folder i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.
  2. Na pasku bocznym programu Visual Studio Code kliknij ikonę logo usługi Databricks .
  3. W okienku Konfiguracja kliknij pozycję Konfiguruj usługę Databricks.
  4. W palecie poleceń w polu Host usługi Databricks wprowadź adres URL obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net. Następnie naciśnij klawisz Enter.
  5. Wybierz pozycję OAuth (użytkownik do komputera).
  6. Wykonaj instrukcje na ekranie w przeglądarce internetowej, aby zakończyć uwierzytelnianie za pomocą usługi Azure Databricks. Jeśli zostanie wyświetlony monit, zezwól na dostęp do wszystkich interfejsów API.

Krok 5. Dodawanie informacji o klastrze do rozszerzenia usługi Databricks i uruchamianie klastra

  1. Po otwarciu okienka Konfiguracja z poprzedniego kroku, w którym skonfigurowaliśmy uwierzytelnianie, obok pozycji Klaster kliknij ikonę koła zębatego (Konfiguruj klaster).
  2. W palecie poleceń wybierz nazwę klastra utworzonego w kroku 1.
  3. Uruchom klaster, jeśli jeszcze nie został uruchomiony: obok pozycji Klaster, jeśli ikona odtwarzania (uruchom klaster) jest widoczna, kliknij ją.

Uruchamianie klastra

Krok 6. Dodawanie lokalizacji przekazywania kodu do rozszerzenia usługi Databricks i uruchamianie odbiornika przekazywania

  1. Po otwarciu okienka Konfiguracja z poprzedniego kroku, w którym dodano informacje o klastrze, obok pozycji Synchronizuj miejsce docelowe kliknij ikonę koła zębatego (Konfiguruj miejsce docelowe synchronizacji).
  2. W palecie poleceń wybierz pozycję Utwórz nowe miejsce docelowe synchronizacji.
  3. Naciśnij klawisz Enter , aby potwierdzić wygenerowaną zdalną nazwę katalogu przekazywania.
  4. Uruchom odbiornik przekazywania, jeśli jeszcze nie został uruchomiony: obok pozycji Synchronizuj miejsce docelowe, jeśli jest widoczna ikona ze strzałką (Rozpocznij synchronizację), kliknij ją.

Uruchamianie odbiornika przekazywania

Krok 7. Tworzenie i uruchamianie kodu w języku Python

  1. Utwórz lokalny plik kodu języka Python: na pasku bocznym kliknij ikonę folderu (Eksploratora).

  2. W menu głównym kliknij pozycję Plik > nowy plik. Nadaj plikowi nazwę demo.py i zapisz go w katalogu głównym projektu.

  3. Dodaj następujący kod do pliku, a następnie zapisz go. Ten kod tworzy i wyświetla zawartość podstawowej ramki danych PySpark:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. W widoku Eksploratora kliknij prawym przyciskiem demo.py myszy plik, a następnie kliknij polecenie Przekaż i uruchom plik w usłudze Databricks. Dane wyjściowe są wyświetlane w okienku Konsola debugowania.

Przekazywanie i uruchamianie pliku w usłudze Databricks

Krok 8. Uruchamianie kodu jako zadania

W poprzednim kroku uruchomiono kod języka Python bezpośrednio w klastrze zdalnym. W tym kroku zainicjujesz przepływ pracy, który używa klastra do uruchamiania kodu jako zadania usługi Azure Databricks. Zobacz Co to jest usługa Azure Databricks Jobs?.

Aby uruchomić ten kod jako zadanie, w widoku Eksplorator kliknij prawym przyciskiem myszy demo.py plik, a następnie kliknij polecenie Uruchom plik jako przepływ pracy w usłudze Databricks. Dane wyjściowe są wyświetlane na osobnej karcie edytora obok edytora demo.py plików.

Uruchamianie pliku jako przepływu pracy w usłudze Databricks

Osiągnięto koniec tego samouczka.

Następne kroki

Teraz, gdy pomyślnie użyto rozszerzenia usługi Databricks dla programu Visual Studio Code do przekazania lokalnego pliku języka Python i uruchomienia go zdalnie, dowiedz się więcej o sposobie korzystania z rozszerzenia: