Samouczek: uruchamianie Pythona w klastrze i jako proces przy użyciu rozszerzenia Databricks do Visual Studio Code

Ten samouczek przeprowadzi Cię przez proces konfigurowania rozszerzenia Databricks dla Visual Studio Code, a następnie uruchamiania Pythona w klastrze Azure Databricks oraz jako zadania w Azure Databricks w zdalnym obszarze roboczym. Zobacz rozszerzenie Databricks dla Visual Studio Code.

Wymagania

Ten samouczek wymaga:

  • Zainstalowano rozszerzenie usługi Databricks dla Visual Studio Code. Zobacz Install the Databricks extension for Visual Studio Code (Instalowanie rozszerzenia usługi Databricks).
  • Do użycia jest zdalny klaster Azure Databricks. Zanotuj nazwę klastra. Aby wyświetlić dostępne klastry, na pasku bocznym obszaru roboczego Azure Databricks kliknij pozycję Compute. Zobacz Compute.

Krok 1. Tworzenie nowego projektu usługi Databricks

W tym kroku utworzysz nowy projekt usługi Databricks i skonfigurujesz połączenie ze zdalnym obszarem roboczym Azure Databricks.

  1. Uruchom Visual Studio Code, a następnie kliknij pozycję Plik > Otwórz folder i otwórz pusty folder na lokalnej maszynie dewelopera.
  2. Na pasku bocznym kliknij ikonę logo Databricks. Spowoduje to otwarcie rozszerzenia usługi Databricks.
  3. W widoku Konfiguracja kliknij pozycję Utwórz konfigurację.
  4. Zostanie otwarta paleta poleceń do skonfigurowania obszaru roboczego usługi Databricks. W polu Host usługi Databricks wprowadź lub wybierz adres URL dla poszczególnych obszarów roboczych, na przykład https://adb-1234567890123456.7.azuredatabricks.net.
  5. Wybierz profil uwierzytelniania dla projektu. Zobacz Konfigurowanie autoryzacji dla rozszerzenia usługi Databricks dla Visual Studio Code.

Krok 2. Dodawanie informacji o klastrze do rozszerzenia usługi Databricks i uruchamianie klastra

  1. Mając już otwarty widok Konfiguracja, kliknij Wybierz klaster lub ikonę koła zębatego (Konfiguruj klaster).

    Konfigurowanie klastra

  2. W palecie poleceń wybierz nazwę utworzonego wcześniej klastra.

  3. Kliknij ikonę odtwarzania (Uruchom klaster), jeśli jeszcze nie został uruchomiony.

Krok 3. Tworzenie i uruchamianie kodu Python

  1. Utwórz lokalny plik kodu Python: na pasku bocznym kliknij ikonę (Explorer).

  2. W menu głównym kliknij pozycję Plik > Nowy plik i wybierz plik Python. Nadaj plikowi nazwę demo.py i zapisz go w katalogu głównym projektu.

  3. Dodaj następujący kod do pliku, a następnie zapisz go. Ten kod tworzy i wyświetla zawartość podstawowej ramki danych PySpark:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Kliknij ikonę Uruchom w usłudze Databricks obok listy kart edytora, a następnie kliknij pozycję Przekaż i uruchom plik. Wynik jest wyświetlany w widoku Konsola debugowania.

    Przekazywanie i uruchamianie pliku z ikony

    Alternatywnie w widoku Eksploratora kliknij prawym przyciskiem myszy demo.py plik, a następnie kliknij Uruchom w usłudze Databricks>Przekaż i uruchom plik.

    Przekazywanie i uruchamianie pliku z menu kontekstowego

Krok 4. Uruchamianie kodu jako zadania

Aby uruchomić demo.py jako zadanie, kliknij ikonę Uruchom w Databricks obok listy kart edytora, a następnie kliknij pozycję Uruchom plik jako przepływ działania. Dane wyjściowe są wyświetlane na osobnej karcie edytora obok edytora demo.py plików.

Uruchom plik jako zadanie z ikony

Alternatywnie kliknij prawym przyciskiem myszy demo.py plik w panelu Eksplorator, a następnie wybierz polecenie Uruchom w usłudze Databricks>Uruchom plik jako przepływ pracy.

Uruchamianie pliku jako przepływu pracy z menu kontekstowego

Następne kroki

Teraz, po pomyślnym użyciu rozszerzenia usługi Databricks dla Visual Studio Code w celu przekazania lokalnego pliku Python i uruchomienia go zdalnie, możesz również: