Tworzenie pierwszego przepływu pracy za pomocą zadania usługi Azure Databricks

W tym artykule przedstawiono zadanie usługi Azure Databricks, które organizuje zadania odczytu i przetwarzania przykładowego zestawu danych. W ramach tego przewodnika Szybki start wykonasz następujące czynności:

  1. Utwórz nowy notes i dodaj kod, aby pobrać przykładowy zestaw danych zawierający popularne nazwy dzieci według roku.
  2. Zapisz przykładowy zestaw danych w katalogu aparatu Unity.
  3. Utwórz nowy notes i dodaj kod, aby odczytać zestaw danych z katalogu aparatu Unity, przefiltrować go według roku i wyświetlić wyniki.
  4. Utwórz nowe zadanie i skonfiguruj dwa zadania przy użyciu notesów.
  5. Uruchom zadanie i wyświetl wyniki.

Wymagania

Jeśli obszar roboczy jest włączony w wykazie aparatu Unity, a przepływy pracy bezserwerowe są domyślnie włączone, zadanie jest uruchamiane w środowisku obliczeniowym bezserwerowym. Nie potrzebujesz uprawnień do tworzenia klastra, aby uruchomić zadanie za pomocą obliczeń bezserwerowych.

W przeciwnym razie musisz mieć uprawnienie do tworzenia zasobów obliczeniowych zadania lub uprawnień do zasobów obliczeniowych ogólnego przeznaczenia.

Wolumin musi znajdować się w wykazie aparatu Unity. W tym artykule użyto woluminu o nazwie my-volume w schemacie o nazwie default w katalogu o nazwie main. Ponadto musisz mieć następujące uprawnienia w katalogu aparatu Unity:

  • READ VOLUME i WRITE VOLUME, dla ALL PRIVILEGESwoluminu my-volume .
  • USE SCHEMA lub ALL PRIVILEGES dla schematu default .
  • USE CATALOG lub ALL PRIVILEGES katalogu main .

Aby ustawić te uprawnienia, zobacz uprawnienia administratora usługi Databricks lub katalogu aparatu Unity oraz zabezpieczane obiekty.

Tworzenie notesów

Pobieranie i zapisywanie danych

Aby utworzyć notes, aby pobrać przykładowy zestaw danych i zapisać go w katalogu aparatu Unity:

  1. Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję Nowa ikonaNowy na pasku bocznym i wybierz pozycję Notes. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.

  2. W razie potrzeby zmień język domyślny na Python.

  3. Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Odczytywanie i wyświetlanie przefiltrowanych danych

Aby utworzyć notes do odczytywania i prezentowania danych do filtrowania:

  1. Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję Nowa ikonaNowy na pasku bocznym i wybierz pozycję Notes. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.

  2. W razie potrzeby zmień język domyślny na Python.

  3. Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Tworzenie zadania

  1. Kliknij pozycję Ikona zadańPrzepływy pracy na pasku bocznym.

  2. Kliknij pozycję Przycisk Utwórz zadanie.

    Na karcie Zadania zostanie wyświetlone okno dialogowe tworzenia zadania.

    Okno dialogowe Tworzenie pierwszego zadania

  3. Zastąp ciąg Dodaj nazwę zadania... nazwą zadania.

  4. W polu Nazwa zadania wprowadź nazwę zadania, na przykład retrieve-baby-names.

  5. W menu rozwijanym Typ wybierz pozycję Notes.

  6. Użyj przeglądarki plików, aby znaleźć pierwszy utworzony notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.

  7. Kliknij pozycję Utwórz zadanie.

  8. Kliknij Przycisk Dodaj zadanie poniżej utworzonego zadania, aby dodać kolejne zadanie.

  9. W polu Nazwa zadania wprowadź nazwę zadania, na przykład filter-baby-names.

  10. W menu rozwijanym Typ wybierz pozycję Notes.

  11. Użyj przeglądarki plików, aby znaleźć utworzony drugi notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.

  12. Kliknij pozycję Dodaj w obszarze Parametry. W polu Klucz wprowadź wartość year. W polu Wartość wprowadź wartość 2014.

  13. Kliknij pozycję Utwórz zadanie.

Uruchamianie zadania

Aby natychmiast uruchomić zadanie, kliknij Przycisk Uruchom teraz w prawym górnym rogu. Możesz również uruchomić zadanie, klikając kartę Uruchomienia i klikając pozycję Uruchom teraz w tabeli Aktywne uruchomienia .

Wyświetlanie szczegółów przebiegu

  1. Kliknij kartę Uruchomienia i kliknij link do przebiegu w tabeli Aktywne uruchomienia lub w tabeli Ukończone przebiegi (w ciągu ostatnich 60 dni).

  2. Kliknij albo zadanie, aby wyświetlić dane wyjściowe i szczegóły. Na przykład kliknij zadanie filter-baby-names , aby wyświetlić dane wyjściowe i uruchomić szczegóły zadania filtru:

    Wyświetlanie wyników nazw filtrów

Uruchamianie z różnymi parametrami

Aby ponownie uruchomić zadanie i przefiltrować nazwy dziecka przez inny rok:

  1. Kliknij Niebieski daszek w dół obok pozycji Uruchom teraz i wybierz pozycję Uruchom teraz z różnymi parametrami lub kliknij pozycję Uruchom teraz z różnymi parametrami w tabeli Aktywne uruchomienia.
  2. W polu Wartość wprowadź wartość 2015.
  3. Kliknij Uruchom.