Udostępnij za pośrednictwem


Konfigurowanie i edytowanie zadań usługi Databricks

Ten artykuł koncentruje się na instrukcjach dotyczących tworzenia, konfigurowania i edytowania zadań przy użyciu interfejsu użytkownika obszaru roboczego Przepływy pracy. Usługa Azure Databricks ma inne punkty wejścia i narzędzia do konfiguracji, w tym następujące:

  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Co to jest interfejs wiersza polecenia usługi Databricks?.
  • Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu API zadań, zobacz Zadania w dokumentacji interfejsu API REST.
  • Aby dowiedzieć się, jak uruchamiać i planować zadania bezpośrednio w notesie usługi Databricks, zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.

Napiwek

Aby wyświetlić zadanie jako YAML, kliknij menu kebab po lewej stronie pozycji Uruchom teraz dla zadania, a następnie kliknij pozycję Przełącz na wersję kodu (YAML).

Tworzenie nowego zadania

W tej sekcji opisano minimalną konfigurację wymaganą do utworzenia nowego zadania w celu zaplanowana zadania notesu za pomocą interfejsu użytkownika obszaru roboczego.

Zadania zawierają co najmniej jedno zadanie. Nowe zadanie można utworzyć, konfigurując pierwsze zadanie dla tego zadania.

Uwaga

Każdy typ zadania ma dynamiczne opcje konfiguracji w interfejsie użytkownika obszaru roboczego. Zobacz Konfigurowanie i edytowanie zadań usługi Databricks.

  1. Kliknij pozycję Ikona przepływów pracy Przepływy pracy na pasku bocznym i kliknij pozycję .Przycisk Utwórz zadanie
  2. Wprowadź nazwę zadania.
  3. Wybierz notes dla pola Ścieżka .
  4. Kliknij pozycję Utwórz zadanie.

Jeśli obszar roboczy nie jest włączony dla zasobów obliczeniowych bezserwerowych dla zadań, musisz wybrać opcję Obliczenia . Usługa Databricks zaleca zawsze używanie zasobów obliczeniowych zadań podczas konfigurowania zadań.

Nowe zadanie zostanie wyświetlone na liście zadań obszaru roboczego o domyślnej nazwie New Job <date> <time>.

Wybieranie zadania do edycji w obszarze roboczym

Aby edytować istniejące zadanie za pomocą interfejsu użytkownika obszaru roboczego, wykonaj następujące czynności:

  1. Kliknij pozycję Ikona przepływów pracy Przepływy pracy na pasku bocznym.
  2. W kolumnie Nazwa kliknij nazwę zadania.

Użyj interfejsu użytkownika zadań, aby wykonać następujące czynności:

  • Edytowanie ustawień zadania
  • Zmienianie nazwy, klonowanie lub usuwanie zadania
  • Dodawanie nowych zadań do istniejącego zadania
  • Edytowanie ustawień zadania

Uwaga

Możesz również wyświetlić definicje JSON do użycia z interfejsem API REST pobierania, tworzenia i resetowania punktów końcowych.

Edytowanie ustawień zadania

Panel boczny zawiera szczegóły zadania. Możesz zmienić wyzwalacz zadania, konfigurację obliczeniową, powiadomienia, maksymalną liczbę współbieżnych przebiegów, skonfigurować progi czasu trwania i dodać lub zmienić tagi. Możesz również edytować uprawnienia zadania, jeśli włączono kontrolę dostępu do zadań.

Dodawanie parametrów dla wszystkich zadań zadań

Parametry skonfigurowane na poziomie zadania są przekazywane do zadań zadania zadania, które akceptują parametry klucz-wartość, w tym pliki koła języka Python skonfigurowane do akceptowania argumentów słów kluczowych. Zobacz Sparametryzowanie zadań.

Dodawanie tagów do zadania

Aby dodać etykiety lub atrybuty klucz-wartość do zadania, możesz dodać tagi podczas edytowania zadania. Tagi umożliwiają filtrowanie zadań na liście Zadania. Możesz na przykład użyć tagu department do filtrowania wszystkich zadań należących do określonego działu.

Uwaga

Ponieważ tagi zadań nie są przeznaczone do przechowywania poufnych informacji, takich jak dane osobowe lub hasła, usługa Databricks zaleca używanie tagów tylko dla wartości niewrażliwych.

Tagi są również propagowane do klastrów zadań utworzonych podczas uruchamiania zadania, co umożliwia używanie tagów z istniejącym monitorowaniem klastra.

Kliknij pozycję + Tag w panelu bocznym Szczegóły zadania, aby dodać lub edytować tagi. Tag można dodać jako etykietę lub parę klucz-wartość. Aby dodać etykietę, wprowadź etykietę w polu Klucz i pozostaw puste pole Wartość .

Zmienianie nazwy, klonowanie lub usuwanie zadania

Aby zmienić nazwę zadania, przejdź do interfejsu użytkownika zadań i kliknij nazwę zadania.

Nowe zadanie można szybko utworzyć, klonując istniejące zadanie. Klonowanie zadania powoduje utworzenie identycznej kopii zadania z wyjątkiem identyfikatora zadania. Aby sklonować zadanie, wykonaj następujące czynności:

  1. Przejdź do interfejsu użytkownika zadań dla zadania.
  2. Kliknij Menu Kebab przycisk Uruchom teraz .
  3. Wybierz pozycję Klonuj zadanie z menu rozwijanego.
  4. Wprowadź nazwę sklonowanego zadania.
  5. Kliknij pozycję Klonuj.

Usuwanie zadania

Aby usunąć zadanie, przejdź do strony zadania, kliknij Menu Kebab obok nazwy zadania, a następnie wybierz pozycję Usuń zadanie z menu rozwijanego.

Używanie usługi Git z zadaniami

Jeśli zadanie zawiera jakiekolwiek zadania, które obsługują korzystanie z zdalnego dostawcy usługi Git, interfejs użytkownika zadań zawiera pole Git i opcję dodawania lub edytowania ustawień usługi Git.

Można skonfigurować następujące typy zadań, aby używać zdalnego repozytorium Git:

  • Notesy
  • Skrypty w języku Python
  • Pliki SQL
  • dbt

Wszystkie zadania w zadaniu muszą odwoływać się do tego samego zatwierdzenia w repozytorium zdalnym. Musisz określić tylko jedną z następujących czynności dla zadania, które używa repozytorium zdalnego:

  • branch: nazwa gałęzi, na przykład main.
  • tag: nazwa tagu, na przykład release-1.0.0.
  • commit: skrót określonego zatwierdzenia, na przykład e0056d01.

Po rozpoczęciu uruchamiania zadania usługa Databricks wykonuje zatwierdzenie migawki repozytorium zdalnego, aby upewnić się, że całe zadanie działa względem tej samej wersji kodu.

Po wyświetleniu historii uruchamiania zadania, które uruchamia kod przechowywany w zdalnym repozytorium Git, panel Szczegóły przebiegu zadania zawiera szczegóły narzędzia Git, w tym zatwierdzenie SHA skojarzone z uruchomieniem. Zobacz Wyświetlanie historii uruchamiania zadań.

Uwaga

Zadania skonfigurowane do używania zdalnego repozytorium Git nie mogą zapisywać w plikach obszaru roboczego. Muszą one zapisywać dane tymczasowe w magazynie sterowników efemerycznych i trwałych danych w woluminie lub tabeli.

Usługa Databricks zaleca tworzenie zadań odwołująjących się do ścieżek obszaru roboczego w folderach Git tylko w celu szybszej iteracji i testowania podczas programowania. Usługa Databricks zaleca ponowne skonfigurowanie zadań w celu odwołania się do zdalnego repozytorium Git podczas przechodzenia do środowiska przejściowego i produkcyjnego. Dowiedz się więcej o kodzie źródłowym kontrolowanym w wersji w zadaniu usługi Databricks.

Konfigurowanie dostawcy usługi Git

Interfejs użytkownika zadań zawiera okno dialogowe konfigurowania zdalnego repozytorium Git. To okno dialogowe jest dostępne z panelu Szczegóły zadania w nagłówku Git lub w dowolnym zadaniu skonfigurowanym do korzystania z dostawcy usługi Git.

Wyświetlane opcje dostępu do okna dialogowego różnią się w zależności od typu zadania i tego, czy dla zadania skonfigurowano już odwołanie git. Przyciski umożliwiające uruchomienie okna dialogowego obejmują dodawanie ustawień usługi Git, edytowanie lub dodawanie dokumentacji git.

W oknie dialogowym Informacje o usłudze Git (po prostu oznaczone jako Git w przypadku uzyskania dostępu do panelu Szczegóły zadania) wprowadź następujące szczegóły:

  • Adres URL repozytorium Git.
  • Wybierz dostawcę git z listy rozwijanej.
  • W polu dokumentacji usługi Git wprowadź identyfikator gałęzi, tagu lub zatwierdzenia odpowiadającej wersji kodu źródłowego, który chcesz uruchomić.
  • Wybierz gałąź, tag lub zatwierdzenie z listy rozwijanej.

Uwaga

W oknie dialogowym mogą pojawić się następujące monity: brakuje poświadczeń usługi Git dla tego konta. Dodaj poświadczenia. Przed użyciem repozytorium Git należy skonfigurować zdalne repozytorium Git jako odwołanie. Zobacz Konfigurowanie folderów Git usługi Databricks (Repos).

Konfigurowanie oczekiwanego czasu ukończenia lub limitu czasu dla zadania

Możesz skonfigurować opcjonalne progi czasu trwania zadania, w tym oczekiwany i maksymalny czas ukończenia. Aby skonfigurować progi czasu trwania, kliknij pozycję Ustaw progi czasu trwania w obszarze Progi czasu trwania w panelu Szczegóły zadania.

Wprowadź czas trwania w polu Ostrzeżenie , aby skonfigurować oczekiwany czas ukończenia zadania. Jeśli zadanie przekroczy ten próg, zostanie wyzwolone zdarzenie. To zdarzenie służy do powiadamiania, gdy zadanie działa wolno. Zobacz Configure notifications for slow running or late jobs (Konfigurowanie powiadomień dla wolnych lub opóźnionych zadań).

Aby skonfigurować maksymalny czas ukończenia zadania, wprowadź maksymalny czas trwania w polu Limit czasu . Jeśli zadanie nie zostanie ukończone w tym czasie, usługa Azure Databricks ustawia jego stan na "Przekroczono limit czasu".

Opcjonalnie można określić progi czasu trwania dla zadań podrzędnych. Zobacz Konfigurowanie oczekiwanego czasu ukończenia lub limitu czasu dla zadania.