Konfigurowanie i edytowanie zadań usługi Databricks
Ten artykuł koncentruje się na instrukcjach dotyczących tworzenia, konfigurowania i edytowania zadań przy użyciu interfejsu użytkownika obszaru roboczego Przepływy pracy. Usługa Azure Databricks ma inne punkty wejścia i narzędzia do konfiguracji, w tym następujące:
- Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Co to jest interfejs wiersza polecenia usługi Databricks?.
- Aby dowiedzieć się więcej na temat tworzenia i uruchamiania zadań przy użyciu interfejsu API zadań, zobacz Zadania w dokumentacji interfejsu API REST.
- Aby dowiedzieć się, jak uruchamiać i planować zadania bezpośrednio w notesie usługi Databricks, zobacz Tworzenie zaplanowanych zadań notesu i zarządzanie nimi.
Napiwek
Aby wyświetlić zadanie jako YAML, kliknij menu kebab po lewej stronie pozycji Uruchom teraz dla zadania, a następnie kliknij pozycję Przełącz na wersję kodu (YAML).
Tworzenie nowego zadania
W tej sekcji opisano minimalną konfigurację wymaganą do utworzenia nowego zadania w celu zaplanowana zadania notesu za pomocą interfejsu użytkownika obszaru roboczego.
Zadania zawierają co najmniej jedno zadanie. Nowe zadanie można utworzyć, konfigurując pierwsze zadanie dla tego zadania.
Uwaga
Każdy typ zadania ma dynamiczne opcje konfiguracji w interfejsie użytkownika obszaru roboczego. Zobacz Konfigurowanie i edytowanie zadań usługi Databricks.
- Kliknij pozycję Przepływy pracy na pasku bocznym i kliknij pozycję .
- Wprowadź nazwę zadania.
- Wybierz notes dla pola Ścieżka .
- Kliknij pozycję Utwórz zadanie.
Jeśli obszar roboczy nie jest włączony dla zasobów obliczeniowych bezserwerowych dla zadań, musisz wybrać opcję Obliczenia . Usługa Databricks zaleca zawsze używanie zasobów obliczeniowych zadań podczas konfigurowania zadań.
Nowe zadanie zostanie wyświetlone na liście zadań obszaru roboczego o domyślnej nazwie New Job <date> <time>
.
Wybieranie zadania do edycji w obszarze roboczym
Aby edytować istniejące zadanie za pomocą interfejsu użytkownika obszaru roboczego, wykonaj następujące czynności:
- Kliknij pozycję Przepływy pracy na pasku bocznym.
- W kolumnie Nazwa kliknij nazwę zadania.
Użyj interfejsu użytkownika zadań, aby wykonać następujące czynności:
- Edytowanie ustawień zadania
- Zmienianie nazwy, klonowanie lub usuwanie zadania
- Dodawanie nowych zadań do istniejącego zadania
- Edytowanie ustawień zadania
Uwaga
Możesz również wyświetlić definicje JSON do użycia z interfejsem API REST pobierania, tworzenia i resetowania punktów końcowych.
Edytowanie ustawień zadania
Panel boczny zawiera szczegóły zadania. Możesz zmienić wyzwalacz zadania, konfigurację obliczeniową, powiadomienia, maksymalną liczbę współbieżnych przebiegów, skonfigurować progi czasu trwania i dodać lub zmienić tagi. Możesz również edytować uprawnienia zadania, jeśli włączono kontrolę dostępu do zadań.
Dodawanie parametrów dla wszystkich zadań zadań
Parametry skonfigurowane na poziomie zadania są przekazywane do zadań zadania zadania, które akceptują parametry klucz-wartość, w tym pliki koła języka Python skonfigurowane do akceptowania argumentów słów kluczowych. Zobacz Sparametryzowanie zadań.
Dodawanie tagów do zadania
Aby dodać etykiety lub atrybuty klucz-wartość do zadania, możesz dodać tagi podczas edytowania zadania. Tagi umożliwiają filtrowanie zadań na liście Zadania. Możesz na przykład użyć tagu department
do filtrowania wszystkich zadań należących do określonego działu.
Uwaga
Ponieważ tagi zadań nie są przeznaczone do przechowywania poufnych informacji, takich jak dane osobowe lub hasła, usługa Databricks zaleca używanie tagów tylko dla wartości niewrażliwych.
Tagi są również propagowane do klastrów zadań utworzonych podczas uruchamiania zadania, co umożliwia używanie tagów z istniejącym monitorowaniem klastra.
Kliknij pozycję + Tag w panelu bocznym Szczegóły zadania, aby dodać lub edytować tagi. Tag można dodać jako etykietę lub parę klucz-wartość. Aby dodać etykietę, wprowadź etykietę w polu Klucz i pozostaw puste pole Wartość .
Zmienianie nazwy, klonowanie lub usuwanie zadania
Aby zmienić nazwę zadania, przejdź do interfejsu użytkownika zadań i kliknij nazwę zadania.
Nowe zadanie można szybko utworzyć, klonując istniejące zadanie. Klonowanie zadania powoduje utworzenie identycznej kopii zadania z wyjątkiem identyfikatora zadania. Aby sklonować zadanie, wykonaj następujące czynności:
- Przejdź do interfejsu użytkownika zadań dla zadania.
- Kliknij przycisk Uruchom teraz .
- Wybierz pozycję Klonuj zadanie z menu rozwijanego.
- Wprowadź nazwę sklonowanego zadania.
- Kliknij pozycję Klonuj.
Usuwanie zadania
Aby usunąć zadanie, przejdź do strony zadania, kliknij obok nazwy zadania, a następnie wybierz pozycję Usuń zadanie z menu rozwijanego.
Używanie usługi Git z zadaniami
Jeśli zadanie zawiera jakiekolwiek zadania, które obsługują korzystanie z zdalnego dostawcy usługi Git, interfejs użytkownika zadań zawiera pole Git i opcję dodawania lub edytowania ustawień usługi Git.
Można skonfigurować następujące typy zadań, aby używać zdalnego repozytorium Git:
- Notesy
- Skrypty w języku Python
- Pliki SQL
- dbt
Wszystkie zadania w zadaniu muszą odwoływać się do tego samego zatwierdzenia w repozytorium zdalnym. Musisz określić tylko jedną z następujących czynności dla zadania, które używa repozytorium zdalnego:
- branch: nazwa gałęzi, na przykład
main
. - tag: nazwa tagu, na przykład
release-1.0.0
. - commit: skrót określonego zatwierdzenia, na przykład
e0056d01
.
Po rozpoczęciu uruchamiania zadania usługa Databricks wykonuje zatwierdzenie migawki repozytorium zdalnego, aby upewnić się, że całe zadanie działa względem tej samej wersji kodu.
Po wyświetleniu historii uruchamiania zadania, które uruchamia kod przechowywany w zdalnym repozytorium Git, panel Szczegóły przebiegu zadania zawiera szczegóły narzędzia Git, w tym zatwierdzenie SHA skojarzone z uruchomieniem. Zobacz Wyświetlanie historii uruchamiania zadań.
Uwaga
Zadania skonfigurowane do używania zdalnego repozytorium Git nie mogą zapisywać w plikach obszaru roboczego. Muszą one zapisywać dane tymczasowe w magazynie sterowników efemerycznych i trwałych danych w woluminie lub tabeli.
Usługa Databricks zaleca tworzenie zadań odwołująjących się do ścieżek obszaru roboczego w folderach Git tylko w celu szybszej iteracji i testowania podczas programowania. Usługa Databricks zaleca ponowne skonfigurowanie zadań w celu odwołania się do zdalnego repozytorium Git podczas przechodzenia do środowiska przejściowego i produkcyjnego. Dowiedz się więcej o kodzie źródłowym kontrolowanym w wersji w zadaniu usługi Databricks.
Konfigurowanie dostawcy usługi Git
Interfejs użytkownika zadań zawiera okno dialogowe konfigurowania zdalnego repozytorium Git. To okno dialogowe jest dostępne z panelu Szczegóły zadania w nagłówku Git lub w dowolnym zadaniu skonfigurowanym do korzystania z dostawcy usługi Git.
Wyświetlane opcje dostępu do okna dialogowego różnią się w zależności od typu zadania i tego, czy dla zadania skonfigurowano już odwołanie git. Przyciski umożliwiające uruchomienie okna dialogowego obejmują dodawanie ustawień usługi Git, edytowanie lub dodawanie dokumentacji git.
W oknie dialogowym Informacje o usłudze Git (po prostu oznaczone jako Git w przypadku uzyskania dostępu do panelu Szczegóły zadania) wprowadź następujące szczegóły:
- Adres URL repozytorium Git.
- Wybierz dostawcę git z listy rozwijanej.
- W polu dokumentacji usługi Git wprowadź identyfikator gałęzi, tagu lub zatwierdzenia odpowiadającej wersji kodu źródłowego, który chcesz uruchomić.
- Wybierz gałąź, tag lub zatwierdzenie z listy rozwijanej.
Uwaga
W oknie dialogowym mogą pojawić się następujące monity: brakuje poświadczeń usługi Git dla tego konta. Dodaj poświadczenia. Przed użyciem repozytorium Git należy skonfigurować zdalne repozytorium Git jako odwołanie. Zobacz Konfigurowanie folderów Git usługi Databricks (Repos).
Konfigurowanie oczekiwanego czasu ukończenia lub limitu czasu dla zadania
Możesz skonfigurować opcjonalne progi czasu trwania zadania, w tym oczekiwany i maksymalny czas ukończenia. Aby skonfigurować progi czasu trwania, kliknij pozycję Ustaw progi czasu trwania w obszarze Progi czasu trwania w panelu Szczegóły zadania.
Wprowadź czas trwania w polu Ostrzeżenie , aby skonfigurować oczekiwany czas ukończenia zadania. Jeśli zadanie przekroczy ten próg, zostanie wyzwolone zdarzenie. To zdarzenie służy do powiadamiania, gdy zadanie działa wolno. Zobacz Configure notifications for slow running or late jobs (Konfigurowanie powiadomień dla wolnych lub opóźnionych zadań).
Aby skonfigurować maksymalny czas ukończenia zadania, wprowadź maksymalny czas trwania w polu Limit czasu . Jeśli zadanie nie zostanie ukończone w tym czasie, usługa Azure Databricks ustawia jego stan na "Przekroczono limit czasu".
Opcjonalnie można określić progi czasu trwania dla zadań podrzędnych. Zobacz Konfigurowanie oczekiwanego czasu ukończenia lub limitu czasu dla zadania.