Implementowanie przepływów pracy przetwarzania i analizy danych za pomocą zadań

Za pomocą zadania usługi Azure Databricks można organizować potoki przetwarzania danych, uczenia maszynowego lub analizy danych na platformie Databricks. Zadania usługi Azure Databricks obsługują wiele typów obciążeń, w tym notesy, skrypty, potoki delta live tables, zapytania SQL usługi Databricks i projekty dbt . W poniższych artykułach opisano korzystanie z funkcji i opcji zadań usługi Azure Databricks w celu zaimplementowania potoków danych.

Przekształcanie, analizowanie i wizualizowanie danych za pomocą zadania usługi Azure Databricks

Za pomocą zadania można utworzyć potok danych, który pozysuje, przekształca, analizuje i wizualizuje dane. Przykład użycia usługi Databricks SQL w zadaniu usługi Azure Databricks tworzy potok, który:

  1. Używa skryptu języka Python do pobierania danych przy użyciu interfejsu API REST.
  2. Używa tabel delta live do pozyskiwania i przekształcania pobranych danych i zapisywania przekształconych danych w usłudze Delta Lake.
  3. Używa integracji zadań z usługą Databricks SQL do analizowania przekształconych danych i tworzenia grafów w celu wizualizacji wyników.

Używanie przekształceń dbt w zadaniu

dbt Użyj typu zadania, jeśli wykonujesz transformację danych z projektem podstawowym dbt i chcesz zintegrować ten projekt z zadaniem usługi Azure Databricks lub chcesz utworzyć nowe przekształcenia dbt i uruchomić te przekształcenia w zadaniu. Zobacz Używanie przekształceń dbt w zadaniu usługi Azure Databricks.

Używanie pakietu języka Python w zadaniu

Pliki wheel języka Python to standardowy sposób tworzenia pakietów i dystrybuowania plików wymaganych do uruchomienia aplikacji w języku Python. Możesz łatwo utworzyć zadanie, które używa kodu języka Python spakowanego jako plik koła języka Python z typem Python wheel zadania. Zobacz Używanie pliku wheel języka Python w zadaniu usługi Azure Databricks.

Używanie kodu spakowanego w pliku JAR

Biblioteki i aplikacje zaimplementowane w języku JVM, takim jak Java i Scala, są często pakowane w pliku archiwum Java (JAR). Zadania usługi Azure Databricks obsługują kod spakowany w pliku JAR z typem JAR zadania. Zobacz Używanie pliku JAR w zadaniu usługi Azure Databricks.

Używanie notesów lub kodu w języku Python przechowywanego w centralnym repozytorium

Typowym sposobem zarządzania kontrolą wersji i współpracą dla artefaktów produkcyjnych jest użycie centralnego repozytorium, takiego jak GitHub. Usługa Azure Databricks Jobs obsługuje tworzenie i uruchamianie zadań przy użyciu notesów lub kodu w języku Python zaimportowanego z repozytorium, w tym folderów GitHub lub Databricks Git. Zobacz Używanie kodu źródłowego kontrolowanego przez wersję w zadaniu usługi Azure Databricks.

Organizowanie zadań za pomocą platformy Apache Airflow

Usługa Databricks zaleca używanie zadań usługi Azure Databricks do organizowania przepływów pracy. Jednak platforma Apache Airflow jest często używana jako system aranżacji przepływu pracy i zapewnia natywną obsługę zadań usługi Azure Databricks. Chociaż zadania usługi Azure Databricks udostępniają wizualny interfejs użytkownika do tworzenia przepływów pracy, funkcja Airflow używa plików języka Python do definiowania i wdrażania potoków danych. Aby zapoznać się z przykładem tworzenia i uruchamiania zadania za pomocą rozwiązania Airflow, zobacz Orchestrate Azure Databricks jobs with Apache Airflow (Organizowanie zadań usługi Azure Databricks za pomocą platformy Apache Airflow).

Uruchamianie zadania przy użyciu jednostki usługi

Zadania można uruchamiać jako konto usługi przy użyciu aplikacji Microsoft Entra ID (dawniej Azure Active Directory) i jednostki usługi. Uruchamianie zadania jako konta usługi zamiast pojedynczego użytkownika pozwala kontrolować dostęp do zadania, upewniać się, że zadanie ma niezbędne uprawnienia, i zapobiegać problemom po usunięciu właściciela zadania z obszaru roboczego. Aby zapoznać się z samouczkiem dotyczącym tworzenia i używania jednostki usługi do uruchamiania zadania usługi Azure Databricks, zobacz Uruchamianie zadania z jednostką usługi Microsoft Entra ID.