Udostępnij za pośrednictwem


Konfigurowanie potoków deklaratywnych Lakeflow

W tym artykule opisano podstawową konfigurację potoków deklaratywnych Lakeflow przy użyciu interfejsu użytkownika przestrzeni roboczej.

Usługa Databricks zaleca opracowywanie nowych potoków w trybie bezserwerowym. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie potoku bezserwerowego.

Instrukcje konfiguracji w tym artykule wykorzystują Unity Catalog. Aby uzyskać instrukcje dotyczące konfigurowania potoków ze starszym magazynem metadanych Hive, zobacz Używanie deklaratywnych potoków Lakeflow ze starszym magazynem metadanych Hive.

W tym artykule omówiono funkcjonalność bieżącego domyślnego trybu publikowania potoków. Konfiguracje utworzone przed 5 lutego 2025 r. mogą używać starszego trybu publikowania i wirtualnego schematu LIVE. Zobacz live schema (starsza wersja).

Notatka

Interfejs użytkownika ma możliwość wyświetlania i edytowania ustawień w formacie JSON. Większość ustawień można skonfigurować przy użyciu interfejsu użytkownika lub specyfikacji JSON. Niektóre opcje zaawansowane są dostępne tylko przy użyciu konfiguracji JSON.

Pliki konfiguracji JSON są również przydatne podczas wdrażania potoków w nowych środowiskach lub przy użyciu interfejsu wiersza polecenia lub interfejsu API REST .

Aby uzyskać pełne zestawienie ustawień konfiguracji JSON potoków deklaratywnych usługi Lakeflow, zobacz Konfiguracje potoków deklaratywnych Lakeflow.

Skonfiguruj nowy potok

Aby skonfigurować nowy potok danych, wykonaj następujące czynności:

  1. W obszarze roboczym kliknij ikonę Przepływy pracy.Zadania i rury na pasku bocznym.
  2. W obszarze Nowy kliknij ETL Pipeline.
  3. Podaj unikatową nazwę pipeline'u .
  4. (Optional) Użyj ikony selektora plików , aby skonfigurować notesy i pliki obszaru roboczego jako kod źródłowy .
    • Jeśli nie dodasz żadnego kodu źródłowego, zostanie utworzony nowy notatnik dla potoku danych. Notatnik jest tworzony w nowym folderze w katalogu użytkownika, a link umożliwiający dostęp do tego notatnika jest wyświetlany w polu Kod źródłowy w okienku Szczegóły potoku po utworzeniu przebiegu.
      • Dostęp do tego notatnika można uzyskać, używając adresu URL przedstawionego w polu Kod źródłowy, w panelu Szczegóły potoku, po utworzeniu potoku.
    • Użyj przycisku Dodaj kod źródłowy, aby dodać dodatkowe zasoby kodu źródłowego.
  5. Wybierz pozycję Unity Catalog w obszarze Opcje przechowywania.
  6. Wybierz katalog . Ustawienie to zarządza domyślnym katalogiem i lokalizacją przechowywania metadanych potoków.
  7. Wybierz schemat z katalogu. Domyślnie tabele strumieniowe i zmaterializowane widoki zdefiniowane w potoku są tworzone w tym schemacie.
  8. W sekcji Compute zaznacz pole wyboru obok Użyj Photon Acceleration. Aby uzyskać dodatkowe zagadnienia dotyczące konfiguracji obliczeniowej, zobacz Opcje konfiguracji obliczeniowej.
  9. Kliknij pozycję Utwórz.

Te zalecane konfiguracje tworzą nową ścieżkę skonfigurowaną do uruchamiania w trybie wyzwalanym i używają kanału Current. Ta konfiguracja jest zalecana w wielu przypadkach użycia, w tym w przypadku programowania i testowania, i jest odpowiednia dla obciążeń produkcyjnych, które powinny być uruchamiane zgodnie z harmonogramem. Aby uzyskać szczegółowe informacje na temat planowania potoków, zobacz Zadanie potoku dla zadań.

Opcje konfiguracji obliczeniowej

Usługa Databricks zaleca zawsze używanie ulepszonego skalowania automatycznego. Wartości domyślne innych konfiguracji obliczeniowych działają dobrze w przypadku wielu przepływów.

Potoki bezserwerowe usuwają opcje konfiguracji zasobów obliczeniowych. Aby uzyskać instrukcje dotyczące konfiguracji potoków bezserwerowych, zobacz Konfigurowanie potoku bezserwerowego.

Użyj następujących ustawień, aby dostosować konfiguracje obliczeniowe:

  • Używaj tagów klastrów do monitorowania kosztów związanych z potokami deklaratywnymi Lakeflow. Zobacz Konfigurowanie tagów klastra.
  • Skonfiguruj rodzaje wystąpień typu, aby określić typ maszyn wirtualnych używanych do uruchamiania Twojego potoku. Zobacz Wybierz typy wystąpień, aby uruchomić potok.
    • Wybierz typ pracownika zoptymalizowany pod kątem obciążeń skonfigurowanych w linii procesowej.
    • Opcjonalnie możesz wybrać Typ sterownika, który różni się od typu pracownika. Może to być przydatne w celu redukcji kosztów w potokach z dużymi rodzajami pracowników i niskim wykorzystaniem mocy obliczeniowej przez sterownik lub w celu wybrania większego typu sterownika, aby uniknąć problemów z brakiem pamięci w obciążeniach zawierających wielu małych pracowników.

Inne zagadnienia dotyczące konfiguracji

Następujące opcje konfiguracji są również dostępne dla potoków:

  • Wersja produktu Advanced zapewnia dostęp do wszystkich funkcji deklaratywnych potoków Lakeflow. Potoki można opcjonalnie uruchamiać przy użyciu wersji produktów Pro lub Core. Zobacz Wybierz edycję produktu.
  • Możesz wybrać użycie trybu Continuous podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Tryb wyzwalany a tryb potoku ciągłego.
  • Jeśli obszar roboczy nie jest skonfigurowany dla katalogu Unity lub Twoje obciążenie obliczeniowe musi korzystać ze starszego magazynu metadanych Hive, zobacz Use Lakeflow Declarative Pipelines with legacy Hive metastore (Używanie potoków deklaratywnych Lakeflow ze starszym magazynem metadanych Hive).
  • Dodaj Powiadomienia na potrzeby aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodawanie powiadomień e-mail dotyczących zdarzeń potoku.
  • Użyj pola Configuration, aby ustawić pary klucz-wartość dla potoku danych. Te konfiguracje służą dwóm celom:
  • Użyj kanału Preview, aby przetestować swój potok w kontekście oczekujących zmian w środowisku uruchomieniowym deklaratywnych potoków Lakeflow i przetestować nowe funkcje.

Wybierz wersję produktu

Wybierz wersję produktu Lakeflow Declarative Pipelines z najbardziej odpowiednimi funkcjami dla wymagań potoku. Dostępne są następujące wersje produktów:

  • Core do obsługi zadań pozyskiwania strumieniowego. Wybierz edycję Core, jeśli twój potok nie wymaga zaawansowanych funkcji, takich jak przechwytywanie danych zmian (CDC) lub oczekiwania dotyczące Deklaratywnych Potoków Lakeflow.
  • Pro do uruchamiania obciążeń związanych z pozyskiwaniem danych przez transmisję strumieniową i CDC. Wersja produktu Pro obsługuje wszystkie funkcje Core oraz obsługę obciążeń wymagających aktualizacji tabel na podstawie zmian w danych źródłowych.
  • Advanced do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC (Change Data Capture) i obciążeń, które wymagają spełnienia określonych oczekiwań. Wersja Advanced produktu obsługuje funkcje Core wersji i Pro oraz obejmuje ograniczenia dotyczące jakości danych z oczekiwaniami usługi Lakeflow Deklaratywne potoki.

Wersję produktu można wybrać podczas tworzenia lub edytowania potoku. Dla każdego pipeline'u można wybrać inną wersję. Zobacz stronę produktu Lakeflow Deklaratywne Pipeline.

Uwaga: Jeśli potok zawiera funkcje nieobsługiwane przez wybraną wersję produktu, takie jak specyfikacje, zostanie wyświetlony komunikat o błędzie wyjaśniający przyczynę błędu. Następnie możesz edytować pipeline, aby wybrać odpowiednią wersję.

Konfigurowanie kodu źródłowego

Można użyć selektora plików w interfejsie użytkownika deklaratywnych potoków Lakeflow, aby skonfigurować źródłowy kod definiujący Twój potok. Kod źródłowy potoku jest zdefiniowany w notatnikach Databricks albo w skryptach SQL czy Python, przechowywanych w plikach obszaru roboczego. Podczas tworzenia lub edytowania potoku możesz dodać jeden lub więcej notatników, plików obszaru roboczego lub ich kombinację.

Ponieważ potoki deklaratywne Lakeflow automatycznie analizują zależności zestawu danych, aby skonstruować graf przetwarzania dla twojego potoku, możesz dodawać zasoby kodu źródłowego w dowolnej kolejności.

Plik JSON można zmodyfikować tak, aby zawierał kod źródłowy potoków deklaratywnych lakeflow zdefiniowany w skryptach SQL i Python przechowywanych w plikach obszaru roboczego. Poniższy przykład obejmuje notatniki i pliki obszaru roboczego.

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Zarządzanie zależnościami zewnętrznymi dla potoków korzystających z języka Python

Deklaratywne Potoki Lakeflow wspierają korzystanie z zewnętrznych zależności w twoich potokach, takich jak pakiety i biblioteki języka Python. Aby dowiedzieć się więcej o opcjach i zaleceniach dotyczących używania zależności, zobacz Zarządzanie zależnościami języka Python dla potoków deklaratywnych usługi Lakeflow.

Używanie modułów języka Python przechowywanych w obszarze roboczym usługi Azure Databricks

Oprócz implementowania kodu w języku Python w notatnikach usługi Databricks, można używać folderów Git usługi Databricks lub plików przestrzeni roboczej do przechowywania kodu jako modułów języka Python. Przechowywanie kodu jako modułów języka Python jest szczególnie przydatne, gdy masz typowe funkcje, których chcesz używać w wielu potokach lub notesach należących do tego samego potoku. Aby dowiedzieć się, jak używać modułów języka Python w swoich potokach, zobacz Importowanie modułów języka Python z folderów Git lub plików obszarów roboczych.