Co to jest Menedżer orkiestracji przepływu pracy?
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
Uwaga
Platforma Apache Airflow jest teraz dostępna za pośrednictwem usługi Microsoft Fabric. Usługa Microsoft Fabric oferuje szeroką gamę funkcji przepływu danych Apache Airflow za pośrednictwem przepływów pracy danych. Zalecamy migrację istniejących przepływów pracy Orchestration Manager (Apache Airflow w usłudze ADF) do przepływów pracy danych (Apache Airflow w usłudze Microsoft Fabric) w celu uzyskania szerszego zestawu funkcji. Możliwości systemu Apache Airflow będą dostępne tylko w kwartale 1 CY2025 w usłudze Microsoft Fabric. W przypadku nowych projektów Apache Airflow zalecamy używanie platformy Apache Airflow w usłudze Microsoft Fabric. Więcej informacji można znaleźć tutaj. Nowi użytkownicy nie będą mogli tworzyć nowego menedżera aranżacji przepływu pracy w usłudze ADF, ale istniejący użytkownicy z menedżerem aranżacji przepływu pracy mogą nadal z niego korzystać, ale wkrótce zaplanuj migrację.
Uwaga
Program Workflow Orchestration Manager dla usługi Azure Data Factory korzysta z aplikacji typu open source Apache Airflow. Dokumentację i więcej samouczków dotyczących rozwiązania Airflow można znaleźć na stronach dokumentacji lub społeczności platformy Apache Airflow.
Usługa Azure Data Factory oferuje potoki bezserwerowe na potrzeby orkiestracji procesów danych, przenoszenia danych z ponad 100 łącznikami zarządzanymi oraz wizualnych przekształceń przy użyciu przepływu danych mapowania.
Usługa Azure Data Factory Workflow Orchestration Manager to prosty i wydajny sposób tworzenia środowisk Apache Airflow i zarządzania nimi, co ułatwia uruchamianie potoków danych na dużą skalę. Apache Airflow to platforma typu open source używana do programowego tworzenia, planowania i monitorowania złożonych przepływów pracy danych. Umożliwia zdefiniowanie zestawu zadań nazywanych operatorami, które można połączyć w skierowane grafy acykliczne (DAG) do reprezentowania potoków danych. Przepływ powietrza umożliwia wykonywanie tych grup DAG zgodnie z harmonogramem lub w odpowiedzi na zdarzenie, monitorowanie postępu przepływów pracy i zapewnienie wglądu w stan każdego zadania. Jest on powszechnie używany w inżynierii danych i nauce o danych do organizowania potoków danych i jest znany ze swojej elastyczności, rozszerzalności i łatwości użycia.
Kiedy używać menedżera orkiestracji przepływu pracy?
Usługa Azure Data Factory oferuje potoki do wizualnego organizowania procesów danych (tworzenie oparte na interfejsie użytkownika). Program Workflow Orchestration Manager oferuje zestawy DAGs języka Python oparte na przepływie powietrza (tworzenie skoncentrowane na kodzie języka Python) do definiowania procesu aranżacji danych. Jeśli masz tło airflow lub obecnie używasz platformy Apache Airflow, możesz użyć Menedżera orkiestracji przepływu pracy zamiast potoków. Wręcz przeciwnie, jeśli nie chcesz pisać/ zarządzać grupami DAG opartymi na języku Python na potrzeby orkiestracji procesów danych, możesz użyć potoków.
Dzięki usłudze Workflow Orchestration Manager usługa Azure Data Factory oferuje teraz wieloaranżowe możliwości obejmujące wizualne, skoncentrowane na kodzie wymagania dotyczące orkiestracji systemu operacyjnego.
Funkcje
Menedżer orkiestracji przepływu pracy w usłudze Azure Data Factory oferuje szereg zaawansowanych funkcji, w tym:
- Szybkie i proste wdrażanie — możesz szybko i łatwo skonfigurować przepływ powietrza Apache, wybierając wersję systemu Apache Airflow podczas tworzenia menedżera orkiestracji przepływu pracy.
- Skala chmury — Menedżer orkiestracji przepływu pracy automatycznie skaluje węzły Apache Airflow, jeśli jest to wymagane na podstawie specyfikacji zakresu (minimalna, maksymalna).
- Integracja z firmą Microsoft Entra — możesz włączyć kontrolę dostępu opartą na rolach firmy Microsoft w środowisku airflow na potrzeby środowiska logowania jednokrotnego zabezpieczonego przez identyfikator Firmy Microsoft Entra.
- Szyfrowanie metadanych — Menedżer orkiestracji przepływu pracy automatycznie szyfruje metadane przy użyciu kluczy zarządzanych przez platformę Azure w celu zapewnienia, że środowisko jest domyślnie bezpieczne. Obsługuje również podwójne szyfrowanie za pomocą klucza zarządzanego przez klienta (CMK).
- Monitorowanie i alerty platformy Azure — wszystkie dzienniki generowane przez program Workflow Orchestration Manager są eksportowane do usługi Azure Monitor. Udostępnia również metryki do śledzenia warunków krytycznych i ułatwiają powiadamianie o potrzebie.
Architektura
Dostępność regionów (publiczna wersja zapoznawcza)
- Wschodnie stany USA
- Południowo-środkowe stany USA
- Zachodnie stany USA
- Brazylia Południowa
- Południowe Zjednoczone Królestwo
- Europa Północna
- West Europe
- Azja Południowo-Wschodnia
Uwaga
Region środowiska Airflow jest domyślnie ustawiony na region usługi Data Factory i nie można go skonfigurować, dlatego upewnij się, że używasz usługi Data Factory w powyższym obsługiwanym regionie, aby mieć dostęp do wersji zapoznawczej programu Workflow Orchestration Manager.
Obsługiwane wersje platformy Apache Airflow
- 2.6.3
Uwaga
Zmiana wersji systemu Airflow w ramach istniejącego środowiska IR nie jest obsługiwana. Zamiast tego zalecanym rozwiązaniem jest utworzenie nowego środowiska Ir Airflow z żądaną wersją
Integracje
Platforma Apache Airflow integruje się z usługami platformy Microsoft Azure za pośrednictwem dostawcy microsoft.azure.
Dowolny pakiet dostawcy można zainstalować, edytując środowisko przepływu powietrza z poziomu interfejsu użytkownika usługi Azure Data Factory. Zainstalowanie pakietu trwa około kilku minut.
Ograniczenia
- Menedżer orkiestracji przepływu pracy w innych regionach jest dostępny przez ga.
- Źródła danych łączące się za pośrednictwem przepływu powietrza powinny być dostępne za pośrednictwem publicznego punktu końcowego (sieć).
- Grupy DAG, które znajdują się w usłudze Blob Storage w sieci wirtualnej/za zaporą, nie są obecnie obsługiwane. Zamiast tego zalecamy korzystanie z funkcji synchronizacji git programu Workflow Orchestration Manager. Zobacz Synchronizowanie repozytorium GitHub w programie Workflow Orchestration Manager
- Importowanie dags z usługi Azure Key Vault nie jest obsługiwane w usłudze LinkedServices.