Co to jest usługa Azure Data Factory?

2025-04-04

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W świecie danych big data dane nieprzetworzone i niezorganizowane często są przechowywane w relacyjnych, nierelacyjnych i innych systemach magazynowania. Jednak same nieprzetworzone dane nie mają prawidłowego kontekstu ani znaczenia umożliwiającego zapewnienie istotnych informacji analitykom, specjalistom z zakresu danych i osobom podejmującym decyzje biznesowe.

Big data wymaga usługi, która umożliwia organizowanie i operacjonalizację procesów, aby przetworzyć te ogromne magazyny nieprzetworzonych danych na praktyczne wnioski biznesowe. Azure Data Factory to zarządzana usługa w chmurze, stworzona z myślą o realizacji kompleksowych, hybrydowych projektów typu wyodrębnianie-transformacja-ładowanie (ETL), wyodrębnianie-ładowanie-transformacja (ELT) oraz integracji danych.

Funkcje usługi Azure Data Factory

Kompresja danych: podczas działanie Kopiuj danych można skompresować dane i zapisać skompresowane dane do docelowego źródła danych. Ta funkcja ułatwia optymalizowanie użycia przepustowości podczas kopiowania danych.

Rozbudowana obsługa łączności dla różnych źródeł danych: usługa Azure Data Factory zapewnia szeroką obsługę łączności na potrzeby łączenia się z różnymi źródłami danych. Jest to przydatne, gdy chcesz ściągać lub zapisywać dane z różnych źródeł danych.

Niestandardowe wyzwalacze zdarzeń: usługa Azure Data Factory umożliwia automatyzowanie przetwarzania danych przy użyciu niestandardowych wyzwalaczy zdarzeń. Ta funkcja umożliwia automatyczne wykonywanie określonej akcji w przypadku wystąpienia określonego zdarzenia.

Podgląd i walidacja danych: podczas aktywności Kopiuj dane dostępne są narzędzia do wyświetlania podglądu i sprawdzania poprawności danych. Ta funkcja pomaga upewnić się, że dane są poprawnie kopiowane i zapisywane w docelowym źródle danych.

Konfigurowalne przepływy danych: usługa Azure Data Factory umożliwia tworzenie konfigurowalnych przepływów danych. Ta funkcja umożliwia dodawanie niestandardowych akcji lub kroków przetwarzania danych.

Zintegrowane zabezpieczenia: Usługa Azure Data Factory oferuje zintegrowane funkcje zabezpieczeń, takie jak integracja identyfikatora Entra i kontrola dostępu oparta na rolach w celu kontrolowania dostępu do przepływów danych. Ta funkcja zwiększa bezpieczeństwo przetwarzania danych i chroni dane.

Scenariusze użycia

Przykładowo wyobraź sobie, że firma zajmująca się grami gromadzi petabajty dzienników gier, które są tworzone przez gry w chmurze. Firma chce analizować te dzienniki w celu uzyskania wglądu w preferencje klientów, dane demograficzne i zachowania związane z użyciem. Dzięki temu firma będzie mogła identyfikować możliwości rozszerzania oferty i sprzedaży wiązanej, opracowywać nowe atrakcyjne funkcje, stymulować rozwój biznesu i oferować klientom lepsze doświadczenia.

Do analizy tych dzienników firma musi użyć danych referencyjnych, np. informacji o kliencie, grze i kampanii marketingowej, które znajdują się w lokalnym magazynie danych. Firma chce korzystać z tych danych z lokalnego magazynu danych, łącząc je z dodatkowymi danymi dzienników znajdującymi się w magazynie danych w chmurze.

Aby wyodrębnić szczegółowe informacje, ma nadzieję przetworzyć dołączone dane przy użyciu klastra Spark w chmurze (Azure HDInsight) i opublikować przekształcone dane w magazynie danych w chmurze, takim jak usługa Azure Synapse Analytics, aby łatwo utworzyć raport na jego podstawie. Firma chce zautomatyzować ten przepływ pracy oraz monitorować go i zarządzać nim zgodnie z codziennym harmonogramem. Oni również chcą wykonać tę operację, gdy pliki znajdą się w kontenerze przechowywania blobów.

Azure Data Factory to platforma, która umożliwia pracę z takimi scenariuszami danych. Jest to oparta na chmurze usługa ETL i integracji danych, która umożliwia tworzenie opartych na danych przepływów pracy do organizowania przenoszenia danych i przekształcania danych na dużą skalę. Za pomocą usługi Azure Data Factory można tworzyć oparte na danych przepływy pracy (nazywane potokami) i ustalać ich harmonogram. Możesz tworzyć złożone procesy ETL, które przekształcają dane wizualnie za pomocą przepływów danych lub przy użyciu usług obliczeniowych, takich jak Azure HDInsight Hadoop, Azure Databricks i Azure SQL Database.

Ponadto możesz opublikować przekształcone dane w magazynach danych, takich jak Azure Synapse Analytics, aby mogły być używane przez aplikacje analizy biznesowej (BI). Ostatecznie dzięki usłudze Azure Data Factory nieprzetworzone dane mogą być organizowane w praktyczne repozytoria i jeziora danych ułatwiające podejmowanie lepszych decyzji biznesowych.

Jak to działa?

Usługa Data Factory zawiera szereg połączonych systemów, które tworzą kompleksową platformę dla inżynierów danych.

Przedstawia diagram architektury najwyższego poziomu usługi Azure Data Factory.

Ten przewodnik wizualny zawiera szczegółowe omówienie pełnej architektury usługi Data Factory:

Aby wyświetlić więcej szczegółów, wybierz powyższy obraz, aby powiększyć, lub przejdź do obrazu o wysokiej rozdzielczości.

Łączenie i zbieranie

Przedsiębiorstwa dysponują danymi różnych typów, znajdującymi się w różnych magazynach lokalnych i w chmurze, ze strukturą pełną i częściową, przychodzącymi w różnych interwałach i w różnym tempie.

Pierwszy krok tworzenia systemu uzyskiwania informacji polega na połączeniu wszystkich wymaganych źródeł danych i systemów przetwarzania, takich jak usługi SaaS, bazy danych, udziały plików oraz internetowe usługi FTP. Następnym krokiem jest przeniesienie danych w miarę potrzeb do centralnej lokalizacji w celu ich dalszego przetwarzania.

Firmy, które nie korzystają z usługi Data Factory, muszą tworzyć niestandardowe składniki umożliwiające przepływ danych lub projektować własne usługi, aby zintegrować źródła danych i systemy przetwarzania. Takie podejście jest kosztowne, a integracja i utrzymanie systemów stwarza trudności. Ponadto rozwiązanie to rzadko zapewnia mechanizmy kontrolne oraz funkcje monitorowania i wysyłania alertów na poziomie korporacyjnym. Możliwości te są natomiast dostępne w przypadku w pełni zarządzanej usługi.

Usługa Data Factory udostępnia działanie kopiowania w potoku danych, które pozwala przenosić dane z lokalnych magazynów danych i źródeł danych w chmurze do centralnego magazynu danych w chmurze w celu przeprowadzenia kolejnych etapów analizy. Możesz na przykład zbierać dane w usłudze Azure Data Lake Storage i przekształcać je później przy użyciu usługi obliczeniowej Azure Data Lake Analytics. Można też pobrać dane z usługi Azure Blob Storage, aby przekształcić je później przy użyciu klastra usługi Azure HDInsight na platformie Hadoop.

Przekształcanie i wzbogacanie

Gdy dane są obecne w scentralizowanym magazynie danych w chmurze, przetwarzaj lub przekształcaj zebrane dane przy użyciu przepływów danych mapowania usługi ADF. Przepływy danych umożliwiają inżynierom danych tworzenie i konserwowanie wykresów przekształcania danych wykonywanych na platformie Spark bez konieczności zrozumienia klastrów Spark lub programowania platformy Spark.

Jeśli wolisz ręcznie przekształcać kod, usługa ADF obsługuje działania zewnętrzne do wykonywania przekształceń w usługach obliczeniowych, takich jak HDInsight Hadoop, Spark, Data Lake Analytics i Machine Learning.

CI/CD i publikowanie

Usługa Data Factory oferuje pełną obsługę ciągłej integracji/ ciągłego wdrażania potoków danych przy użyciu usług Azure DevOps i GitHub. Dzięki temu można stopniowo opracowywać i dostarczać procesy ETL przed opublikowaniem gotowego produktu. Po przetworzeniu danych pierwotnych do postaci gotowej do użycia w działalności biznesowej, załaduj dane do usługi Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB lub dowolnego aparatu analitycznego, na który użytkownicy biznesowi mogą wskazać przy użyciu swoich narzędzi analizy biznesowej.

Monitor

Po pomyślnym utworzeniu i wdrożeniu potoku integracji danych, zapewniającego wartość biznesową danym przetworzonym, należy monitorować zaplanowane działania i potoki pod kątem współczynników powodzenia i niepowodzenia. Usługa Azure Data Factory dysponuje wbudowaną obsługą monitorowania potoków przy użyciu narzędzi Azure Monitor, API, PowerShell, dzienników usługi Azure Monitor i paneli kondycji w witrynie Azure Portal.

Koncepcje najwyższego poziomu

Subskrypcja platformy Azure może zawierać jedno lub więcej wystąpień usługi Azure Data Factory (lub fabryk danych). Usługa Azure Data Factory składa się z następujących kluczowych składników:

Rurociągi
Działania
Zestawy danych
Połączone usługi
Przepływy danych
Środowiska uruchomieniowe integracji

Ich współdziałanie pozwala udostępnić platformę umożliwiającą tworzenie opartych na danych przepływów pracy wraz z etapami służącymi do przenoszenia i przekształcania danych.

Rurociąg

Fabryka danych może mieć jeden lub więcej potoków danych. Pipeline to logiczne grupowanie działań, które wykonuje jednostkę pracy. Razem, działania w przepływie pracy wykonują zadanie. Na przykład pipeline może zawierać grupę działań, które pobierają dane z obiektu blob platformy Azure, a następnie uruchamiają zapytanie programu Hive w klastrze usługi HDInsight w celu partycjonowania danych.

Zaletą zastosowania pipeline'a jest możliwość zarządzania działaniami jako zestawem, zamiast zarządzać każdą czynnością osobno. Działania w potoku można ze sobą połączyć w sposób sekwencyjny, mogą też działać niezależnie i równolegle.

Mapowanie przepływu danych

Tworzenie grafów logiki przekształcania danych i zarządzanie nimi, których można użyć do przekształcania danych o dowolnym rozmiarze. Możesz zbudować bibliotekę procedur przekształcania danych, która będzie wielokrotnego użytku, i uruchamiać te procesy w rozproszony sposób z poziomu potoków ADF. Data Factory wykona logikę w klastrze Spark, który uruchamia się i zatrzymuje, gdy jest potrzebny. Nigdy nie trzeba zarządzać ani obsługiwać klastrów.

Działanie

Działania reprezentują krok przetwarzania w przepływie pracy. Można na przykład użyć działania kopiowania w celu skopiowania danych z jednego magazynu danych do drugiego. Podobnie można użyć działania programu Hive, które uruchomi zapytanie programu Hive w klastrze usługi Azure HDInsight, aby przekształcić lub przeanalizować dane. Usługa Data Factory obsługuje trzy typy działań: działania przenoszenia danych, działania przekształcania danych i działania sterowania.

Zestawy danych

Zestawy danych reprezentują struktury w magazynach danych. Struktury te po prostu wskazują na dane, które mają być używane w działaniach jako dane wejściowe lub wyjściowe.

Połączone usługi

Połączone usługi działają podobnie do parametrów połączenia, umożliwiając definiowanie informacji wymaganych przez usługę Data Factory do nawiązywania połączeń z zasobami zewnętrznymi. Mechanizm ten działa następująco: połączona usługa zawiera definicję połączenia ze źródłem danych, a zestaw danych reprezentuje strukturę danych. Na przykład połączona usługa Azure Storage określa łańcuch połączenia, który umożliwia połączenie z kontem Azure Storage. Natomiast zestaw danych usługi Azure Blob określa kontener obiektów blob oraz folder, który zawiera dane.

Połączone usługi w usłudze Fabryka danych służą do dwóch celów:

Aby reprezentować repozytorium danych obejmujące między innymi bazę danych SQL Server, bazę danych Oracle, udział plików lub konto Azure Blob Storage. Listę obsługiwanych magazynów danych zamieszczono w artykule na temat działania kopiowania.
Reprezentowanie zasobu obliczeniowego, który może hostować wykonywanie działania. Na przykład działanie HDInsightHive jest wykonywane w klastrze HDInsight na platformie Hadoop. Listę działań przekształcania i obsługiwanych środowisk obliczeniowych zamieszczono w artykule dotyczącym przekształcania danych.

Integration Runtime

W usłudze Data Factory działanie definiuje akcję do wykonania. Połączona usługa definiuje docelowy magazyn danych lub usługę obliczeniową. Infrastruktura Integration Runtime zapewnia połączenie między działaniem i połączonymi usługami. Odwołuje się do niej połączona usługa lub działanie i udostępnia środowisko obliczeniowe, w którym działanie jest uruchamiane lub wysyłane. Dzięki temu działanie można wykonać w regionie najbliższym docelowemu magazynowi danych lub usłudze obliczeniowej, w sposób najbardziej wydajny, jednocześnie spełniając wymagania dotyczące zabezpieczeń i zgodności.

Wyzwalacze

Wyzwalacze reprezentują jednostki przetwarzania, które określają, kiedy należy rozpocząć wykonanie potoku. Istnieją różne typy wyzwalaczy dla różnych typów zdarzeń.

Uruchomienia potoków

Uruchomienie potoku to wystąpienie wykonania potoku. Instancje potoków są zazwyczaj tworzone przez przekazanie argumentów do parametrów zdefiniowanych w potokach. Argumenty można przekazać ręcznie lub w ramach definicji wyzwalacza.

Parametry

Parametry to pary klucz-wartość w konfiguracji przeznaczonej tylko do odczytu.  Parametry są definiowane w rurociągu. Argumenty dla zdefiniowanych parametrów są przekazywane w trakcie wykonania z kontekstu uruchomienia utworzonego przez wyzwalacz lub potok wykonany ręcznie. Działania w ramach potoku wykorzystują wartości parametrów.

Zestaw danych to silnie typizowany parametr oraz obiekt wielokrotnego użytku, do którego można się odwoływać. Działanie może odwoływać się do zestawów danych oraz wykorzystywać właściwości określone w definicji zestawu danych.

Połączona usługa to również silnie typizowany parametr zawierający informacje o połączeniu z magazynem danych lub środowiskiem obliczeniowym. Również jest to obiekt wielokrotnego użytku, do którego można się odwoływać.

Przepływ sterowania

Sterowanie przepływem jest zarządzaniem działaniami w potoku, które obejmuje łączenie działań w sekwencję, rozgałęzienia, definiowanie parametrów na poziomie potoku oraz przekazywanie argumentów podczas wywoływania potoku na żądanie lub przez wyzwalacz. Obejmuje również pętle przekazywania stanów niestandardowych oraz iteratory typu "For-each".

Zmienne

Zmienne mogą być używane wewnątrz potoków do przechowywania wartości tymczasowych i mogą być również używane w połączeniu z parametrami, aby umożliwić przekazywanie wartości między potokami, przepływami danych i innymi działaniami.

Oto ważne dokumenty dotyczące następnego kroku do zbadania: