Co to jest usługa Azure Data Factory?

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W świecie danych big data dane nieprzetworzone i niezorganizowane często są przechowywane w relacyjnych, nierelacyjnych i innych systemach magazynowania. Jednak same nieprzetworzone dane nie mają prawidłowego kontekstu ani znaczenia umożliwiającego zapewnienie istotnych informacji analitykom, specjalistom z zakresu danych i osobom podejmującym decyzje biznesowe.

Dane big data wymagają usługi, która umożliwia organizowanie i operacjonalizacja procesów w celu uściślenia tych ogromnych magazynów nieprzetworzonych danych do praktycznych analiz biznesowych. Azure Data Factory to zarządzana usługa w chmurze, stworzona z myślą o tych kompleksowych, hybrydowych projektach typu wyodrębnianie-transformacja-ładowanie (ETL), wyodrębnianie-ładowanie-transformacja (ELT) i integracji danych.

Funkcje usługi Azure Data Factory

Kompresja danych: podczas działanie Kopiuj danych można skompresować dane i zapisać skompresowane dane do docelowego źródła danych. Ta funkcja ułatwia optymalizowanie użycia przepustowości podczas kopiowania danych.

Rozbudowana obsługa Połączenie ivity dla różnych źródeł danych: usługa Azure Data Factory zapewnia szeroką obsługę łączności na potrzeby łączenia się z różnymi źródłami danych. Jest to przydatne, gdy chcesz ściągać lub zapisywać dane z różnych źródeł danych.

Niestandardowe wyzwalacze zdarzeń: usługa Azure Data Factory umożliwia automatyzowanie przetwarzania danych przy użyciu niestandardowych wyzwalaczy zdarzeń. Ta funkcja umożliwia automatyczne wykonywanie określonej akcji w przypadku wystąpienia określonego zdarzenia.

Podgląd danych i walidacja: podczas działanie Kopiuj danych dostępne są narzędzia do wyświetlania podglądu i sprawdzania poprawności danych. Ta funkcja pomaga upewnić się, że dane są poprawnie kopiowane i zapisywane w docelowym źródle danych.

Konfigurowalne Przepływ danych: usługa Azure Data Factory umożliwia tworzenie dostosowywalnych przepływów danych. Ta funkcja umożliwia dodawanie niestandardowych akcji lub kroków przetwarzania danych.

Zintegrowane zabezpieczenia: Usługa Azure Data Factory oferuje zintegrowane funkcje zabezpieczeń, takie jak integracja usługi Azure Active Directory i kontrola dostępu oparta na rolach w celu kontrolowania dostępu do przepływów danych. Ta funkcja zwiększa bezpieczeństwo przetwarzania danych i chroni dane.

Scenariusze użycia

Przykładowo wyobraź sobie, że firma zajmująca się grami gromadzi petabajty dzienników gier, które są tworzone przez gry w chmurze. Firma chce analizować te dzienniki w celu uzyskania wglądu w preferencje klientów, dane demograficzne i zachowania związane z użyciem. Dzięki temu firma będzie mogła identyfikować możliwości sprzedaży droższych produktów i sprzedaży wiązanej, opracowywać nowe atrakcyjne funkcje pozytywnie wpływające na rozwój biznesowy oraz oferować klientom udoskonalone środowisko gier.

Do analizy tych dzienników firma musi użyć danych referencyjnych, np. informacji o kliencie, grze i kampanii marketingowej, które znajdują się w lokalnym magazynie danych. Firma chce korzystać z tych danych z lokalnego magazynu danych, łącząc je z dodatkowymi danymi dzienników znajdującymi się w magazynie danych w chmurze.

Aby wyodrębnić szczegółowe informacje, ma nadzieję przetworzyć dołączone dane przy użyciu klastra Spark w chmurze (Azure HDInsight) i opublikować przekształcone dane w magazynie danych w chmurze, takim jak usługa Azure Synapse Analytics, aby łatwo utworzyć raport na jego podstawie. Firma chce zautomatyzować ten przepływ pracy oraz monitorować go i zarządzać nim zgodnie z codziennym harmonogramem. Chce również wykonać tę operację, gdy pliki znajdują się w kontenerze magazynu obiektów blob.

Azure Data Factory to platforma, która umożliwia pracę z takimi scenariuszami danych. Jest to oparta na chmurze usługa ETL i integracji danych, która umożliwia tworzenie opartych na danych przepływów pracy do organizowania przenoszenia danych i przekształcania danych na dużą skalę. Za pomocą usługi Azure Data Factory można tworzyć oparte na danych przepływy pracy (nazywane potokami) i ustalać ich harmonogram. Złożone procesy ETL, które przekształcają dane wizualnie za pomocą przepływów danych lub przy użyciu usług obliczeniowych, takich jak Azure HDInsight Hadoop, Azure Databricks i Azure SQL Database.

Ponadto możesz opublikować przekształcone dane w magazynach danych, takich jak aplikacje usługi Azure Synapse Analytics dla analizy biznesowej (BI), które mają być używane. Ostatecznie dzięki usłudze Azure Data Factory nieprzetworzone dane mogą być organizowane w praktyczne magazyny i usługi data lake ułatwiające podejmowanie właściwych decyzji biznesowych.

Jak to działa?

Usługa Data Factory zawiera szereg połączonych systemów, które tworzą kompleksową platformę dla inżynierów danych.

Przedstawia diagram architektury najwyższego poziomu usługi Azure Data Factory.

Ten przewodnik wizualny zawiera szczegółowe omówienie pełnej architektury usługi Data Factory:

Szczegółowy przewodnik wizualny dotyczący kompletnej architektury systemu dla usługi Azure Data Factory przedstawiony w jednym obrazie o wysokiej rozdzielczości.

Aby wyświetlić więcej szczegółów, wybierz powyższy obraz, aby powiększyć, lub przejdź do obrazu o wysokiej rozdzielczości.

Łączenie i zbieranie

Przedsiębiorstwa dysponują danymi różnych typów, znajdującymi się w różnych magazynach lokalnych i w chmurze, ze strukturą pełną i częściową, przychodzącymi w różnych interwałach i w różnym tempie.

Pierwszy krok tworzenia systemu uzyskiwania informacji polega na połączeniu wszystkich wymaganych źródeł danych i systemów przetwarzania, takich jak usługi SaaS, bazy danych, udziały plików oraz internetowe usługi FTP. Następnym krokiem jest przeniesienie danych w miarę potrzeb do centralnej lokalizacji w celu ich dalszego przetwarzania.

Firmy, które nie korzystają z usługi Data Factory, muszą tworzyć niestandardowe składniki umożliwiające przepływ danych lub projektować własne usługi, aby zintegrować źródła danych i systemy przetwarzania. Takie podejście jest kosztowne, a integracja i utrzymanie systemów stwarza trudności. Ponadto rozwiązanie to rzadko zapewnia mechanizmy kontrolne oraz funkcje monitorowania i wysyłania alertów na poziomie korporacyjnym. Możliwości te są natomiast dostępne w przypadku w pełni zarządzanej usługi.

Usługa Data Factory udostępnia działanie kopiowania w potoku danych, które pozwala przenosić dane z lokalnych magazynów danych i źródeł danych w chmurze do centralnego magazynu danych w chmurze w celu przeprowadzenia kolejnych etapów analizy. Możesz na przykład zbierać dane w usłudze Azure Data Lake Storage i przekształcać je później przy użyciu usługi obliczeniowej Azure Data Lake Analytics. Można też pobrać dane z usługi Azure Blob Storage, aby przekształcić je później przy użyciu klastra usługi Azure HDInsight na platformie Hadoop.

Przekształcanie i wzbogacanie

Gdy dane są obecne w scentralizowanym magazynie danych w chmurze, przetwarzaj lub przekształcaj zebrane dane przy użyciu przepływów danych mapowania usługi ADF. Przepływy danych umożliwiają inżynierom danych tworzenie i konserwowanie wykresów przekształcania danych wykonywanych na platformie Spark bez konieczności zrozumienia klastrów Spark lub programowania platformy Spark.

Jeśli wolisz ręcznie wykonać przekształcenia kodu, usługa ADF obsługuje działania zewnętrzne do wykonywania przekształceń w usługach obliczeniowych, takich jak HDInsight Hadoop, Spark, Data Lake Analytics i Machine Edukacja.

Ciągła integracja/ciągłe wdrażanie i publikowanie

Usługa Data Factory oferuje pełną obsługę ciągłej integracji/ ciągłego wdrażania potoków danych przy użyciu usług Azure DevOps i GitHub. Dzięki temu można stopniowo opracowywać i dostarczać procesy ETL przed opublikowaniem gotowego produktu. Po uściśleniu danych pierwotnych w formie gotowej do działania biznesowego załaduj dane do usługi Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB lub niezależnie od tego, do którego aparatu analitycznego użytkownicy biznesowi mogą wskazać narzędzia do analizy biznesowej.

Monitor

Po pomyślnym utworzeniu i wdrożeniu potoku integracji danych, zapewniającego wartość biznesową danym przetworzonym, należy monitorować zaplanowane działania i potoki pod kątem współczynników powodzenia i niepowodzenia. Usługa Azure Data Factory dysponuje wbudowaną obsługą monitorowania potoków przy użyciu narzędzi Azure Monitor, API, PowerShell, dzienników usługi Azure Monitor i paneli kondycji w witrynie Azure Portal.

Koncepcje najwyższego poziomu

Subskrypcja platformy Azure może zawierać jedno lub więcej wystąpień usługi Azure Data Factory (lub fabryk danych). Usługa Azure Data Factory składa się z następujących kluczowych składników:

  • Pipelines
  • Działania
  • Zestawy danych
  • Połączone usługi
  • Przepływy danych
  • Środowiska Integration Runtime

Ich współdziałanie pozwala udostępnić platformę umożliwiającą tworzenie opartych na danych przepływów pracy wraz z etapami służącymi do przenoszenia i przekształcania danych.

Potok

Fabryka danych może obejmować jeden lub wiele potoków. Potok jest logicznym grupowaniem działań, które wspólnie wykonują jednostkę pracy. Razem działania w potoku wykonują zadanie. Na przykład potok może zawierać grupę działań, które pozwalają pozyskać dane z obiektu blob platformy Azure, a następnie uruchomić zapytanie programu Hive w klastrze usługi HDInsight w celu podzielenia danych.

Zaletą korzystania z potoku jest możliwość zarządzania zestawem działań, a nie pojedynczymi zadaniami. Działania w potoku można ze sobą połączyć w sposób sekwencyjny, mogą też działać niezależnie i równolegle.

Przepływy danych mapowania

Tworzenie grafów logiki przekształcania danych i zarządzanie nimi, których można użyć do przekształcania danych o dowolnym rozmiarze. Możesz utworzyć bibliotekę procedur przekształcania danych wielokrotnego użytku i wykonać te procesy w sposób skalowalny w poziomie z potoków usługi ADF. Usługa Data Factory wykona logikę w klastrze Spark, który uruchamia się i uruchamia w dół, gdy będzie potrzebny. Nigdy nie trzeba zarządzać ani obsługiwać klastrów.

Działanie

Działania reprezentują krok przetwarzania w potoku. Można na przykład użyć działania kopiowania w celu skopiowania danych z jednego magazynu danych do drugiego. Podobnie można użyć działania programu Hive, które uruchomi zapytanie programu Hive w klastrze usługi Azure HDInsight, aby przekształcić lub przeanalizować dane. Usługa Data Factory obsługuje trzy typy działań: działania przenoszenia danych, działania przekształcania danych i działania sterowania.

Zestawy danych

Zestawy danych reprezentują struktury w magazynach danych. Struktury te po prostu wskazują na dane, które mają być używane w działaniach jako dane wejściowe lub wyjściowe.

Połączone usługi

Połączone usługi działają podobnie do parametrów połączenia, umożliwiając definiowanie informacji wymaganych przez usługę Data Factory do nawiązywania połączeń z zasobami zewnętrznymi. Mechanizm ten działa następująco: połączona usługa zawiera definicję połączenia ze źródłem danych, a zestaw danych reprezentuje strukturę danych. Na przykład połączona usługa Azure Storage określa parametry połączenia, które umożliwiają połączenie z kontem usługi Azure Storage. Natomiast zestaw danych usługi Azure Blob określa kontener obiektów blob oraz folder, który zawiera dane.

Połączone usługi w usłudze Fabryka danych służą do dwóch celów:

  • Aby reprezentować magazyn danych obejmujący, ale nie jest ograniczony do bazy danych programu SQL Server, bazy danych Oracle, udziału plików lub konta usługi Azure Blob Storage. Listę obsługiwanych magazynów danych zamieszczono w artykule na temat działania kopiowania.

  • Reprezentowanie zasobu obliczeniowego, który może hostować wykonywanie działania. Na przykład działanie HDInsightHive jest wykonywane w klastrze HDInsight na platformie Hadoop. Listę działań przekształcania i obsługiwanych środowisk obliczeniowych zamieszczono w artykule dotyczącym przekształcania danych.

Środowisko Integration Runtime

W usłudze Data Factory działanie definiuje akcję do wykonania. Połączona usługa definiuje docelowy magazyn danych lub usługę obliczeniową. Infrastruktura Integration Runtime zapewnia połączenie między działaniem i połączonymi usługami. Odwołuje się do niej połączona usługa lub działanie i udostępnia środowisko obliczeniowe, w którym działanie jest uruchamiane lub wysyłane. Dzięki temu działanie można wykonać w regionie najbliższym docelowemu magazynowi danych lub usłudze obliczeniowej, w sposób najbardziej wydajny, jednocześnie spełniając wymagania dotyczące zabezpieczeń i zgodności.

Wyzwalacze

Wyzwalacze reprezentują jednostki przetwarzania, które określają, kiedy należy rozpocząć wykonanie potoku. Istnieją różne typy wyzwalaczy dla różnych typów zdarzeń.

Uruchomienia potoków

Uruchomienie potoku to wystąpienie wykonania potoku. Uruchomienia potoku są tworzone zazwyczaj przez przekazanie argumentów do parametrów zdefiniowanych w potokach. Argumenty można przekazać ręcznie lub w ramach definicji wyzwalacza.

Parametry

Parametry to pary klucz-wartość w konfiguracji tylko do odczytu.  Parametry są definiowane w potoku. Argumenty dla zdefiniowanych parametrów są przekazywane w trakcie wykonania z kontekstu uruchomienia utworzonego przez wyzwalacz lub potok wykonany ręcznie. Działania w ramach potoku wykorzystują wartości parametrów.

Zestaw danych to silnie typizowany parametr oraz obiekt wielokrotnego użytku, do którego można się odwoływać. Działanie może odwoływać się do zestawów danych oraz wykorzystywać właściwości określone w definicji zestawu danych.

Połączona usługa to również silnie typizowany parametr zawierający informacje o połączeniu z magazynem danych lub środowiskiem obliczeniowym. Również jest to obiekt wielokrotnego użytku, do którego można się odwoływać.

Przepływ sterowania

Przepływ sterowania to inaczej organizacja działań potoku, która obejmuje działania połączone w sekwencję, rozgałęzienia, parametry zdefiniowane na poziomie potoku oraz argumenty przekazywane podczas wywoływania potoku na żądanie lub przy użyciu wyzwalacza. Zawiera również kontenery przekazywania stanów niestandardowych i pętli, czyli iteratory For-each.

Zmienne

Zmienne mogą być używane wewnątrz potoków do przechowywania wartości tymczasowych i mogą być również używane w połączeniu z parametrami, aby umożliwić przekazywanie wartości między potokami, przepływami danych i innymi działaniami.

Oto ważne dokumenty dotyczące następnego kroku do zbadania: