Projektowanie rozwiązania integracji danych z usługą Azure Data Factory

Zakończone

Azure Data Factory to oparta na chmurze usługa integracji danych, która ułatwia tworzenie i planowanie przepływów pracy opartych na danych. Usługa Azure Data Factory umożliwia organizowanie przenoszenia i przekształcania danych na dużą skalę. Przepływy pracy oparte na danych, czyli potoki, pozyskują dane z różnych repozytoriów danych. Azure Data Factory to proces integracji danych ETL, który oznacza wyodrębnianie, przekształcanie i ładowanie. Ten proces integracji łączy dane z wielu źródeł danych w jeden magazyn danych.

Informacje o usłudze Azure Data Factory

Istnieją cztery główne kroki tworzenia i implementowania przepływu pracy opartego na danych w architekturze usługi Azure Data Factory:

  1. Łącz i zbieraj. Najpierw należy pozyskać dane, aby zgromadzić wszystkie dane z różnych źródeł w jednym scentralizowanym miejscu.
  2. Przekształcanie i wzbogacanie. Następnie przekształć dane przy użyciu usługi obliczeniowej, takiej jak Azure Databricks i Azure HDInsight Hadoop.
  3. Zapewnij ciągłą integrację i dostarczanie (CI/CD) oraz opublikuj. Obsługa CI/CD przy użyciu GitHub i Azure Pipelines w celu przyrostowego dostarczania procesu ETL przed opublikowaniem danych w silniku analitycznym.
  4. Monitor. Na koniec użyj portalu Azure, aby monitorować pipeline pod kątem zaplanowanych działań i ewentualnych niepowodzeń.

Na poniższym diagramie pokazano, jak usługa Azure Data Factory organizuje pozyskiwanie danych z różnych źródeł danych. Dane są pobierane do blob Storage i przechowywane w Azure Synapse Analytics. Składniki analizy i wizualizacji są również połączone z usługą Azure Data Factory. Usługa Azure Data Factory udostępnia wspólny interfejs zarządzania dla wszystkich potrzeb dotyczących integracji danych.

Diagram przedstawiający architekturę usługi Azure Data Factory.

Składniki usługi Azure Data Factory

Usługa Azure Data Factory ma następujące składniki, które współpracują ze sobą, aby zapewnić platformę do przenoszenia danych i integracji danych.

Diagram przedstawiający potok, zestawy danych, działania oraz połączone usługi w Azure Data Factory.

  • Potoki i działania: Potoki zapewniają logiczne grupowanie działań, które wykonują zadanie. Działanie to pojedynczy etap przetwarzania w potoku. Usługa Azure Data Factory obsługuje przenoszenie danych, przekształcanie danych i działania sterowania.
  • Zestawy danych: Zestawy danych to struktury danych w magazynach danych.
  • Połączone usługi: Połączone usługi definiują wymagane informacje o połączeniu potrzebne do nawiązania połączenia z zasobami zewnętrznymi w usłudze Azure Data Factory.
  • Przepływy danych: przepływy danych umożliwiają inżynierom danych opracowywanie logiki przekształcania danych bez pisania kodu. Działania przepływu danych można zoperacjonalizować przy użyciu istniejących funkcji planowania, sterowania, przepływu i monitorowania usługi Azure Data Factory.
  • Środowiska uruchomieniowe integracji (Integration Runtime): Środowiska uruchomieniowe integracji są mostem między obiektami operacyjnymi a połączonymi usługami. Istnieją trzy typy środowiska Integration Runtime: Azure, self-hosted i Azure-SSIS.

Scenariusz biznesowy

Istotnym wyzwaniem dla szybko rozwijającego się sprzedawcy detalicznego, takiego jak Tailwind Traders, jest to, że generuje dużą ilość danych przechowywanych w relacyjnych, nierelacyjnych i innych systemach magazynowania zarówno w chmurze, jak i lokalnie. Zarządzanie chce uzyskać praktyczne informacje biznesowe z tych danych tak blisko w czasie rzeczywistym, jak to możliwe. Ponadto zespół ds. sprzedaży chce skonfigurować i wdrożyć rozwiązania do sprzedaży dodatkowej i sprzedaży krzyżowej. Jak utworzyć rozwiązanie do pozyskiwania danych na dużą skalę w chmurze? Jakie usługi i rozwiązania platformy Azure należy wdrożyć, aby ułatwić przenoszenie i przekształcanie danych między różnymi magazynami danych i zasobami obliczeniowymi?

Sprawdźmy, jak składniki usługi Azure Data Factory są zaangażowane w scenariusz przygotowywania i przenoszenia danych dla firmy Tailwind Traders. Mają wiele zróżnicowanych źródeł danych, z którymi można się połączyć, a te dane muszą być przetwarzane i przekształcane za pomocą procedur składowanych, które są uruchamiane na danych. Na koniec dane powinny być wypychane do platformy analitycznej na potrzeby analizy.

  • W tym scenariuszu połączona usługa umożliwia firmie Tailwind Traders pozyskiwanie danych z różnych źródeł i przechowywanie parametry połączenia w celu uruchamiania usług obliczeniowych na żądanie.
  • Możesz wykonywać procedury składowane na potrzeby przekształcania danych za pośrednictwem połączonej usługi w Azure-SSIS, które jest środowiskiem uruchomieniowym Integration Runtime dla Tailwind Traders.
  • Składniki zestawów danych są używane przez obiekt działania, a obiekt działania zawiera logikę przekształcania.
  • Można uruchomić potok zadań, w którym zgrupowane są wszystkie działania.
  • Za pomocą usługi Azure Data Factory możesz opublikować końcowy zestaw danych używany przez technologie, takie jak Power BI lub Machine Learning.

Kwestie, które należy wziąć pod uwagę podczas korzystania z usługi Azure Data Factory

Oceń usługę Azure Data Factory pod kątem następujących kryteriów decyzyjnych i zastanów się, w jaki sposób usługa może korzystać z rozwiązania integracji danych dla firmy Tailwind Traders.

  • Uwzględnij wymagania dotyczące integracji danych. Usługa Azure Data Factory obsługuje dwie społeczności: społeczność danych big data i społeczność magazynowania danych relacyjnych korzystająca z usług SQL Server Integration Services (SSIS). W zależności od potrzeb organizacji w zakresie danych można skonfigurować potoki w chmurze przy użyciu usługi Azure Data Factory. Dostęp do danych można uzyskać zarówno z usług danych w chmurze, jak i lokalnych.
  • Rozważ kodowanie zasobów. Jeśli wolisz interfejs graficzny do konfigurowania potoków, narzędzie do tworzenia i monitorowania usługi Azure Data Factory jest odpowiednie dla Twoich potrzeb. Usługa Azure Data Factory udostępnia proces mało kodu/bez kodu do pracy ze źródłami danych.
  • Rozważ obsługę wielu źródeł danych. Usługa Azure Data Factory obsługuje 90+ łączników do integracji z różnymi źródłami danych.
  • Rozważ użycie infrastruktury bezserwerowej. Istnieją zalety korzystania z w pełni zarządzanego rozwiązania bezserwerowego na potrzeby integracji danych. Nie trzeba utrzymywać, konfigurować ani wdrażać serwerów, a także można uzyskać możliwość skalowania przy zmiennych obciążeniach.