Praca z potokami fabryki danych

Ukończone

Aby pracować z potokami fabryki danych, należy zrozumieć, czym jest potok w usłudze Azure Data Factory.

Potok w usłudze Azure Data Factory reprezentuje logiczne grupowanie działań, w których działania razem wykonują określone zadanie.

Przykładem kombinacji działań w jednym potoku może być pozyskiwanie i czyszczenie danych dziennika w połączeniu z przepływem danych mapowania, który analizuje dane dziennika, które zostały oczyszczone.

Potok umożliwia zarządzanie oddzielnymi poszczególnymi działaniami jako zestawem, które w przeciwnym razie byłyby zarządzane indywidualnie. Umożliwia efektywne wdrażanie i planowanie działań przy użyciu jednego potoku, a zarządzanie poszczególnymi działaniami niezależnie.

Działania w potoku są określane jako akcje wykonywane na danych. Dane działanie może — ale nie musi — korzystać z wejściowych zestawów danych i generować co najmniej jeden wyjściowy zestaw danych.

Przykładem akcji może być użycie działania kopiowania, w którym kopiujesz dane z usługi Azure SQL Database do usługi Azure DataLake Storage Gen2. W tym przykładzie możesz użyć działania przepływu danych lub działania notesu usługi Azure Databricks do przetwarzania i przekształcania danych skopiowanych na konto usługi Azure Data Lake Storage Gen2, aby przygotować dane do obsługi rozwiązań do raportowania analizy biznesowej, takich jak w usłudze Azure Synapse Analytics.

Ponieważ istnieje wiele działań, które są możliwe w potoku w usłudze Azure Data Factory, pogrupowaliśmy działania w trzech kategoriach:

  • Działania przenoszenia danych: Działanie kopiowania w usłudze Data Factory kopiuje dane z magazynu danych źródłowych do magazynu danych ujścia.
  • Działania przekształcania danych: usługa Azure Data Factory obsługuje działania przekształcania, takie jak Przepływ danych, funkcja platformy Azure, platforma Spark i inne, które można dodać do potoków pojedynczo lub połączone łańcuchem z innym działaniem.
  • Działania sterujące: Przykłady działań przepływu sterowania to "pobieranie metadanych", "Dla każdego" i "Wykonywanie potoku".

Działania mogą zależeć od siebie. Oznacza to, że zależność działania definiuje sposób, w jaki kolejne działania zależą od poprzednich działań. Sama zależność może być oparta na warunku, czy kontynuować wykonywanie poprzednich zdefiniowanych działań w celu ukończenia zadania. Działanie, które zależy od co najmniej jednego poprzedniego działania, może mieć różne warunki zależności.

Cztery warunki zależności to:

  • Powodzenie
  • Nie działa
  • Pominięty
  • Zakończone

Jeśli na przykład potok ma działanie A, a następnie działanie B i działanie B ma warunek zależności od działania A "Powodzenie", działanie B zostanie uruchomione tylko wtedy, gdy działanie A ma stan powodzenia.

Jeśli potok zawiera wiele działań, a kolejne działania nie są zależne od poprzednich, działania mogą być wykonywane równolegle.