Przepływy danych mapowania w Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Czym są przepływy danych mapowania?

Przepływy danych mapowania są wizualnie projektowane przekształcenia danych w Azure Data Factory. Przepływy danych umożliwiają inżynierom danych opracowywanie logiki przekształcania danych bez pisania kodu. Wynikowe przepływy danych są wykonywane jako działania w ramach potoków Azure Data Factory korzystających ze skalowanych w poziomie klastrów Platformy Apache Spark. Działania przepływu danych można operacjonalizować przy użyciu istniejących Azure Data Factory możliwości planowania, sterowania, przepływu i monitorowania.

Przepływy danych mapowania zapewniają całkowicie wizualne środowisko bez konieczności kodowania. Przepływy danych są uruchamiane w klastrach wykonywania zarządzanych przez usługę ADF na potrzeby skalowanego w poziomie przetwarzania danych. Azure Data Factory obsługuje wszystkie zadania translacji kodu, optymalizacji ścieżki i wykonywania zadań przepływu danych.

Wprowadzenie

Przepływy danych są tworzone w okienku zasobów fabryki, takich jak potoki i zestawy danych. Aby utworzyć przepływ danych, wybierz znak plus obok pozycji Zasoby fabryki, a następnie wybierz pozycję Przepływ danych.

Zrzut ekranu przedstawiający nowy przepływ danych. Ta akcja powoduje przejście do kanwy przepływu danych, w której można utworzyć logikę przekształcania. Wybierz pozycję Dodaj źródło , aby rozpocząć konfigurowanie transformacji źródłowej. Aby uzyskać więcej informacji, zobacz Przekształcanie źródła.

Tworzenie przepływów danych

Przepływ danych mapowania ma unikatową kanwę tworzenia, która ułatwia tworzenie logiki przekształcania. Kanwa przepływu danych jest podzielona na trzy części: górny pasek, graf i panel konfiguracji.

Zrzut ekranu przedstawiający kanwę przepływu danych z górnym paskiem, wykresem i panelem konfiguracji z etykietą.

Graph

Wykres wyświetla strumień transformacji. Pokazuje pochodzenie danych źródłowych, gdy przepływa do co najmniej jednego ujścia. Aby dodać nowe źródło, wybierz pozycję Dodaj źródło. Aby dodać nowe przekształcenie, wybierz znak plus w prawym dolnym rogu istniejącego przekształcenia. Dowiedz się więcej na temat zarządzania wykresem przepływu danych.

Zrzut ekranu przedstawia część wykresu kanwy z polem tekstowym Wyszukaj.

Panel konfiguracji

Na panelu konfiguracji są wyświetlane ustawienia specyficzne dla aktualnie wybranego przekształcenia. Jeśli nie wybrano przekształcenia, zostanie wyświetlony przepływ danych. W ogólnej konfiguracji przepływu danych można dodać parametry za pomocą karty Parametry . Aby uzyskać więcej informacji, zobacz Mapowanie parametrów przepływu danych.

Każde przekształcenie zawiera co najmniej cztery karty konfiguracji.

Ustawienia przekształcania

Pierwsza karta w okienku konfiguracji każdego przekształcenia zawiera ustawienia specyficzne dla tego przekształcenia. Aby uzyskać więcej informacji, zobacz stronę dokumentacji przekształcenia.

Zrzut ekranu przedstawiający kartę ustawienia źródła.

Optymalizacja

Karta Optymalizacja zawiera ustawienia służące do konfigurowania schematów partycjonowania. Aby dowiedzieć się więcej na temat optymalizowania przepływów danych, zobacz przewodnik dotyczący wydajności przepływu mapowania danych.

Zrzut ekranu przedstawia kartę Optymalizacja, która obejmuje opcję Partycja, Typ partycji i Liczba partycji.

Sprawdzić

Karta Inspekcja zawiera widok metadanych strumienia danych, który jest przekształcany. Liczby kolumn, zmienione kolumny, dodane kolumny, typy danych, kolejność kolumn i odwołania do kolumn. Inspekcja to widok metadanych tylko do odczytu. Nie musisz mieć włączonego trybu debugowania, aby wyświetlić metadane w okienku Inspekcja .

Sprawdzić

Po zmianie kształtu danych za pomocą przekształceń zobaczysz przepływ zmian metadanych w okienku Inspekcja . Jeśli w transformacji źródłowej nie ma zdefiniowanego schematu, metadane nie będą widoczne w okienku Inspekcja . Brak metadanych jest często spotykany w scenariuszach dryfu schematu.

Podgląd danych

Jeśli tryb debugowania jest włączony, karta Podgląd danych zawiera interaktywną migawkę danych w każdej transformacji. Aby uzyskać więcej informacji, zobacz Podgląd danych w trybie debugowania.

Górny pasek

Górny pasek zawiera akcje wpływające na cały przepływ danych, takie jak zapisywanie i walidacja. Możesz również wyświetlić źródłowy kod JSON i skrypt przepływu danych logiki przekształcania. Aby uzyskać więcej informacji, dowiedz się więcej na temat skryptu przepływu danych.

Dostępne przekształcenia

Zapoznaj się z omówieniem przekształcania przepływu mapowania danych , aby uzyskać listę dostępnych przekształceń.

Typy danych przepływu danych

  • array
  • binarny
  • boolean
  • Złożonych
  • liczba dziesiętna (z dokładnością)
  • data
  • float
  • liczba całkowita
  • długi
  • map (mapa)
  • short
  • ciąg
  • sygnatura czasowa

Działanie przepływu danych

Przepływy danych mapowania są operacjonalizowane w potokach usługi ADF przy użyciu działania przepływu danych. Wystarczy określić, które środowisko Integration Runtime ma być używane i przekazywać wartości parametrów. Aby uzyskać więcej informacji, dowiedz się więcej o środowisku Azure Integration Runtime.

Tryb debugowania

Tryb debugowania umożliwia interaktywne wyświetlanie wyników każdego kroku przekształcania podczas kompilowania i debugowania przepływów danych. Sesja debugowania może być używana zarówno podczas tworzenia logiki przepływu danych, jak i uruchamiania przebiegów debugowania potoku z działaniami przepływu danych. Aby dowiedzieć się więcej, zobacz dokumentację trybu debugowania.

Monitorowanie przepływów danych

Przepływ mapowania danych integruje się z istniejącymi możliwościami monitorowania usługi Azure Data Factory. Aby dowiedzieć się, jak zrozumieć dane wyjściowe monitorowania przepływu danych, zobacz Monitorowanie przepływów danych mapowania.

Zespół Azure Data Factory utworzył przewodnik dostosowywania wydajności, który pomoże Ci zoptymalizować czas wykonywania przepływów danych po utworzeniu logiki biznesowej.

Dostępne regiony

Przepływy danych mapowania są dostępne w następujących regionach w usłudze ADF:

Region platformy Azure Przepływy danych w usłudze ADF
Australia Środkowa
Australia Środkowa 2
Australia Wschodnia
Australia Południowo-Wschodnia
Brazylia Południowa
Kanada Środkowa
Indie Środkowe
Central US
Chiny Wschodnie
Chiny Wschodnie 2
Chiny inne niż regionalne
Chiny Północne
Chiny Północne 2
Azja Wschodnia
East US
Wschodnie stany USA 2
Francja Środkowa
Francja Południowa
Niemcy Środkowe (suwerenne)
Niemcy inne niż regionalne (suwerenne)
Niemcy Północne (publiczne)
Niemcy Północno-Wschodnie (suwerenne)
Niemcy Zachodnio-środkowe (publiczne)
Japonia Wschodnia
Japonia Zachodnia
Korea Środkowa
Korea Południowa
Północno-środkowe stany USA
Europa Północna
Norwegia Wschodnia
Norwegia Zachodnia
Północna Republika Południowej Afryki
Zachodnia Republika Południowej Afryki
South Central US
Indie Południowe
Southeast Asia
Szwajcaria Północna
Szwajcaria Zachodnia
Środkowe Zjednoczone Emiraty Arabskie
Północne Zjednoczone Emiraty Arabskie
Południowe Zjednoczone Królestwo
Zachodnie Zjednoczone Królestwo
US DoD (region środkowy)
US DoD (region wschodni)
US Gov Arizona
Us Gov nie regionalny
US Gov Teksas
US Gov Wirginia
Zachodnio-środkowe stany USA
West Europe
Indie Zachodnie
Zachodnie stany USA
Zachodnie stany USA 2
Zachodnie stany USA 3

Następne kroki