Ćwiczenie — przygotowywanie danych w usłudze Azure Data Factory

Ukończone

Funkcja Power Query w usłudze Azure Data Factory umożliwia pracę z danymi i ich rozmieszczanie. Jest to obiekt, który można dodać do projektanta obszaru roboczego jako aktywność w potoku Azure Data Factory w celu wykonania przygotowywania danych bez kodowania. Umożliwia to osobom, które nie są zaznajomione z tradycyjnymi technologiami przygotowywania danych, takimi jak Spark lub SQL Server, czy językami, takimi jak Python i T-SQL, przygotowanie danych iteracyjnie w skali chmury.

Funkcja Power Query używa interfejsu typu siatki do podstawowego przygotowywania danych, który jest podobny do estetyki programu Excel, znanego jako edytor mashup online. Edytor umożliwia również bardziej zaawansowanym użytkownikom wykonywanie bardziej złożonych przygotowań danych przy użyciu formuł. Najpierw musisz utworzyć połączoną usługę ze źródłem danych, zanim będzie można uzyskać dostęp do danych

Edytor mashupów online

Formuły działają z usługą Power Query Online i udostępniają użytkownikom fabryki danych funkcje Power Query M. Dodatek Power Query tłumaczy następnie język M wygenerowany przez Edytor mashup online na kod spark na potrzeby wykonywania skalowania w chmurze.

Ta funkcja umożliwia inżynierom danych i analitykom danych interaktywne eksplorowanie i przygotowywanie zestawów danych. Ponadto mogą interaktywnie pracować z językiem M i oglądać podgląd wyniku przed wyświetleniem go w kontekście szerszego procesu.

Aby dodać działanie Power Query w usłudze Azure Data Factory, kliknij ikonę plusa i wybierz pozycję Power Query w okienku zasobów usługi.

Utwórz działanie Power Query

Dodaj źródłowy zestaw danych dla przepływu danych uzdatniania i wybierz zestaw danych ujścia. Obsługiwane są następujące źródła danych.

Łącznik Format danych Typ uwierzytelniania
Azure Blob Storage (przechowywanie obiektów w chmurze) CSV, Parquet Klucz konta
Usługa Azure Data Lake Storage 1. generacji CSV Podmiot usługi
Azure Data Lake Storage Gen2 CSV, Parquet Klucz konta, główna jednostka usługi
Azure SQL Database Uwierzytelnianie SQL
Azure Synapse Analytics Uwierzytelnianie SQL

Po wybraniu źródła kliknij pozycję Utwórz.

Dodawanie źródłowych zestawów danych do uzdatniania przepływu danych

Spowoduje to otwarcie Edytora mashupów online.

Nawigowanie po przepływie danych opracowywania

Składa się z następujących składników:

  1. Lista zestawów danych.

    Zapewni to zestawy danych, które zostały zdefiniowane jako źródło dla opracowania danych.

  2. Pasek narzędzi funkcji rozmieszczania.

    Pasek narzędzi zawiera różne funkcje uzdatniania danych, do których użytkownik może uzyskiwać dostęp do manipulowania danymi, w tym:

    • Zarządzanie kolumnami.
    • Przekształcanie tabel.
    • Zmniejszanie wierszy.
    • Dodawanie kolumn.
    • Łączenie tabel.

    Każdy element jest wrażliwy na kontekst i zawiera specyficzne dla niego funkcje podrzędne.

  3. Nagłówki kolumn.

    Oprócz możliwości zmieniania nazw kolumn kliknięcie prawym przyciskiem myszy kolumny spowoduje wyświetlenie elementów wrażliwych kontekstowo na potrzeby zarządzania kolumnami.

  4. Ustawienia.

    Dzięki temu można dodawać lub edytować źródła danych i odbiorniki danych oraz modyfikować ustawienia dla zadania przygotowania danych.

  5. Okno kroków.

    W tym oknie przedstawiono kroki, które zostały zastosowane do wyniku przygotowywania danych. W przykładzie na ilustracji krok o nazwie "Źródło" został zastosowany wrangling danych wyjściowych o nazwie "UserQuery".

  6. Lista danych wyjściowych dodatku Power Query.

    Wyświetla listę wyników przetwarzania danych, które zostały zdefiniowane.

  7. Przycisk Publikuj.

    Umożliwia opublikowanie utworzonej pracy.

Zadanie Power Query można dodać w projektancie kanwy tak samo jak zadanie działania kopiowania lub zadanie przepływu danych mapowania i można nimi zarządzać i monitorować w ten sam sposób.

kończenie przepływu danych porządkowania