Przekształcanie danych przy użyciu przepływów danych mapowania

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

W tym samouczku użyjesz interfejsu użytkownika usługi Azure Data Factory (UX), aby utworzyć potok, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage (ADLS) Gen2 do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym samouczku można rozszerzyć podczas przekształcania danych przy użyciu przepływu mapowania danych

Uwaga

Ten samouczek jest przeznaczony do mapowania przepływów danych ogólnie. Przepływy danych są dostępne zarówno w usługach Azure Data Factory, jak i Synapse Pipelines. Jeśli dopiero zaczynasz korzystać z przepływów danych w usłudze Azure Synapse Pipelines, postępuj zgodnie z instrukcjami Przepływ danych przy użyciu usługi Azure Synapse Pipelines

W tym samouczku wykonasz następujące czynności:

  • Tworzenie fabryki danych.
  • Utwórz potok z działaniem Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania Przepływ danych

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
  • Konto usługi Azure Storage. Magazyn usługi ADLS jest używany jako magazyn danych źródłowych i ujścia . Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure.

Plik, który przekształcamy w tym samouczku, to MoviesDB.csv, który można znaleźć tutaj. Aby pobrać plik z usługi GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik CSV. Aby przekazać plik na konto magazynu, zobacz Przekazywanie obiektów blob za pomocą witryny Azure Portal. Przykłady będą odwoływać się do kontenera o nazwie "sample-data".

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i otworzysz środowisko użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz przeglądarkę Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Przeglądarki Microsoft Edge i Google Chrome.

  2. W menu po lewej stronie wybierz pozycję Utwórz zasób>Integration>Data Factory:

    Data Factory selection in the "New" pane

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. (na przykład twojanazwaADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

    New data factory error message for duplicate name.

  4. Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    a. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.

    b. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Usługa Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz pozycję Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych.

  10. Wybierz pozycję Tworzenie i monitorowanie, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.

Tworzenie potoku z działaniem Przepływ danych

W tym kroku utworzysz potok zawierający działanie Przepływ danych.

  1. Na stronie głównej usługi Azure Data Factory wybierz pozycję Orkiestruj.

    Screenshot that shows the ADF home page.

  2. Na karcie Ogólne potoku wprowadź ciąg TransformFilms w polu Nazwa potoku.

  3. W okienku Działania rozwiń akordeon Przenieś i Przekształć . Przeciągnij i upuść działanie Przepływ danych z okienka do kanwy potoku.

    Screenshot that shows the pipeline canvas where you can drop the Data Flow activity.

  4. W oknie podręcznym Dodawanie Przepływ danych wybierz pozycję Utwórz nowy Przepływ danych, a następnie nadaj przepływowi danych nazwę TransformFilms. Po zakończeniu kliknij przycisk Zakończ.

    Screenshot that shows where you name your data flow when you create a new data flow.

  5. Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Przepływ danych klastry zajmują od 5 do 7 minut, a użytkownicy powinni najpierw włączyć debugowanie, jeśli planują wykonać Przepływ danych programowania. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

    Data Flow Activity

Tworzenie logiki przekształcania na kanwie przepływu danych

Po utworzeniu Przepływ danych nastąpi automatyczne wysłanie do kanwy przepływu danych. Jeśli nie nastąpi przekierowanie do kanwy przepływu danych, w panelu poniżej kanwy przejdź do Ustawienia i wybierz pozycję Otwórz, znajdującą się obok pola przepływu danych. Spowoduje to otwarcie kanwy przepływu danych.

Screenshot showing how to open the data flow editor from the pipeline editor.

W tym kroku utworzysz przepływ danych, który pobiera plik moviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.

  1. Na kanwie przepływu danych dodaj źródło, klikając pole Dodaj źródło .

    Screenshot that shows the Add Source box.

  2. Nazwij źródłową bazę danych MoviesDB. Kliknij pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.

    Screenshot that shows where you select New after you name your source.

  3. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij pozycję Continue (Kontynuuj).

    Screenshot that shows where is the Azure Data Lake Storage Gen2 tile.

  4. Wybierz pozycję RozdzielanyTekst. Kliknij pozycję Continue (Kontynuuj).

    Screenshot that shows the DelimitedText tile.

  5. Nadaj zestawowi danych nazwę MoviesDB. Z listy rozwijanej połączona usługa wybierz pozycję Nowy.

    Screenshot that shows the Linked service dropdown list.

  6. Na ekranie tworzenia połączonej usługi nadaj usłudze ADLS Gen2 nazwę połączonej usłudze ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynu. Możesz kliknąć pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Kliknij przycisk Utwórz po zakończeniu.

    Linked Service

  7. Po powrocie do ekranu tworzenia zestawu danych wprowadź miejsce, w którym znajduje się plik w polu Ścieżka pliku. W tym samouczku plik moviesDB.csv znajduje się w kontenerze sample-data. Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu , aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie. Kliknij przycisk OK po zakończeniu.

    Datasets

  8. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródła i kliknij przycisk Odśwież , aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.

    Screenshot that shows where you can preview your data to verify your transformation is configured correctly.

  9. Obok węzła źródłowego na kanwie przepływu danych kliknij ikonę znaku plus, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.

    Data Flow Canvas

  10. Nadaj transformacji filtrowi nazwę FilterYears. Kliknij pole wyrażenia obok pozycji Filtruj, aby otworzyć konstruktora wyrażeń. W tym miejscu określisz warunek filtrowania.

    Screenshot that shows the Filter on expression box.

  11. Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń używanych w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Przepływ danych konstruktora wyrażeń.

    W tym samouczku chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większej lub równej (>=) i mniejszej lub równej operatorom (<=), aby porównać wartości roku literału 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie jest zwracane jako:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Ujmij wyrażenie z rlike porównaniem roku, aby uzyskać:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, klikając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można osiągnąć tę logikę przy użyciu języka wyrażeń przepływu danych.

    Filter

    Po zakończeniu pracy z wyrażeniem kliknij pozycję Zapisz i zakończ .

  12. Pobierz podgląd danych, aby sprawdzić, czy filtr działa poprawnie.

    Screenshot that shows the Data Preview that you fetched.

  13. Kolejną transformacją , którą dodasz, jest przekształcenie agregacji w obszarze Modyfikator schematu.

    Screenshot that shows the Aggregate schema modifier.

  14. Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według wybierz pozycję rok z listy rozwijanej, aby pogrupować agregacje według roku, w ramach których film został wyjęły.

    Screenshot that shows the year option in the Group by tab under Aggregate Settings.

  15. Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Kliknij odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.

    Screenshot that shows the year option in the Aggregates tab under Aggregate Settings.

  16. Aby uzyskać średnią kolumny Ocena, użyj avg() funkcji agregującej. Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji. To wyrażenie wygląda następująco:

    avg(toInteger(Rating))

    Po zakończeniu kliknij przycisk Zapisz i zakończ .

    Screenshot that shows the saved expression.

  17. Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.

    Aggregate

  18. Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.

    Screenshot that shows where to add a sink transformation under Destination.

  19. Nazwij ujście ujścia. Kliknij pozycję Nowy , aby utworzyć zestaw danych ujścia.

    Screenshot that shows where you can name your sink and create a new sink dataset.

  20. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij pozycję Continue (Kontynuuj).

    Screenshot that shows the Azure Data Lake Storage Gen2 tile you can choose.

  21. Wybierz pozycję RozdzielanyTekst. Kliknij pozycję Continue (Kontynuuj).

    Dataset

  22. Nadaj zestawowi danych ujście nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 6. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku piszemy do folderu "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw wartość Pierwszy wiersz jako nagłówek jako true, a następnie wybierz pozycję Brak w polu Importuj schemat. Kliknij przycisk Zakończ.

    Sink

Teraz zakończono tworzenie przepływu danych. Możesz go uruchomić w potoku.

Uruchamianie i monitorowanie Przepływ danych

Potok można debugować przed jego opublikowaniem. W tym kroku wyzwolisz przebieg debugowania potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, uruchomienie debugowania spowoduje zapisanie danych w miejscu docelowym ujścia.

  1. Przejdź do kanwy potoku. Kliknij pozycję Debuguj , aby wyzwolić przebieg debugowania.

    Screenshot that shows the pipeline canvas with Debug highlighted.

  2. Debugowanie potoku Przepływ danych działań używa aktywnego klastra debugowania, ale inicjowanie nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym zakończeniu przebiegu kliknij ikonę okularów, aby otworzyć okienko monitorowania.

    Pipeline

  3. W okienku monitorowania można zobaczyć liczbę wierszy i czasu spędzonego w każdym kroku transformacji.

    Screenshot that shows the monitoring pane where you can see the number of rows and time spent in each transformation step.

  4. Kliknij przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

    Monitoring

Jeśli wykonano czynności opisane w tym samouczku poprawnie, należy zapisać 83 wiersze i 2 kolumny w folderze ujścia. Możesz sprawdzić, czy dane są poprawne, sprawdzając magazyn obiektów blob.

Potok w tym samouczku uruchamia przepływ danych, który agreguje średnią ocenę komedii z 1910 do 2000 i zapisuje dane w usłudze ADLS. W tym samouczku omówiono:

  • Tworzenie fabryki danych.
  • Utwórz potok z działaniem Przepływ danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania Przepływ danych

Dowiedz się więcej o języku wyrażeń przepływu danych.