Przekształcanie danych przy użyciu przepływów danych mapowania
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.
W tym samouczku użyjesz interfejsu użytkownika usługi Azure Data Factory (UX), aby utworzyć potok, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage (ADLS) Gen2 do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym samouczku można rozszerzyć podczas przekształcania danych przy użyciu przepływu mapowania danych
Uwaga
Ten samouczek jest przeznaczony do mapowania przepływów danych ogólnie. Przepływy danych są dostępne zarówno w usługach Azure Data Factory, jak i Synapse Pipelines. Jeśli dopiero zaczynasz korzystać z przepływów danych w usłudze Azure Synapse Pipelines, postępuj zgodnie z instrukcjami Przepływ danych przy użyciu usługi Azure Synapse Pipelines
W tym samouczku wykonasz następujące czynności:
- Tworzenie fabryki danych.
- Utwórz potok z działaniem Przepływ danych.
- Utwórz przepływ danych mapowania z czterema przekształceniami.
- Testowe uruchamianie potoku.
- Monitorowanie działania Przepływ danych
Wymagania wstępne
- Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
- Konto usługi Azure Storage. Magazyn usługi ADLS jest używany jako magazyn danych źródłowych i ujścia . Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure.
Plik, który przekształcamy w tym samouczku, jest MoviesDB.csv, który można znaleźć tutaj. Aby pobrać plik z usługi GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik .csv. Aby przekazać plik na konto magazynu, zobacz Przekazywanie obiektów blob za pomocą witryny Azure Portal. Przykłady będą odwoływać się do kontenera o nazwie "sample-data".
Tworzenie fabryki danych
W tym kroku utworzysz fabrykę danych i otworzysz środowisko użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.
Otwórz przeglądarkę Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko w przeglądarkach internetowych Przeglądarki Microsoft Edge i Google Chrome.
W menu po lewej stronie wybierz pozycję Utwórz zasób>Integration>Data Factory:
Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.
Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. (na przykład twojanazwaADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.
Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.
W obszarze Grupa zasobów wykonaj jedną z następujących czynności:
a. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.
b. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.
Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).
W obszarze Wersja wybierz pozycję V2.
W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład Azure Storage i SQL Database) i obliczenia (na przykład Usługa Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.
Wybierz pozycję Utwórz.
Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w Centrum powiadomień. Wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych.
Wybierz pozycję Tworzenie i monitorowanie, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.
Tworzenie potoku z działaniem Przepływ danych
W tym kroku utworzysz potok zawierający działanie Przepływ danych.
Na stronie głównej usługi Azure Data Factory wybierz pozycję Orkiestruj.
Na karcie Ogólne potoku wprowadź ciąg TransformFilms w polu Nazwa potoku.
W okienku Działania rozwiń akordeon Przenieś i Przekształć . Przeciągnij i upuść działanie Przepływ danych z okienka do kanwy potoku.
W oknie podręcznym Dodawanie Przepływ danych wybierz pozycję Utwórz nowy Przepływ danych, a następnie nadaj przepływowi danych nazwę TransformFilms. Po zakończeniu kliknij przycisk Zakończ.
Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Przepływ danych klastry zajmują od 5 do 7 minut, a użytkownicy powinni najpierw włączyć debugowanie, jeśli planują wykonać Przepływ danych programowania. Aby uzyskać więcej informacji, zobacz Tryb debugowania.
Tworzenie logiki przekształcania na kanwie przepływu danych
Po utworzeniu Przepływ danych nastąpi automatyczne wysłanie do kanwy przepływu danych. Jeśli nie nastąpi przekierowanie do kanwy przepływu danych, w panelu poniżej kanwy przejdź do pozycji Ustawienia i wybierz pozycję Otwórz, znajdującą się obok pola przepływu danych. Spowoduje to otwarcie kanwy przepływu danych.
W tym kroku utworzysz przepływ danych, który pobiera moviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.
Na kanwie przepływu danych dodaj źródło, klikając pole Dodaj źródło .
Nazwij źródłową bazę danych MoviesDB. Kliknij pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.
Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij pozycję Continue (Kontynuuj).
Wybierz pozycję RozdzielanyTekst. Kliknij pozycję Continue (Kontynuuj).
Nadaj zestawowi danych nazwę MoviesDB. Z listy rozwijanej połączona usługa wybierz pozycję Nowy.
Na ekranie tworzenia połączonej usługi nadaj usłudze ADLS Gen2 nazwę połączonej usłudze ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynu. Możesz kliknąć pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Kliknij przycisk Utwórz po zakończeniu.
Po powrocie do ekranu tworzenia zestawu danych wprowadź miejsce, w którym znajduje się plik w polu Ścieżka pliku. W tym samouczku plik moviesDB.csv znajduje się w przykładowych danych kontenera. Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu , aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie. Kliknij przycisk OK po zakończeniu.
Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródła i kliknij przycisk Odśwież , aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.
Obok węzła źródłowego na kanwie przepływu danych kliknij ikonę znaku plus, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.
Nadaj transformacji filtrowi nazwę FilterYears. Kliknij pole wyrażenia obok pozycji Filtruj, aby otworzyć konstruktora wyrażeń. W tym miejscu określisz warunek filtrowania.
Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń używanych w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Przepływ danych konstruktora wyrażeń.
W tym samouczku chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu
toInteger()
funkcji . Użyj operatorów większej lub równej (>=) i mniejszej lub równej operatorom (<=), aby porównać wartości roku literału 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie jest zwracane jako:toInteger(year) >= 1910 && toInteger(year) <= 2000
Aby dowiedzieć się, które filmy są komediami, możesz użyć
rlike()
funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Ujmij wyrażenie zrlike
porównaniem roku, aby uzyskać:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, klikając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można osiągnąć tę logikę przy użyciu języka wyrażeń przepływu danych.
Po zakończeniu pracy z wyrażeniem kliknij pozycję Zapisz i zakończ .
Pobierz podgląd danych, aby sprawdzić, czy filtr działa poprawnie.
Kolejną transformacją , którą dodasz, jest przekształcenie agregacji w obszarze Modyfikator schematu.
Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według wybierz pozycję rok z listy rozwijanej, aby pogrupować agregacje według roku, w ramach których film został wyjęły.
Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Kliknij odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.
Aby uzyskać średnią kolumny Ocena, użyj
avg()
funkcji agregującej. Ponieważ ocena jest ciągiem iavg()
przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwemtoInteger()
funkcji. To wyrażenie wygląda następująco:avg(toInteger(Rating))
Po zakończeniu kliknij przycisk Zapisz i zakończ .
Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.
Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.
Nazwij ujście ujścia. Kliknij pozycję Nowy , aby utworzyć zestaw danych ujścia.
Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij pozycję Continue (Kontynuuj).
Wybierz pozycję RozdzielanyTekst. Kliknij pozycję Continue (Kontynuuj).
Nadaj zestawowi danych ujście nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 6. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku piszemy do folderu "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw wartość Pierwszy wiersz jako nagłówek jako true, a następnie wybierz pozycję Brak w polu Importuj schemat. Kliknij przycisk Zakończ.
Teraz zakończono tworzenie przepływu danych. Możesz go uruchomić w potoku.
Uruchamianie i monitorowanie Przepływ danych
Potok można debugować przed jego opublikowaniem. W tym kroku wyzwolisz przebieg debugowania potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, uruchomienie debugowania spowoduje zapisanie danych w miejscu docelowym ujścia.
Przejdź do kanwy potoku. Kliknij pozycję Debuguj , aby wyzwolić przebieg debugowania.
Debugowanie potoku Przepływ danych działań używa aktywnego klastra debugowania, ale inicjowanie nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym zakończeniu przebiegu kliknij ikonę okularów, aby otworzyć okienko monitorowania.
W okienku monitorowania można zobaczyć liczbę wierszy i czasu spędzonego w każdym kroku transformacji.
Kliknij przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.
Jeśli wykonano czynności opisane w tym samouczku poprawnie, należy zapisać 83 wiersze i 2 kolumny w folderze ujścia. Możesz sprawdzić, czy dane są poprawne, sprawdzając magazyn obiektów blob.
Powiązana zawartość
Potok w tym samouczku uruchamia przepływ danych, który agreguje średnią ocenę komedii z 1910 do 2000 i zapisuje dane w usłudze ADLS. W tym samouczku omówiono:
- Tworzenie fabryki danych.
- Utwórz potok z działaniem Przepływ danych.
- Utwórz przepływ danych mapowania z czterema przekształceniami.
- Testowe uruchamianie potoku.
- Monitorowanie działania Przepływ danych
Dowiedz się więcej o języku wyrażeń przepływu danych.