Bezpieczne przekształcanie danych przy użyciu przepływu danych mapowania

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

W tym samouczku użyjesz interfejsu użytkownika usługi Data Factory, aby utworzyć potok, który kopiuje i przekształca dane ze źródła Azure Data Lake Storage Gen2 do ujścia Data Lake Storage Gen2 (oba zezwalają na dostęp tylko do wybranych sieci) przy użyciu przepływu mapowania danych w usłudze Data Factory Managed Virtual Network. W tym samouczku możesz rozwinąć wzorzec konfiguracji podczas przekształcania danych przy użyciu przepływu danych mapowania.

W tym samouczku wykonasz następujące czynności:

  • Tworzenie fabryki danych.
  • Utwórz potok z działaniem przepływu danych.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania przepływu danych.

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure .
  • Konto usługi Azure Storage. Jako magazyny danych źródła i ujścia są używane Data Lake Storage. Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure. Upewnij się, że konto magazynu zezwala na dostęp tylko z wybranych sieci.

Plik, który zmienimy w tym samouczku, jest moviesDB.csv, który można znaleźć w tej witrynie zawartości usługi GitHub. Aby pobrać plik z usługi GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać go lokalnie jako plik .csv. Aby przekazać plik do konta magazynu, zobacz Przekazywanie obiektów blob za pomocą Azure Portal. Przykłady będą odwoływać się do kontenera o nazwie sample-data.

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i otworzysz interfejs użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz przeglądarkę Microsoft Edge lub Google Chrome. Obecnie tylko przeglądarki internetowe Microsoft Edge i Google Chrome obsługują interfejs użytkownika usługi Data Factory.

  2. W menu po lewej stronie wybierz pozycję Utwórz fabrykę danychanalizy> zasobów.>

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych musi być globalnie unikatowa. Jeśli zostanie wyświetlony komunikat o błędzie dotyczący wartości nazwy, wprowadź inną nazwę fabryki danych (na przykład yournameADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

  4. Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    • Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.
    • Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (na przykład usługa Azure Storage i Azure SQL Database) i obliczenia (na przykład usługa Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz przycisk Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w centrum powiadomień. Wybierz pozycję Przejdź do zasobu, aby przejść do strony Fabryka danych .

  10. Wybierz pozycję Otwórz Azure Data Factory Studio, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.

Tworzenie środowiska Azure IR w usłudze Data Factory Managed Virtual Network

W tym kroku utworzysz środowisko Azure IR i włączysz Virtual Network zarządzane przez usługę Data Factory.

  1. W portalu usługi Data Factory przejdź do pozycji Zarządzaj, a następnie wybierz pozycję Nowy , aby utworzyć nowe środowisko Azure IR.

    Zrzut ekranu przedstawiający tworzenie nowego środowiska Azure IR.

  2. Na stronie Konfiguracja środowiska Integration Runtime wybierz środowisko Integration Runtime , które ma zostać utworzone na podstawie wymaganych możliwości. W tym samouczku wybierz pozycję Azure, Self-Hosted, a następnie kliknij przycisk Kontynuuj.

  3. Wybierz pozycję Azure , a następnie kliknij przycisk Kontynuuj , aby utworzyć środowisko Azure Integration Runtime.

    Zrzut ekranu przedstawiający nowe środowisko Azure IR.

  4. W obszarze Konfiguracja sieci wirtualnej (wersja zapoznawcza) wybierz pozycję Włącz.

    Zrzut ekranu przedstawiający włączanie nowego środowiska Azure IR.

  5. Wybierz przycisk Utwórz.

Tworzenie potoku z działaniem przepływu danych

W tym kroku utworzysz potok zawierający działanie przepływu danych.

  1. Na stronie głównej Azure Data Factory wybierz pozycję Orkiestruj.

    Zrzut ekranu przedstawiający stronę główną fabryki danych z wyróżnionym przyciskiem Orchestrate.

  2. W okienku właściwości potoku wprowadź wartość TransformFilms jako nazwę potoku.

  3. W okienku Działania rozwiń pozycję Przenieś i Przekształć. Przeciągnij działanie Przepływ danych z okienka do kanwy potoku.

  4. W oknie podręcznym Dodawanie przepływu danych wybierz pozycję Utwórz nowy przepływ danych, a następnie wybierz pozycję Mapowanie Przepływ danych. Po zakończeniu wybierz przycisk OK .

    Zrzut ekranu przedstawiający Przepływ danych mapowania.

  5. Nadaj przepływowi danych nazwę TransformFilms w okienku właściwości.

  6. Na górnym pasku kanwy potoku przesuń suwak debugowania Przepływ danych. Tryb debugowania umożliwia interaktywne testowanie logiki transformacji w klastrze spark na żywo. Przepływ danych klastry trwają od 5 do 7 minut, aby rozgrzewać się, a użytkownicy zaleca się włączenie debugowania, jeśli planują Przepływ danych programowanie. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

    Zrzut ekranu przedstawiający suwak debugowania przepływu danych.

Tworzenie logiki przekształcania na kanwie przepływu danych

Po utworzeniu przepływu danych nastąpi automatyczne wysłanie do kanwy przepływu danych. W tym kroku utworzysz przepływ danych, który pobiera plik moviesDB.csv w Data Lake Storage i agreguje średnią ocenę komedii z 1910 do 2000. Następnie zapiszesz ten plik z powrotem do Data Lake Storage.

Dodawanie przekształcenia źródłowego

W tym kroku skonfigurujesz Data Lake Storage Gen2 jako źródło.

  1. Na kanwie przepływu danych dodaj źródło, wybierając pole Dodaj źródło .

  2. Nazwij źródłową bazę danych MoviesDB. Wybierz pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.

  3. Wybierz pozycję Azure Data Lake Storage Gen2, a następnie wybierz pozycję Kontynuuj.

  4. Wybierz pozycję DelimitedText, a następnie wybierz pozycję Kontynuuj.

  5. Nadaj zestawowi danych nazwę MoviesDB. Z listy rozwijanej połączona usługa wybierz pozycję Nowy.

  6. Na ekranie tworzenia połączonej usługi nazwij połączoną usługę ADLSGen2 Data Lake Storage Gen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym samouczku używamy klucza konta do nawiązywania połączenia z naszym kontem magazynu.

  7. Upewnij się, że włączono tworzenie interakcyjne. Włączenie tej opcji może potrwać minutę.

    Zrzut ekranu przedstawiający tworzenie interakcyjne.

  8. Wybierz pozycję Testuj połączenie. Powinno to zakończyć się niepowodzeniem, ponieważ konto magazynu nie umożliwia dostępu do niego bez tworzenia i zatwierdzania prywatnego punktu końcowego. W komunikacie o błędzie powinien zostać wyświetlony link do utworzenia prywatnego punktu końcowego, który można wykonać, aby utworzyć zarządzany prywatny punkt końcowy. Alternatywą jest przejście bezpośrednio do karty Zarządzanie i wykonanie instrukcji w tej sekcji w celu utworzenia zarządzanego prywatnego punktu końcowego.

  9. Pozostaw otwarte okno dialogowe, a następnie przejdź do konta magazynu.

  10. Postępuj zgodnie z instrukcjami w tej sekcji , aby zatwierdzić link prywatny.

  11. Wstecz do okna dialogowego. Wybierz ponownie pozycję Testuj połączenie i wybierz pozycję Utwórz , aby wdrożyć połączoną usługę.

  12. Na ekranie tworzenia zestawu danych wprowadź miejsce, w którym znajduje się plik w polu Ścieżka pliku . W tym samouczku plik moviesDB.csv znajduje się w danych przykładowych kontenera. Ponieważ plik ma nagłówki, zaznacz pole wyboru Pierwszy wiersz jako nagłówek . Wybierz pozycję Z połączenia/magazynu , aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie. Po zakończeniu wybierz przycisk OK .

    Zrzut ekranu przedstawiający ścieżkę źródłową.

  13. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródłowego i wybierz pozycję Odśwież , aby uzyskać migawkę danych. Podgląd danych umożliwia sprawdzenie, czy transformacja jest poprawnie skonfigurowana.

    Zrzut ekranu przedstawiający kartę Podgląd danych.

Tworzenie zarządzanego prywatnego punktu końcowego

Jeśli podczas testowania poprzedniego połączenia nie użyto hiperlinku, postępuj zgodnie ze ścieżką. Teraz musisz utworzyć zarządzany prywatny punkt końcowy, który połączysz się z utworzoną usługą połączoną.

  1. Przejdź do karty Zarządzanie .

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich wystąpień usługi Data Factory. Jeśli nie widzisz tego punktu końcowego, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając pozycję Tworzenie>połączeń>prywatnych punktów końcowych.

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe .

  3. Wybierz pozycję + Nowy w obszarze Zarządzane prywatne punkty końcowe.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure Data Lake Storage Gen2 z listy, a następnie wybierz pozycję Kontynuuj.

  5. Wprowadź nazwę utworzonego konta magazynu.

  6. Wybierz przycisk Utwórz.

  7. Po kilku sekundach powinno zostać wyświetlone, że utworzony link prywatny wymaga zatwierdzenia.

  8. Wybierz utworzony prywatny punkt końcowy. Możesz zobaczyć hiperłącze, które spowoduje zatwierdzenie prywatnego punktu końcowego na poziomie konta magazynu.

    Zrzut ekranu przedstawiający okienko Zarządzanie prywatnym punktem końcowym.

  1. Na koncie magazynu przejdź do pozycji Połączenia prywatnego punktu końcowego w sekcji Ustawienia .

  2. Zaznacz pole wyboru według utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.

    Zrzut ekranu przedstawiający przycisk Zatwierdź prywatny punkt końcowy.

  3. Dodaj opis i wybierz pozycję Tak.

  4. Wstecz do sekcji Zarządzane prywatne punkty końcowe na karcie Zarządzanie w usłudze Data Factory.

  5. Po około minutze powinno zostać wyświetlone zatwierdzenie dla prywatnego punktu końcowego.

Dodawanie przekształcenia filtru

  1. Obok węzła źródłowego na kanwie przepływu danych wybierz ikonę plusa, aby dodać nową transformację. Pierwszą dodaną transformacją jest filtr.

    Zrzut ekranu przedstawiający dodawanie filtru.

  2. Nadaj filtrowi nazwę FilterYears transformacji filtru. Wybierz pole wyrażenia obok pozycji Filtruj, aby otworzyć konstruktora wyrażeń. W tym miejscu określisz warunek filtrowania.

    Zrzut ekranu przedstawiający ciąg FilterYears.

  3. Konstruktor wyrażeń przepływu danych umożliwia interaktywne kompilowanie wyrażeń do użycia w różnych przekształceniach. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Konstruktor wyrażeń przepływu danych.

    • W tym samouczku chcesz filtrować filmy w gatunku komediowym, który wyszedł między lat 1910 a 2000. Ponieważ rok jest obecnie ciągiem, należy przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większej lub równej (=) i mniejszej lub równej (><=), aby porównać wartości roku literału 1910 i 2000. Połącz te wyrażenia razem z operatorem i (&&). Wyrażenie jest zwracane jako:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Zrównanie rlike wyrażenia z porównaniem roku w celu uzyskania:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Jeśli masz aktywny klaster debugowania, możesz zweryfikować logikę, wybierając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna właściwa odpowiedź na temat sposobu wykonywania tej logiki przy użyciu języka wyrażeń przepływu danych.

      Zrzut ekranu przedstawiający wyrażenie filtru.

    • Po zakończeniu pracy z wyrażeniem wybierz pozycję Zapisz i zakończ .

  4. Pobierz podgląd danych , aby sprawdzić, czy filtr działa poprawnie.

    Zrzut ekranu przedstawiający przefiltrowany podgląd danych.

Dodawanie przekształcenia agregacji

  1. Następną transformacją, którą dodasz, jest przekształcenie agregacji w obszarze Modyfikator schematu.

    Zrzut ekranu przedstawiający dodawanie agregacji.

  2. Nadaj agregacji nazwę agregacji AggregateComedyRating. Na karcie Grupuj według wybierz pozycję rok z listy rozwijanej, aby zgrupować agregacje według roku, w ramach których film został wyświetlony.

    Zrzut ekranu przedstawiający grupę agregacji.

  3. Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating. Wybierz odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.

    Zrzut ekranu przedstawiający nazwę kolumny agregującej.

  4. Aby uzyskać średnią klasyfikacji kolumny, użyj avg() funkcji agregującej. Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji. To wyrażenie wygląda następująco:

    avg(toInteger(Rating))

  5. Po zakończeniu wybierz pozycję Zapisz i zakończ .

    Zrzut ekranu przedstawiający zapisywanie agregacji.

  6. Przejdź do karty Podgląd danych , aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny, rok i AverageComedyRating.

Dodawanie przekształcenia ujścia

  1. Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.

    Zrzut ekranu przedstawiający dodawanie ujścia.

  2. Nadaj nazwę ujściu ujściu. Wybierz pozycję Nowy , aby utworzyć zestaw danych ujścia.

    Zrzut ekranu przedstawiający tworzenie ujścia.

  3. Na stronie Nowy zestaw danych wybierz pozycję Azure Data Lake Storage Gen2, a następnie wybierz pozycję Kontynuuj.

  4. Na stronie Wybieranie formatu wybierz pozycję RozdzielanyTekst , a następnie wybierz pozycję Kontynuuj.

  5. Nadaj zestawowi danych nazwę MoviesSink zestawu danych ujścia. W przypadku połączonej usługi wybierz tę samą połączoną usługę ADLSGen2 utworzoną na potrzeby transformacji źródłowej. Wprowadź folder wyjściowy do zapisania danych. W tym samouczku piszemy do danych wyjściowych folderu w przykładowych danych kontenera. Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Zaznacz pole wyboru Pierwszy wiersz jako nagłówek , a następnie wybierz pozycję Brak w polu Schemat importu. Wybierz przycisk OK.

    Zrzut ekranu przedstawiający ścieżkę ujścia.

Teraz zakończono tworzenie przepływu danych. Wszystko jest gotowe do uruchomienia w potoku.

Uruchamianie i monitorowanie przepływu danych

Potok można debugować przed jego opublikowaniem. W tym kroku wyzwolisz przebieg debugowania potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, uruchomienie debugowania spowoduje zapisanie danych do miejsca docelowego ujścia.

  1. Przejdź do kanwy potoku. Wybierz pozycję Debuguj , aby wyzwolić przebieg debugowania.

  2. Debugowanie potoku działań przepływu danych używa aktywnego klastra debugowania, ale inicjowanie nadal trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym uruchomieniu wybierz ikonę okularów, aby uzyskać szczegółowe informacje o przebiegu.

  3. Na stronie szczegółów można zobaczyć liczbę wierszy i czas spędzony na każdym kroku transformacji.

    Zrzut ekranu przedstawiający przebieg monitorowania.

  4. Wybierz przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

Jeśli wykonano czynności opisane w tym samouczku poprawnie, należy zapisać 83 wiersze i 2 kolumny w folderze ujścia. Możesz sprawdzić, czy dane są poprawne, sprawdzając magazyn obiektów blob.

Podsumowanie

W tym samouczku użyto interfejsu użytkownika usługi Data Factory do utworzenia potoku, który kopiuje i przekształca dane ze źródła Data Lake Storage Gen2 do ujścia Data Lake Storage Gen2 (zezwalając na dostęp tylko do wybranych sieci) przy użyciu przepływu mapowania danych w usłudze Data Factory Managed Virtual Network.