Udostępnij za pośrednictwem


Szybki start: przenoszenie i przekształcanie danych przy użyciu przepływów danych i potoków danych

W tym samouczku dowiesz się, jak przepływ danych i potok danych mogą tworzyć zaawansowane i kompleksowe rozwiązanie usługi Data Factory.

Wymagania wstępne

Aby rozpocząć pracę, musisz mieć następujące wymagania wstępne:

Przepływy danych w porównaniu z potokami

Przepływy danych Gen2 umożliwiają korzystanie z interfejsu niskokodowego i 300+ danych i przekształceń opartych na sztucznej inteligencji w celu łatwego czyszczenia, przygotowywania i przekształcania danych z większą elastycznością niż jakiekolwiek inne narzędzie. Potoki danych umożliwiają rozbudowane możliwości orkiestracji danych gotowe do użycia w celu tworzenia elastycznych przepływów pracy danych spełniających potrzeby przedsiębiorstwa. W potoku można utworzyć logiczne grupowania działań wykonujących zadanie, które mogą obejmować wywołanie przepływu danych w celu oczyszczenia i przygotowania danych. Chociaż istnieją pewne funkcje nakładające się między nimi, wybór, który ma być używany dla określonego scenariusza, zależy od tego, czy potrzebujesz pełnego bogactwa potoków, czy może korzystać z prostszych, ale bardziej ograniczonych możliwości przepływów danych. Aby uzyskać więcej informacji, zapoznaj się z przewodnikiem po decyzjach dotyczących sieci szkieletowej

Przekształcanie danych za pomocą przepływów danych

Wykonaj następujące kroki, aby skonfigurować przepływ danych.

Krok 1. Tworzenie przepływu danych

  1. Wybierz obszar roboczy z włączoną obsługą sieci szkieletowej, a następnie wybierz pozycję Nowy. Następnie wybierz pozycję Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Zostanie wyświetlone okno edytora przepływów danych. Wybierz kartę Importuj z programu SQL Server .

    Screenshot showing the dataflow editor window.

Krok 2. Pobieranie danych

  1. W wyświetlonym oknie dialogowym Połączenie do źródła danych wprowadź szczegóły, aby nawiązać połączenie z bazą danych Azure SQL Database, a następnie wybierz przycisk Dalej. W tym przykładzie użyto przykładowej bazy danych AdventureWorksLT skonfigurowanej podczas konfigurowania bazy danych Azure SQL Database w wymaganiach wstępnych.

    Screenshot showing how to connect to an Azure SQL database.

  2. Wybierz dane, które chcesz przekształcić, a następnie wybierz pozycję Utwórz. W tym przewodniku Szybki start wybierz pozycję SalesLT.Customer z przykładowych danych AdventureWorksLT dostarczonych dla usługi Azure SQL DB, a następnie przycisk Wybierz powiązane tabele, aby automatycznie dołączyć dwie inne powiązane tabele.

    Screenshot showing where to choose from the available data.

Krok 3. Przekształcanie danych

  1. Jeśli nie jest zaznaczona, wybierz przycisk Widok diagramu wzdłuż paska stanu w dolnej części strony lub wybierz widok diagramu w menu Widok w górnej części edytora Power Query. Jedną z tych opcji można przełączać widok diagramu.

    Screenshot showing where to select diagram view.

  2. Kliknij prawym przyciskiem myszy zapytanie SalesLT Customer lub wybierz wielokropek pionowy po prawej stronie zapytania, a następnie wybierz pozycję Scal zapytania.

    Screenshot showing where to find the Merge queries option.

  3. Skonfiguruj scalanie, wybierając tabelę SalesLTOrderHeader jako prawą tabelę scalania, kolumnę CustomerID z każdej tabeli jako kolumnę sprzężenia i lewą zewnętrzną jako rodzaj sprzężenia. Następnie wybierz przycisk OK , aby dodać zapytanie scalania.

    Screenshot of the Merge configuration screen.

  4. Wybierz przycisk Dodaj miejsce docelowe danych, który wygląda jak symbol bazy danych ze strzałką nad nią, z nowo utworzonego zapytania scalania. Następnie wybierz pozycję Azure SQL Database jako typ docelowy.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Podaj szczegóły połączenia usługi Azure SQL Database, w którym ma zostać opublikowane zapytanie scalania. W tym przykładzie można również użyć bazy danych AdventureWorksLT , która była źródłem danych dla miejsca docelowego.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Wybierz bazę danych do przechowywania danych i podaj nazwę tabeli, a następnie wybierz przycisk Dalej.

    Screenshot showing the Choose destination target window.

  7. Możesz pozostawić ustawienia domyślne w oknie dialogowym Wybieranie ustawień docelowych, a następnie wybrać pozycję Zapisz ustawienia bez wprowadzania żadnych zmian w tym miejscu.

    Screenshot showing the Choose destination settings dialog.

  8. Wybierz pozycję Publikuj z powrotem na stronie edytora przepływów danych, aby opublikować przepływ danych.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Przenoszenie danych za pomocą potoków danych

Po utworzeniu przepływu danych Gen2 możesz go pracować w potoku. W tym przykładzie skopiujesz dane wygenerowane z przepływu danych do formatu tekstowego na koncie usługi Azure Blob Storage.

Krok 1. Tworzenie nowego potoku danych

  1. W obszarze roboczym wybierz pozycję Nowy, a następnie wybierz pozycję Potok danych.

    Screenshot showing where to start a new data pipeline.

  2. Nadaj potokowi nazwę, a następnie wybierz pozycję Utwórz.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Krok 2. Konfigurowanie przepływu danych

  1. Dodaj nowe działanie przepływu danych do potoku danych, wybierając pozycję Przepływ danych na karcie Działania .

    Screenshot showing where to select the Dataflow option.

  2. Wybierz przepływ danych na kanwie potoku, a następnie kartę Ustawienia. Wybierz utworzony wcześniej przepływ danych z listy rozwijanej.

    Screenshot showing how to choose the dataflow you created.

  3. Wybierz pozycję Zapisz, a następnie uruchom , aby uruchomić przepływ danych, aby początkowo wypełnić scaloną tabelę zapytań zaprojektowaną w poprzednim kroku.

    Screenshot showing where to select Run.

Krok 3. Dodawanie działania kopiowania za pomocą asystenta kopiowania

  1. Wybierz pozycję Kopiuj dane na kanwie, aby otworzyć narzędzie Asystent kopiowania, aby rozpocząć pracę. Możesz też wybrać pozycję Użyj asystenta kopiowania z listy rozwijanej Kopiowanie danych na karcie Działania na wstążce.

    Screenshot showing the two ways to access the copy assistant.

  2. Wybierz źródło danych, wybierając typ źródła danych. W tym samouczku użyjesz usługi Azure SQL Database użytej wcześniej podczas tworzenia przepływu danych, aby wygenerować nowe zapytanie scalania. Przewiń w dół poniżej przykładowych ofert danych i wybierz kartę Azure, a następnie pozycję Azure SQL Database. Następnie wybierz przycisk Dalej , aby kontynuować.

    Screenshot showing where to choose a data source.

  3. Utwórz połączenie ze źródłem danych, wybierając pozycję Utwórz nowe połączenie. Wypełnij wymagane informacje o połączeniu na panelu i wprowadź wartość AdventureWorksLT dla bazy danych, w której wygenerowaliśmy zapytanie scalania w przepływie danych. Następnie kliknij przycisk Dalej.

    Screenshot showing where to create a new connection.

  4. Wybierz tabelę wygenerowaną wcześniej w kroku przepływu danych, a następnie wybierz pozycję Dalej.

    Screenshot showing how to select from available tables.

  5. W miejscu docelowym wybierz pozycję Azure Blob Storage , a następnie wybierz pozycję Dalej.

    Screenshot showing the Azure Blob Storage data destination.

  6. Utwórz połączenie z miejscem docelowym, wybierając pozycję Utwórz nowe połączenie. Podaj szczegóły połączenia, a następnie wybierz pozycję Dalej.

    Screenshot showing how to create a connection.

  7. Wybierz ścieżkę folderu i podaj nazwę pliku, a następnie wybierz pozycję Dalej.

    Screenshot showing how to select folder path and file name.

  8. Ponownie wybierz przycisk Dalej , aby zaakceptować domyślny format pliku, ogranicznik kolumny, ogranicznik wierszy i typ kompresji, opcjonalnie w tym nagłówek.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalizuj ustawienia. Następnie przejrzyj i wybierz pozycję Zapisz i uruchom , aby zakończyć proces.

    Screenshot showing how to review copy data settings.

Krok 5. Projektowanie potoku danych i zapisywanie w celu uruchamiania i ładowania danych

  1. Aby uruchomić działanie Kopiowania po działaniu Przepływ danych, przeciągnij z obszaru Powodzenie w działaniu Przepływ danych do działania Kopiowanie. Działanie Kopiowania jest uruchamiane tylko po pomyślnych działaniach przepływu danych.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Wybierz pozycję Zapisz , aby zapisać potok danych. Następnie wybierz pozycję Uruchom , aby uruchomić potok danych i załadować dane.

    Screenshot showing where to select Save and Run.

Planowanie wykonywania potoku

Po zakończeniu tworzenia i testowania potoku możesz zaplanować jego automatyczne wykonywanie.

  1. Na karcie Narzędzia główne okna edytora potoków wybierz pozycję Harmonogram.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Skonfiguruj harmonogram zgodnie z wymaganiami. W tym przykładzie zaplanowano wykonywanie potoku codziennie o godzinie 18:00 do końca roku.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

W tym przykładzie pokazano, jak utworzyć i skonfigurować przepływ danych Gen2 w celu utworzenia zapytania scalania i zapisania go w bazie danych Azure SQL Database, a następnie skopiować dane z bazy danych do pliku tekstowego w usłudze Azure Blob Storage. W tym samouczku omówiono:

  • Utwórz przepływ danych.
  • Przekształcanie danych za pomocą przepływu danych.
  • Tworzenie potoku danych przy użyciu przepływu danych.
  • Kolejność wykonywania kroków w potoku.
  • Kopiowanie danych za pomocą Asystenta kopiowania.
  • Uruchamianie i planowanie potoku danych.

Następnie przejdź dalej, aby dowiedzieć się więcej na temat monitorowania przebiegów potoku.