Краткое руководство. Перемещение и преобразование данных с помощью потоков данных и конвейеров данных

В этом руководстве вы узнаете, как интерфейс потока данных и конвейера данных может создать мощное и комплексное решение фабрики данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо иметь следующие предварительные требования:

Потоки данных по сравнению с конвейерами

Потоки данных 2-го поколения позволяют использовать интерфейс с низким кодом и преобразования данных и преобразования на основе искусственного интеллекта для упрощения очистки, подготовки и преобразования данных с большей гибкостью, чем любой другой инструмент. Конвейеры данных позволяют создавать гибкие рабочие процессы данных, соответствующие вашим корпоративным потребностям. В конвейере можно создать логические группировки действий, выполняющих задачу, которая может включать вызов потока данных для очистки и подготовки данных. Хотя между этими двумя функциями перекрываются некоторые функции, выбор которых используется для конкретного сценария, зависит от того, требуется ли полное богатство конвейеров или можно использовать более простые, но более ограниченные возможности потоков данных. Дополнительные сведения см. в руководстве по принятию решений Fabric

Преобразование данных с помощью потоков данных

Выполните следующие действия, чтобы настроить поток данных.

Шаг 1. Создание потока данных

  1. Выберите рабочую область с поддержкой Fabric и нажмите кнопку "Создать". Затем выберите dataflow 2-го поколения.

    Screenshot showing where to start creating a dataflow gen2.

  2. Откроется окно редактора потоков данных. Выберите импорт из SQL Server карта.

    Screenshot showing the dataflow editor window.

Шаг 2. Получение данных

  1. В диалоговом окне Подключение источника данных введите сведения для подключения к базе данных SQL Azure, а затем нажмите кнопку "Далее". В этом примере используется пример базы данных AdventureWorksLT , настроенный при настройке базы данных SQL Azure в предварительных требованиях.

    Screenshot showing how to connect to an Azure SQL database.

  2. Выберите данные, которые вы хотите преобразовать, а затем нажмите кнопку "Создать". В этом кратком руководстве выберите SalesLT.Customer из примера данных AdventureWorksLT , предоставленных для базы данных SQL Azure, а затем кнопку "Выбрать связанные таблицы ", чтобы автоматически включить две другие связанные таблицы.

    Screenshot showing where to choose from the available data.

Шаг 3. Преобразование данных

  1. Если он не выбран, нажмите кнопку представления диаграммы в нижней части страницы или выберите представление диаграммы в меню "Вид" в верхней части редактора Power Query. Любой из этих параметров может переключить представление схемы.

    Screenshot showing where to select diagram view.

  2. Щелкните правой кнопкой мыши запрос Клиента SalesLT или выберите вертикальный многоточие справа от запроса, а затем выберите запросы слияния.

    Screenshot showing where to find the Merge queries option.

  3. Настройте слияние, выбрав таблицу SalesLTOrderHeader в качестве правой таблицы для слияния, столбец CustomerID из каждой таблицы в качестве столбца соединения и левый внешний в качестве типа соединения. Затем нажмите кнопку "ОК ", чтобы добавить запрос слияния.

    Screenshot of the Merge configuration screen.

  4. Нажмите кнопку "Добавить назначение данных", которая выглядит как символ базы данных со стрелкой над ним, из только что созданного запроса слияния. Затем выберите базу данных SQL Azure в качестве типа назначения.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Укажите сведения о подключении к базе данных SQL Azure, где будет опубликован запрос слияния. В этом примере можно использовать базу данных AdventureWorksLT , используемую в качестве источника данных для назначения.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Выберите базу данных для хранения данных и укажите имя таблицы, а затем нажмите кнопку "Далее".

    Screenshot showing the Choose destination target window.

  7. Параметры по умолчанию можно оставить в диалоговом окне "Выбор параметров назначения" и просто нажать кнопку "Сохранить" без внесения изменений.

    Screenshot showing the Choose destination settings dialog.

  8. Нажмите кнопку "Опубликовать " на странице редактора потоков данных, чтобы опубликовать поток данных.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Перемещение данных с помощью конвейеров данных

Теперь, когда вы создали поток данных 2-го поколения, его можно использовать в конвейере. В этом примере данные, созданные из потока данных, копируются в текстовый формат в учетной записи Хранилище BLOB-объектов Azure.

Шаг 1. Создание конвейера данных

  1. В рабочей области выберите "Создать", а затем выберите конвейер данных.

    Screenshot showing where to start a new data pipeline.

  2. Присвойте конвейеру имя и нажмите кнопку "Создать".

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Шаг 2. Настройка потока данных

  1. Добавьте новое действие потока данных в конвейер данных, выбрав поток данных на вкладке "Действия ".

    Screenshot showing where to select the Dataflow option.

  2. Выберите поток данных на холсте конвейера, а затем вкладку Параметры. Выберите поток данных, созданный ранее в раскрывающемся списке.

    Screenshot showing how to choose the dataflow you created.

  3. Нажмите кнопку "Сохранить", а затем выполните запуск потока данных, чтобы первоначально заполнить ее объединенную таблицу запросов, разработанную на предыдущем шаге.

    Screenshot showing where to select Run.

Шаг 3. Добавление действия копирования с помощью помощник копирования

  1. Выберите " Копировать данные на холсте", чтобы открыть средство помощника по копированию, чтобы приступить к работе. Или выберите "Использовать копию помощник" в раскрывающемся списке "Копирование данных" на вкладке "Действия" на ленте.

    Screenshot showing the two ways to access the copy assistant.

  2. Выберите источник данных, выбрав тип источника данных. В этом руководстве вы используете База данных SQL Azure, используемые ранее при создании потока данных для создания нового запроса слияния. Прокрутите вниз ниже примеров предложений данных и выберите вкладку Azure, а затем База данных SQL Azure. Нажмите кнопку Далее, чтобы продолжить.

    Screenshot showing where to choose a data source.

  3. Создайте подключение к источнику данных, выбрав "Создать новое подключение". Введите необходимые сведения о подключении на панели и введите AdventureWorksLT для базы данных, где мы создали запрос слияния в потоке данных. Затем выберите Далее.

    Screenshot showing where to create a new connection.

  4. Выберите таблицу, созданную на предыдущем шаге потока данных, и нажмите кнопку "Далее".

    Screenshot showing how to select from available tables.

  5. Для назначения выберите Хранилище BLOB-объектов Azure и нажмите кнопку "Далее".

    Screenshot showing the Azure Blob Storage data destination.

  6. Создайте подключение к месту назначения, нажав кнопку "Создать новое подключение". Укажите сведения о подключении, а затем нажмите кнопку "Далее".

    Screenshot showing how to create a connection.

  7. Выберите путь к папке и укажите имя файла, а затем нажмите кнопку "Далее".

    Screenshot showing how to select folder path and file name.

  8. Нажмите кнопку "Далее" , чтобы принять формат файла по умолчанию, разделитель столбцов, разделитель строк и тип сжатия, при необходимости включая заголовок.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Завершите настройку параметров. Затем просмотрите и нажмите кнопку "Сохранить и запустить ", чтобы завершить процесс.

    Screenshot showing how to review copy data settings.

Шаг 5. Проектирование конвейера данных и сохранение для выполнения и загрузки данных

  1. Чтобы выполнить действие копирования после действия потока данных, перетащите действие "Успешно" в действие "Копирование". Действие копирования выполняется только после успешного выполнения действия потока данных.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Нажмите кнопку "Сохранить", чтобы сохранить конвейер данных. Затем выберите "Выполнить" , чтобы запустить конвейер данных и загрузить данные.

    Screenshot showing where to select Save and Run.

Планирование выполнения конвейера

Завершив разработку и тестирование конвейера, вы можете запланировать его автоматическое выполнение.

  1. На вкладке "Главная " окна редактора конвейера выберите "Расписание".

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Настройте расписание по мере необходимости. Пример здесь планирует выполнение конвейера ежедневно в 8:00 до конца года.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

В этом примере показано, как создать и настроить поток данных 2-го поколения, чтобы создать запрос слияния и сохранить его в базе данных SQL Azure, а затем скопировать данные из базы данных в текстовый файл в Хранилище BLOB-объектов Azure. Вы научились выполнять следующие задачи:

  • Создание потока данных.
  • Преобразование данных с помощью потока данных.
  • Создайте конвейер данных с помощью потока данных.
  • Упорядочить выполнение шагов в конвейере.
  • Скопируйте данные с помощью помощника по копированию.
  • Запустите и запланируйте конвейер данных.

Затем перейдите к дополнительным сведениям о мониторинге выполнения конвейера.