Упражнение. Прием данных в Azure Data Lake Storage 2-го поколения с помощью Фабрики данных Azure

Завершено

Открытие пользовательского интерфейса Фабрики данных Azure

Откройте портал Azure в браузере.

Перейдите к группе ресурсов, в которой развернута Фабрика данных Azure. Вы перейдете на следующую страницу.

Azure Data Factory Home Page

Выберите "Создание и мониторинг", чтобы перейти на следующую страницу.

Author and Monitor in Azure Data Factory

Создание связанной службы базы данных SQL Azure

На странице редактирования создаются такие ресурсы фабрики данных, как конвейеры, наборы данных, потоки данных, триггеры и связанные службы. Чтобы создать связанную службу, нажмите кнопку "Управлять".

Linked Services in Azure Data Factory

Щелкните "Создать", чтобы добавить новую связанную службу. Вы перейдете на следующую страницу.

Create new Linked Service

Первой связанной службой, которую вы настроите, будет База данных SQL Azure. С помощью строки поиска можно отфильтровать список хранилищ данных.

Щелкните плитку База данных SQL Azure и нажмите "Продолжить".

Create Azure SQL Database as Linked Service

Нажав кнопку, вы перейдете на следующую страницу, где необходимо заполнить некоторые параметры Базы данных SQL.

Specification Azure SQL Database as Linked Service

В панели конфигурации базы данных SQL введите "SQLDB" в качестве имени связанной службы. Введите учетные данные, чтобы разрешить Фабрике данных подключаться к базе данных.

Если вы используете проверку подлинности SQL, введите имя сервера, базу данных, имя пользователя и пароль. Правильность сведений о подключении можно проверить, нажав Тестирование подключения. После завершения нажмите Создать.

Создание связанной службы Azure Synapse Analytics

Повторите этот же процесс, чтобы добавить связанную службу Azure Synapse Analytics. Щелкните Новый на вкладке подключений. Выберите плиткуAzure Synapse Analytics (ранее — Хранилище данных SQL) и нажмите "Продолжить".

Create Azure Synapse Analytics as Linked Service

Нажмите Azure Synapse Analytics, чтобы перейти на следующий экран.

Specification Azure Synapse Analytics as Linked Service

Заполните параметры и нажмите кнопку "Создать". Подключение к связанной службе установлено для ресурса Azure Synapse Analytics.

Создание связанной службы Azure Data Lake Storage 2-го поколения

Последней необходимой связанной службой является Azure Data Lake Storage 2-го поколения. Щелкните Новый на вкладке подключений. Выберите плитку Azure Data Lake Storage 2-го поколения и нажмите "Продолжить".

Azure Data Lake Storage Gen2 as Linked Service

Откроется следующий экран.

Create Azure Data Lake Storage Gen2 as Linked Service

После нажатия кнопки "Создать" откроется следующий экран.

Linked Services

Включите отладку потоков данных.

Включение режима отладки потоков данных

Теперь мы создадим поток данных сопоставления. Перед построением потоков данных сопоставления рекомендуется включить режим отладки, который позволяет в считаные секунды протестировать логику преобразования на активном кластере Spark.

Чтобы включить отладку, щелкните ползунок Data flow debug (Отладка потока данных) в верхней панели фабрики.

Нажмите кнопку "ОК", когда появится всплывающее диалоговое окно подтверждения. Запуск кластера займет 5–7 минут.

Turn on data flow debug

Передача данных из базы данных SQL Azure в ADLS 2-го поколения, используя действие копирования

Теперь создадим конвейер с действием копирования, который будет принимать одну таблицу из Базы данных SQL Azure в учетную запись хранения ADLS 2-го поколения. Для этого добавим конвейер, настроим набор данных и выполним отладку конвейера через интерфейс ADF.

Создание конвейера с действием копирования

Щелкните значок "плюс" на панели ресурсов фабрики, чтобы открыть меню нового ресурса. Выберите Конвейер.

Create a pipeline

Откроется следующий экран.

Properties of Pipeline

Присвойте конвейеру имя и сохраните.

В панели действий холста конвейера откройте меню-гармошку Move and Transform (Перемещение и преобразование) и перетащите действие Копирование данных на холст.

Назовите действие копирования описательным именем, например "IngestIntoADLS".

Copy Data Pipeline

Настройка исходного набора данных базы данных SQL Azure

Выберите вкладку Источник действия копирования. Щелкните Создать, чтобы создать набор данных.

Вашим источником будет таблица dbo.TripData, расположенная в связанной службе SQLDB, настроенной в предыдущем упражнении.

Source Copy Data Pipeline

Выполните поиск по База данных SQL Azure и щелкните "Продолжить".

New SQL Dataset Source

Вызовите набор данных "TripData".

Выберите "SQLDB" в качестве связанной службы.

Выберите "dbo.TripData" из раскрывающегося списка имени таблицы.

Импортируйте схему From connection/store (из подключения/хранилища).

Щелкните "OK", когда все будет готово.

Set properties SQL Dataset Source

Вы успешно создали свой первый исходный набор данных!

Убедитесь, что в настройках источника в поле запроса на использование выбрано значение по умолчанию Таблица.

Настройка приемного набора данных ADLS 2-го поколения

Выберите вкладку Приемник действия копирования.

Щелкните Создать, чтобы создать набор данных.

Select ADLS Gen2 as Sink Dataset

Выберите ADLS 2-го поколения и нажмите кнопку "Продолжить".

ADLS Gen2 as Sink Dataset

Во время записи в CSV-файл выберите DelimitedText на панели выбора формата.

Нажмите кнопку Продолжить.

Select format of Sink Dataset

Назовите приемный набор данных "TripDataCSV".

Выберите "ADLSGen2" в качестве связанной службы.

Введите расположение для записи CSV-файла. Например, вы можете записать данные в файл trip-data.csv в контейнере промежуточного хранения.

Установите Использовать первую строку в качестве заголовка на true, если хотите, чтобы выходные данные имели заголовки.

Поскольку в месте назначения еще нет файла, установите для пункта Импорт схемы значение Нет.

Щелкните "OK", когда все будет готово.

Set Properties of Sink Dataset

Тестирование действия копирования с помощью запуска отладки конвейера

Выполните отладку, чтобы проверить корректность работы действия копирования, нажав Отладка в верхней части холста конвейера. Выполнение отладки позволяет выполнить сквозную проверку конвейера, либо проверку до точки останова, прежде чем опубликовать его в службе фабрики данных.

Debug Copy pipeline

Чтобы следить за выполнением отладки, перейдите на вкладку Выходные данные холста конвейера.

Экран мониторинга будет обновляться автоматически каждые 20 секунд или после ручного нажатия кнопки обновления.

У действия копирования есть специальное представление мониторинга. Чтобы получить к нему доступ, щелкните значок очков в колонке "Действия".

Output of Debug Copy pipeline

Нажмите значок очков, чтобы перейти на следующий экран.

Представление мониторинга копирования предоставляет сведения о процессе выполнения и характеристиках производительности. Вы можете просматривать такие сведения, как прочитанные/записанные данные, прочитанные/записанные строки, прочитанные/записанные файлы и пропускная способность.

Monitoring Specification of Copy pipeline

Здесь вы можете опубликовать изменения в службе фабрики данных, нажав "Опубликовать все" в верхней панели фабрики. Фабрика данных Azure поддерживает полную git-интеграцию. Интеграция Git позволяет выполнять управление версиями, итеративное сохранение в репозитории, а также совместную работу в фабрике данных. Дополнительные сведения см. Source Control in Azure Data Factory (Система управления версиями в фабрике данных Azure).

Publish all changes of pipeline

Если нажать кнопку "Опубликовать все", вы перейдете на следующий экран для подтверждения.

Confirmation of Publish all changes of pipeline

Нажмите "Опубликовать", и конвейер будет опубликован.