Упражнение. Первичная обработка в Фабрике данных Azure

Завершено

Функция Power Query в Фабрике данных Azure позволяет работать с данными и выполнять их первичную обработку. Это объект потока данных, который можно добавить в конструктор холста как действие в конвейере Фабрики данных Azure, чтобы выполнить код без подготовки данных. Это позволяет пользователям, которые мало знакомы с традиционными технологиями подготовки данных, такими как Spark или SQL Server, а также такими языками, как Python и T-SQL, подготавливать данные в необходимых объемах для облачных вычислений.

Функция Power Query использует интерфейс типа сетки для базовой подготовки данных. Он похож на интерфейс Excel и называется Online Mashup Editor. Редактор также позволяет более опытным пользователям выполнять более сложную подготовку данных с помощью формул. Прежде чем вы сможете получить доступ к данным, сначала необходимо создать связанную службу с источником данных.

Онлайн редактор мэшапов

Формулы поддерживают работу с Power Query Online и позволяют пользователям Фабрики данных использовать функции Power Query M. Затем Power Query преобразует язык M, созданный Online Mashup Editor, в код Spark для обработки в масштабах облака.

Это позволяет специалистам по инжинирингу и анализу данных интерактивно анализировать и подготавливать наборы данных. Кроме того, они могут работать с языком M в интерактивном режиме и заранее просматривать результат, прежде чем увидеть его в более крупном конвейере.

Чтобы добавить действие Power Query в Фабрике данных Azure, щелкните значок плюса и выберите Power Query в области ресурсов фабрики.

Создание действия Power Query

Добавьте исходный набор данных в поток данных для первичной обработки и выберите набор данных приемника. Поддерживаются следующие источники данных:

Соединитель Формат данных Тип аутентификации
Хранилище BLOB-объектов Azure CSV, Parquet Ключ учетной записи
Хранилище Azure Data Lake Storage 1-го поколения CSV Субъект-служба
Azure Data Lake Storage 2-го поколения CSV, Parquet Ключ учетной записи, субъект-служба
База данных SQL Azure Проверка подлинности SQL
Azure Synapse Analytics Проверка подлинности SQL

Выберите источник и нажмите "Создать".

Добавление исходных наборов данных к потоку данных для первичной обработки

Откроется Online Mashup Editor.

Навигация по потоку данных для первичной обработки

Она содержит следующие компоненты.

  1. Список наборов данных.

    Здесь представлены наборы данных, которые были определены в качестве источника для первичной обработки.

  2. Панель инструментов первичной обработки.

    Панель инструментов содержит разнообразные функции первичной обработки данных, к которым пользователь может обращаться в работе, в том числе:

    • Управление столбцами.
    • Преобразование таблиц.
    • Сокращение количества строк.
    • Добавление столбцов.
    • Объединение таблиц.

    Каждый элемент зависит от контекста и содержит дополнительные функции, относящиеся к нему.

  3. Заголовки столбцов.

    Помимо возможности переименовывать столбцы, щелчок по столбцу правой кнопкой мыши позволяет отобразить элементы для управления столбцами, зависящие от контекста.

  4. Параметры.

    Это позволяет добавлять или изменять источники данных и приемники данных, а также изменять параметры для первичной обработки данных.

  5. Окно этапов.

    В этом окне показаны действия, которые были применены к результатам первичного преобразования. В примере на скриншоте к результату первичной обработки "UserQuery" был применен этап "Источник".

  6. Список выходных данных Power Query.

    Выводит данные первичной обработки, которые были определены.

  7. Кнопка "Опубликовать".

    Позволяет опубликовать результат работы.

Задачу Power Query можно добавить в конструкторе холста, так же как и задачу копирования или задачу потока данных для сопоставления. Управлять ей и осуществлять ее мониторинг можно аналогичным образом.

завершение потока данных для первичной обработки