Упражнение. Первичная обработка в Фабрике данных Azure
Функция Power Query в Фабрике данных Azure позволяет работать с данными и выполнять их первичную обработку. Это объект потока данных, который можно добавить в конструктор холста как действие в конвейере Фабрики данных Azure, чтобы выполнить код без подготовки данных. Это позволяет пользователям, которые мало знакомы с традиционными технологиями подготовки данных, такими как Spark или SQL Server, а также такими языками, как Python и T-SQL, подготавливать данные в необходимых объемах для облачных вычислений.
Функция Power Query использует интерфейс типа сетки для базовой подготовки данных. Он похож на интерфейс Excel и называется Online Mashup Editor. Редактор также позволяет более опытным пользователям выполнять более сложную подготовку данных с помощью формул. Прежде чем вы сможете получить доступ к данным, сначала необходимо создать связанную службу с источником данных.
Формулы поддерживают работу с Power Query Online и позволяют пользователям Фабрики данных использовать функции Power Query M. Затем Power Query преобразует язык M, созданный Online Mashup Editor, в код Spark для обработки в масштабах облака.
Это позволяет специалистам по инжинирингу и анализу данных интерактивно анализировать и подготавливать наборы данных. Кроме того, они могут работать с языком M в интерактивном режиме и заранее просматривать результат, прежде чем увидеть его в более крупном конвейере.
Чтобы добавить действие Power Query в Фабрике данных Azure, щелкните значок плюса и выберите Power Query в области ресурсов фабрики.
Добавьте исходный набор данных в поток данных для первичной обработки и выберите набор данных приемника. Поддерживаются следующие источники данных:
Соединитель | Формат данных | Тип аутентификации |
---|---|---|
Хранилище BLOB-объектов Azure | CSV, Parquet | Ключ учетной записи |
Хранилище Azure Data Lake Storage 1-го поколения | CSV | Субъект-служба |
Azure Data Lake Storage 2-го поколения | CSV, Parquet | Ключ учетной записи, субъект-служба |
База данных SQL Azure | Проверка подлинности SQL | |
Azure Synapse Analytics | Проверка подлинности SQL |
Выберите источник и нажмите "Создать".
Откроется Online Mashup Editor.
Она содержит следующие компоненты.
Список наборов данных.
Здесь представлены наборы данных, которые были определены в качестве источника для первичной обработки.
Панель инструментов первичной обработки.
Панель инструментов содержит разнообразные функции первичной обработки данных, к которым пользователь может обращаться в работе, в том числе:
- Управление столбцами.
- Преобразование таблиц.
- Сокращение количества строк.
- Добавление столбцов.
- Объединение таблиц.
Каждый элемент зависит от контекста и содержит дополнительные функции, относящиеся к нему.
Заголовки столбцов.
Помимо возможности переименовывать столбцы, щелчок по столбцу правой кнопкой мыши позволяет отобразить элементы для управления столбцами, зависящие от контекста.
Параметры.
Это позволяет добавлять или изменять источники данных и приемники данных, а также изменять параметры для первичной обработки данных.
Окно этапов.
В этом окне показаны действия, которые были применены к результатам первичного преобразования. В примере на скриншоте к результату первичной обработки "UserQuery" был применен этап "Источник".
Список выходных данных Power Query.
Выводит данные первичной обработки, которые были определены.
Кнопка "Опубликовать".
Позволяет опубликовать результат работы.
Задачу Power Query можно добавить в конструкторе холста, так же как и задачу копирования или задачу потока данных для сопоставления. Управлять ей и осуществлять ее мониторинг можно аналогичным образом.