Поделиться через


Что такое первичная обработка данных?

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Организациям нужна возможность изучать свои важнейшие бизнес-данные для подготовки и первичной обработки, чтобы проводить точный анализ комплексной информации, объем которой ежедневно растет. Подготовка данных необходима, чтобы организации могли использовать данные в различных бизнес-процессах и ускорить окупаемость.

Фабрика данных позволяет периодически повторно готовить данные в облачном масштабе без написания программного кода с использованием Power Query. Фабрика данных интегрируется с Power Query Online, при этом функции Power Query M становятся доступными в качестве действий конвейера.

Фабрика данных преобразует код M, созданный гибридным онлайн-редактором Power Query, в код Spark для облачного масштабирования. Это достигается путем преобразования кода M в потоки данных Фабрики данных Azure. Первичная обработка данных с помощью Power Query и потоков данных особенно полезна для инженеров по работе с данными и для интеграторов данных граждан.

Случаи использования

Быстрое интерактивное исследование и подготовка данных

Несколько инженеров по работе с данными и интеграторов данных граждан могут интерактивно изучать и подготавливать наборы данных в масштабе облака. С увеличением объема, разнообразия и скорости данных в озерах данных пользователям требуется эффективный способ изучения и подготовки наборов данных. Например, может потребоваться создать набор данных, содержащий все демографические сведения о новых клиентах с 2017 года. При этом не выполняется сопоставление с известным целевым объектом. Происходит изучение, первичная обработка и структурирование наборов данных для выполнения требований перед публикацией в озере. Первичная обработка часто используется для менее формальных сценариев аналитики. Подготовленные наборы данных могут использоваться для преобразований и операций нисходящего машинного обучения.

Гибкая подготовка данных без написания программного кода

Интеграторы данных граждан тратят свыше 60 % времени на поиск и подготовку данных. Для повышения производительности работы это необходимо сделать без написания программного кода. Если предоставить интеграторам данных граждан возможность накапливать, формировать и публиковать данные с использованием знакомых инструментов, таких как онлайн-редактор Power Query, производительность их работы существенно повысится масштабируемым образом. Первичная обработка данных в Фабрике данных Azure позволяет использовать привычный гибридный онлайн-редактор Power Query для быстрого исправления ошибок, стандартизации данных и создания высококачественных данных для поддержки бизнес-решений.

Проверка и исследование данных

Визуальная проверка данных без написания программного кода для удаления выбросов, аномалий и приведения данных в состояние, пригодное для быстрой аналитики.

Поддерживаемые источники

Соединитель Формат данных Тип аутентификации
Хранилище BLOB-объектов Azure CSV, Parquet, Excel Ключ учетной записи, субъект-служба, MSI
Azure Data Lake Storage 1-го поколения CSV, Parquet, Excel Субъект-служба, MSI
Azure Data Lake Storage 2-го поколения CSV, Parquet, Excel Ключ учетной записи, субъект-служба, MSI
База данных SQL Azure - Проверка подлинности SQL, MSI, субъект-служба
Azure Synapse Analytics - Проверка подлинности SQL, MSI, субъект-служба

Гибридный редактор

При создании действия Power Query все исходные наборы данных становятся запросами к набору данных и помещаются в папку ADFResource. По умолчанию UserQuery будет указывать на первый запрос к набору данных. Все преобразования необходимо осуществлять с UserQuery, потому что изменения запросов к наборам данных не поддерживаются и не будут сохраняться. Переименование, добавление и удаление запросов сейчас не поддерживается.

Первичная обработка

В настоящее время для первичной обработки данных поддерживаются не все функции Power Query M, хотя они все доступны при разработке. Если функция не поддерживается, то при создании действий Power Query отобразится следующее сообщение об ошибке:

The Power Query Spark Runtime does not support the function

Дополнительные сведения о поддерживаемых преобразованиях см. в статье Функции первичной обработки данных в Power Query.

Узнайте, как создать гибридную комбинированную функцию Power Query для первичной обработки данных.