Поделиться через


Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Azure Machine Learning Studio (classic) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Machine Learning Studio (classic) — рабочая область и план веб-службы. До 31 августа 2024 года вы можете продолжать использовать существующие эксперименты в Machine Learning Studio (Classic) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Обзор

В этой статье объясняются действия по преобразованию данных в Фабрике данных Azure и конвейерах Synapse, с помощью которых можно преобразовывать необработанные данные в прогнозные и аналитические данные в большом масштабе. Действие по преобразованию выполняется в вычислительной среде, например в Azure Databricks или Azure HDInsight. Статья содержит ссылки на статьи с подробными сведениями о каждом действии преобразования.

Служба поддерживает следующие операции преобразования данных, которые вы можете добавлять в конвейеры как по отдельности, так и в цепочке с другой операцией.

Преобразование непосредственно в среде Azure Data Factory и Azure Synapse Analytics, используя потоки данных

Сопоставление потоков данных

Потоки данных для сопоставления — это визуально спроектированные преобразования данных в Фабрике данных Azure и Azure Synapse. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования графических данных без написания кода. Результирующие потоки информации выполняются как задачи в конвейерах, использующих кластеры Spark с горизонтальным масштабированием. Действия потока данных можно операционализировать через имеющиеся возможности планирования, управления, потока и мониторинга в рамках службы. Дополнительные сведения см. в статье Потоки данных для сопоставления.

Подготовка данных

Power Query в Фабрике данных Azure обеспечивает первичную обработку данных с облачным масштабированием, что позволяет интерактивно выполнять подготовку данных без кода в масштабе облака. Первичная обработка данных объединяется с Power Query Online и делает функции Power Query M доступными для первичной обработки данных в масштабе облака с помощью выполнения Spark. Дополнительную информацию см. в разделе Обработка данных в Azure Data Factory.

Примечание.

Power Query в настоящее время поддерживается только в Фабрике данных Azure, а не в Azure Synapse. Список конкретных функций, поддерживаемых в каждой службе, см. в статье Доступные функции в Фабрике данных Azure и конвейерах Azure Synapse Analytics.

Внешние преобразования

Если необходимо, можно самостоятельно вручную написать код для преобразования и управления внешней вычислительной средой.

Действие Hive HDInsight

Действие Hive HDInsight в конвейере выполняет запросы Hive к вашему собственному кластеру HDInsight или развертываемому по запросу кластеру HDInsight, под управлением Windows или Linux. Дополнительные сведения об этой активности см. в статье Hive activity.

Действие HDInsight с использованием Pig

Действие Pig HDInsight в конвейере выполняет запросы Pig к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Для получения дополнительных сведений об этом действии см. статью Активность Pig.

Деятельность MapReduce в HDInsight

Действие MapReduce HDInsight в потоке выполняет программы MapReduce в вашем собственном кластере HDInsight или в кластере по запросу на базе Windows или Linux. Статью Операция MapReduce см. для подробной информации об этом действии.

Действие потоковой передачи HDInsight

Действие потоковой передачи HDInsight в конвейере выполняет программы потоковой передачи Hadoop для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этой активности см. в разделе Потоковая активность HDInsight.

Активность HDInsight Spark

Действие HDInsight Spark в конвейере выполняет программы Spark в вашем кластере HDInsight. Дополнительные сведения см. в разделе Вызов программ Spark с помощью Azure Data Factory или Azure Synapse Analytics.

Действия Студии машинного обучения (классической)

Внимание

Поддержка Azure Machine Learning Studio (classic) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Machine Learning Studio (classic) — рабочая область и план веб-службы. До 31 августа 2024 года вы можете продолжать использовать существующие эксперименты в Machine Learning Studio (Classic) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Служба позволяет легко создавать конвейеры, использующие опубликованную веб-службу "Студия машинного обучения (классическая)" для прогнозной аналитики. С помощью действия Batch Execution в конвейере можно вызывать веб-службу Studio (classic) для создания прогнозов на данные в пакетном режиме.

Со временем прогнозные модели из экспериментов оценки в Studio (классическая версия) потребуют повторного обучения с помощью новых наборов входных данных. Когда повторное обучение будет завершено, вам потребуется обновить веб-службу оценки на основании обновленной модели машинного обучения. Чтобы обновить веб-службу новой обученной моделью, можно использовать операцию обновления ресурса.

Дополнительные сведения об этих действиях Студии (классическая) см. в статье Использование действий Студии машинного обучения (классической).

Деятельность хранимой процедуры

C помощью действия хранимой процедуры SQL Server в конвейере Фабрики данных можно вызвать хранимую процедуру одного из следующих хранилищ данных: База данных SQL Azure, Azure Synapse Analytics, База данных SQL Server на предприятии или в виртуальной машине Azure. См. статью Действие хранимой процедуры для получения подробной информации.

Операция U-SQL в Data Lake Analytics

Действие U-SQL в Data Lake Analytics выполняет скрипт U-SQL в кластере Azure Data Lake Analytics. См. статью о действиях U-SQL анализа данных для получения подробной информации.

Действие блокнота в Azure Synapse

Деятельность блокнота Azure Synapse в конвейере Synapse запускает блокнот в рабочей области Azure Synapse. См. статью Преобразование данных с помощью записной книжки Azure Synapse.

Действие в Databricks Notebook

Задача ноутбука Azure Databricks в конвейере обработки данных запускает записную книжку Databricks в рабочей области Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью записной книжки Databricks.

Действие JAR в Databricks

Действие Jar Azure Databricks в рамках конвейера позволяет запускать файл Spark Jar в вашем кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Jar в Azure Databricks.

Действие Python в Databricks

Активность конвейера Python в Azure Databricks позволяет запустить файл Python в вашем кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Python в Azure Databricks.

Настраиваемое действие

Если вам нужно преобразовать данные способом, который не поддерживается фабрикой данных Azure, то можно создать настраиваемое действие с собственной логикой обработки данных и использовать это действие в конвейере. Можно настроить запуск настраиваемого действия .NET с помощью пакетной службы Azure или кластера HDInsight. Дополнительные сведения см. в статье Использование настраиваемых действий.

Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. Ознакомьтесь с примером на странице Запуск сценария R с помощью конвейеров Фабрики данных Azure и Synapse.

Вычислительные среды

Вы создаете связанную службу для среды вычислений, а затем используете эту службу при определении действия преобразования. Имеется два поддерживаемых типа вычислительных сред.

  • По требованию: в этом случае вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете настраивать и изменять для вычислительной среды "по требованию" детализированные параметры выполнения задания, управления кластером и действий начальной загрузки.
  • Собственная: в этом случае вы регистрируете собственную вычислительную среду (например, кластер HDInsight) и используете ее в качестве связанной службы. Вы будете управлять средой вычислений, а служба — использовать ее для выполнения действий.

В статье Связанные службы вычислений описываются поддерживаемые службы вычислений.

Пример использования действия преобразования см. в следующем руководстве: Руководство: преобразование данных с помощью Spark.