Преобразование данных в Фабрике данных Azure и Azure Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Внимание

Поддержка Azure Machine Learning Studio (classic) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Machine Learning Studio (classic) — рабочая область и план веб-службы. До 31 августа 2024 года вы можете продолжать использовать существующие эксперименты в Machine Learning Studio (Classic) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Обзор

В этой статье объясняются действия по преобразованию данных в Фабрике данных Azure и конвейерах Synapse, с помощью которых можно преобразовывать необработанные данные в прогнозные и аналитические данные в большом масштабе. Действие по преобразованию выполняется в вычислительной среде, например в Azure Databricks или Azure HDInsight. Статья содержит ссылки на статьи с подробными сведениями о каждом действии преобразования.

Служба поддерживает следующие операции преобразования данных, которые вы можете добавлять в конвейеры как по отдельности, так и в цепочке с другой операцией.

Преобразование непосредственно в среде Azure Data Factory и Azure Synapse Analytics, используя потоки данных

Сопоставление потоков данных

Потоки данных для сопоставления — это визуально спроектированные преобразования данных в Фабрике данных Azure и Azure Synapse. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования графических данных без написания кода. Результирующие потоки информации выполняются как задачи в конвейерах, использующих кластеры Spark с горизонтальным масштабированием. Действия потока данных можно операционализировать через имеющиеся возможности планирования, управления, потока и мониторинга в рамках службы. Дополнительные сведения см. в статье Потоки данных для сопоставления.

Подготовка данных

Power Query в Фабрике данных Azure обеспечивает первичную обработку данных с облачным масштабированием, что позволяет интерактивно выполнять подготовку данных без кода в масштабе облака. Первичная обработка данных объединяется с Power Query Online и делает функции Power Query M доступными для первичной обработки данных в масштабе облака с помощью выполнения Spark. Дополнительную информацию см. в разделе Обработка данных в Azure Data Factory.

Примечание.

Power Query в настоящее время поддерживается только в Фабрике данных Azure, а не в Azure Synapse. Список конкретных функций, поддерживаемых в каждой службе, см. в статье Доступные функции в Фабрике данных Azure и конвейерах Azure Synapse Analytics.

Внешние преобразования

Если необходимо, можно самостоятельно вручную написать код для преобразования и управления внешней вычислительной средой.

Действие Hive HDInsight

Действие Hive HDInsight в конвейере выполняет запросы Hive к вашему собственному кластеру HDInsight или развертываемому по запросу кластеру HDInsight, под управлением Windows или Linux. Дополнительные сведения об этой активности см. в статье Hive activity.

Действие HDInsight с использованием Pig

Действие Pig HDInsight в конвейере выполняет запросы Pig к вашему собственному кластеру HDInsight или кластеру HDInsight по запросу под управлением Windows или Linux. Для получения дополнительных сведений об этом действии см. статью Активность Pig.

Деятельность MapReduce в HDInsight

Действие MapReduce HDInsight в потоке выполняет программы MapReduce в вашем собственном кластере HDInsight или в кластере по запросу на базе Windows или Linux. Статью Операция MapReduce см. для подробной информации об этом действии.

Действие потоковой передачи HDInsight

Действие потоковой передачи HDInsight в конвейере выполняет программы потоковой передачи Hadoop для вашего собственного кластера HDInsight или кластера HDInsight по запросу под управлением Windows или Linux. Дополнительные сведения об этой активности см. в разделе Потоковая активность HDInsight.

Активность HDInsight Spark

Действие HDInsight Spark в конвейере выполняет программы Spark в вашем кластере HDInsight. Дополнительные сведения см. в разделе Вызов программ Spark с помощью Azure Data Factory или Azure Synapse Analytics.

Действия Студии машинного обучения (классической)

Внимание

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

Служба позволяет легко создавать конвейеры, использующие опубликованную веб-службу "Студия машинного обучения (классическая)" для прогнозной аналитики. С помощью действия Batch Execution в конвейере можно вызывать веб-службу Studio (classic) для создания прогнозов на данные в пакетном режиме.

Со временем прогнозные модели из экспериментов оценки в Studio (классическая версия) потребуют повторного обучения с помощью новых наборов входных данных. Когда повторное обучение будет завершено, вам потребуется обновить веб-службу оценки на основании обновленной модели машинного обучения. Чтобы обновить веб-службу новой обученной моделью, можно использовать операцию обновления ресурса.

Дополнительные сведения об этих действиях Студии (классическая) см. в статье Использование действий Студии машинного обучения (классической).

Деятельность хранимой процедуры

C помощью действия хранимой процедуры SQL Server в конвейере Фабрики данных можно вызвать хранимую процедуру одного из следующих хранилищ данных: База данных SQL Azure, Azure Synapse Analytics, База данных SQL Server на предприятии или в виртуальной машине Azure. См. статью Действие хранимой процедуры для получения подробной информации.

Операция U-SQL в Data Lake Analytics

Действие U-SQL в Data Lake Analytics выполняет скрипт U-SQL в кластере Azure Data Lake Analytics. См. статью о действиях U-SQL анализа данных для получения подробной информации.

Действие блокнота в Azure Synapse

Деятельность блокнота Azure Synapse в конвейере Synapse запускает блокнот в рабочей области Azure Synapse. См. статью Преобразование данных с помощью записной книжки Azure Synapse.

Действие в Databricks Notebook

Задача ноутбука Azure Databricks в конвейере обработки данных запускает записную книжку Databricks в рабочей области Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью записной книжки Databricks.

Действие JAR в Databricks

Действие Jar Azure Databricks в рамках конвейера позволяет запускать файл Spark Jar в вашем кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Jar в Azure Databricks.

Действие Python в Databricks

Активность конвейера Python в Azure Databricks позволяет запустить файл Python в вашем кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью выполнения действий Python в Azure Databricks.

Настраиваемое действие

Если вам нужно преобразовать данные способом, который не поддерживается фабрикой данных Azure, то можно создать настраиваемое действие с собственной логикой обработки данных и использовать это действие в конвейере. Можно настроить запуск настраиваемого действия .NET с помощью пакетной службы Azure или кластера HDInsight. Дополнительные сведения см. в статье Использование настраиваемых действий.

Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. Ознакомьтесь с примером на странице Запуск сценария R с помощью конвейеров Фабрики данных Azure и Synapse.

Вычислительные среды

Вы создаете связанную службу для среды вычислений, а затем используете эту службу при определении действия преобразования. Имеется два поддерживаемых типа вычислительных сред.

По требованию: в этом случае вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете настраивать и изменять для вычислительной среды "по требованию" детализированные параметры выполнения задания, управления кластером и действий начальной загрузки.
Собственная: в этом случае вы регистрируете собственную вычислительную среду (например, кластер HDInsight) и используете ее в качестве связанной службы. Вы будете управлять средой вычислений, а служба — использовать ее для выполнения действий.

В статье Связанные службы вычислений описываются поддерживаемые службы вычислений.

Пример использования действия преобразования см. в следующем руководстве: Руководство: преобразование данных с помощью Spark.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-26