Преобразование данных в Фабрика данных Azure и Azure Synapse Analytics

ПРИМЕНИМО К: Фабрика данных Azure Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Фабрика данных Azure с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

Внимание

Поддержка Azure Machine Learning Studio (классическая версия) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые Machine Learning Studio (классические) ресурсы (рабочая область и план веб-службы). До 31 августа 2024 г. можно продолжать использовать существующие Machine Learning Studio (классические) эксперименты и веб-службы. Дополнительные сведения см. в разделе:

Документация Machine Learning Studio (classic) снимается с поддержки и может не обновляться в будущем.

Обзор

В этой статье описываются действия преобразования данных в конвейерах Фабрика данных Azure и Synapse, которые можно использовать для преобразования и обработки необработанных данных в прогнозы и аналитические сведения в масштабе. Действие преобразования выполняется в вычислительной среде, например Azure Databricks или Azure HDInsight. Статья содержит ссылки на статьи с подробными сведениями о каждом действии преобразования.

Служба поддерживает следующие операции преобразования данных, которые вы можете добавлять в конвейеры как по отдельности, так и в цепочке с другой операцией.

Преобразовывайте данные нативным образом в Фабрика данных Azure и Azure Synapse Analytics с помощью потоков данных.

Сопоставление потоков данных

Сопоставление потоков данных визуально разработано для трансформации данных в Фабрика данных Azure и Azure Synapse. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования графических данных без написания кода. Результирующие потоки информации выполняются как задачи в конвейерах, использующих кластеры Spark с горизонтальным масштабированием. Действия потока данных можно операционализировать через имеющиеся возможности планирования, управления, потока и мониторинга в рамках службы. Дополнительные сведения см. в статье Потоки данных для сопоставления.

Подготовка данных

Power Query в Фабрика данных Azure позволяет выполнять обработку данных в масштабе облака, что позволяет выполнять подготовку данных без кода в масштабе облака итеративно. Обработка данных интегрируется с Power Query Online и обеспечивает доступ к функциям M Power Query для обработки данных в облачных масштабах через выполнение Spark. Для получения дополнительной информации см. обработку данных в Фабрика данных Azure.

Примечание.

в настоящее время Power Query поддерживается только в Фабрика данных Azure, а не в Azure Synapse. Для получения списка конкретных функций, поддерживаемых в каждой службе, см. в разделе Доступные функции в потоках данных Фабрика данных Azure и Azure Synapse Analytics.

Внешние преобразования

Если необходимо, можно самостоятельно вручную написать код для преобразования и управления внешней вычислительной средой.

Действие Hive HDInsight

Действие HDInsight Hive в конвейере выполняет запросы Hive на вашем собственном кластере HDInsight на базе Windows/Linux или по запросу. Дополнительные сведения об этой активности см. в статье Hive activity.

Действие HDInsight с использованием Pig

Действие HDInsight Pig в конвейере выполняет запросы Pig либо на собственном, либо на развертываемом по запросу кластере HDInsight на базе Windows или Linux. Для получения дополнительных сведений об этом действии см. статью Активность Pig.

Деятельность MapReduce в HDInsight

Действие HDInsight MapReduce в конвейере выполняет программы MapReduce на вашем собственном кластере HDInsight или в кластере по требованию на базе Windows или Linux. Статью Операция MapReduce см. для подробной информации об этом действии.

Действие потоковой передачи HDInsight

Действие потоковой обработки HDInsight в конвейере выполняет потоковые программы Hadoop на вашем собственном кластере или на кластере HDInsight под управлением Windows/Linux по запросу. Дополнительные сведения об этой активности см. в разделе Потоковая активность HDInsight.

Активность HDInsight Spark

Действие HDInsight Spark в конвейере выполняет программы Spark в вашем кластере HDInsight. Дополнительные сведения см. в разделе Запуск программ Spark с использованием Фабрика данных Azure или Azure Synapse Analytics.

Действия Студии машинного обучения (классической)

Внимание

Документация Machine Learning Studio (classic) снимается с поддержки и может не обновляться в будущем.

Служба позволяет легко создавать конвейеры, использующие опубликованную веб-службу "Студия машинного обучения (классическая)" для прогнозной аналитики. С помощью действия Batch Execution в конвейере можно вызывать веб-службу Studio (classic) для создания прогнозов на данные в пакетном режиме.

Со временем прогнозные модели из экспериментов оценки в Studio (классическая версия) потребуют повторного обучения с помощью новых наборов входных данных. Когда повторное обучение будет завершено, вам потребуется обновить веб-службу оценки на основании обновленной модели машинного обучения. Чтобы обновить веб-службу новой обученной моделью, можно использовать операцию обновления ресурса.

Дополнительные сведения об этих действиях Студии (классическая) см. в статье Использование действий Студии машинного обучения (классической).

Деятельность хранимой процедуры

Вы можете использовать действие хранимой процедуры SQL Server в конвейере Data Factory, чтобы вызвать хранимую процедуру в одном из следующих хранилищ данных: База данных SQL Azure, Azure Synapse Analytics, SQL Server базы данных в вашей организации или на виртуальной машине Azure. См. статью Действие хранимой процедуры для получения подробной информации.

Действие записной книжки в Azure Synapse

Действие Azure Synapse Notebook в конвейере Synapse запускает блокнот Synapse в рабочей области Azure Synapse. Смотрите Преобразование данных с помощью выполнения записной книжки Azure Synapse.

Действие в Databricks Notebook

Операция Azure Databricks Notebook в производственном процессе запускает записную книжку Databricks в рабочем пространстве Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. раздел Преобразование данных с помощью записной книжки Databricks.

Действие JAR в Databricks

Действие jar Azure Databricks в конвейере запускает Jar-файл Spark в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. Преобразование данных с помощью выполнения Jar-активности в Azure Databricks.

Действие Python для Databricks

Действие Azure Databricks Python в конвейере запускает файл Python в кластере Azure Databricks. Azure Databricks — это управляемая платформа для запуска Apache Spark. См. Преобразование данных с помощью выполнения Python-активности в Azure Databricks.

Настраиваемое действие

Если вам нужно преобразовать данные способом, который не поддерживается фабрикой данных Azure, то можно создать настраиваемое действие с собственной логикой обработки данных и использовать это действие в конвейере. Можно настроить настраиваемое действие .NET для выполнения с помощью службы пакетная служба Azure или кластера Azure HDInsight. Дополнительные сведения см. в статье Использование настраиваемых действий.

Можно создать настраиваемое действие для выполнения сценариев R в кластере HDInsight, где установлена среда R. См. раздел Run R Script с помощью конвейеров Фабрика данных Azure и Synapse.

Вычислительные среды

Вы создаете связанную службу для среды вычислений, а затем используете эту службу при определении действия преобразования. Имеется два поддерживаемых типа вычислительных сред.

По требованию: в этом случае вычислительная среда полностью управляется службой. Среда автоматически создается службой перед отправкой задания для обработки данных и удаляется после его выполнения. Вы можете настраивать и изменять для вычислительной среды "по требованию" детализированные параметры выполнения задания, управления кластером и действий начальной загрузки.
Собственная: в этом случае вы регистрируете собственную вычислительную среду (например, кластер HDInsight) и используете ее в качестве связанной службы. Вы будете управлять средой вычислений, а служба — использовать ее для выполнения действий.

В статье Связанные службы вычислений описываются поддерживаемые службы вычислений.

Пример использования действия преобразования см. в следующем руководстве: Руководство: преобразование данных с помощью Spark.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-06-03