Глубокое обучение (не рекомендуется)

2025-06-05

Apache Spark в Azure Synapse Analytics позволяет выполнять машинное обучение с помощью больших данных, предоставляя возможность получить ценные сведения из больших объемов структурированных, неструктурированных и быстро меняющихся данных. Существует несколько вариантов, которые можно использовать для обучения моделей машинного обучения с помощью Azure Spark в Azure Synapse Analytics: Apache Spark MLlib, Машинное обучение Azure и большое количество других библиотек с исходным кодом.

Примечание.

Предварительная версия пулов с поддержкой GPU Azure Synapse теперь устарела.

Пулы Apache Spark с поддержкой GPU

Чтобы упростить создание пулов и управление ими, Azure Synapse предварительно устанавливает низкоуровневые библиотеки и настраивает все сложные сетевые требования между разными вычислительными узлами. Эта интеграция позволяет пользователям начать работу с пулами с ускорением GPU всего за несколько минут.

Примечание.

Пулы с ускорением GPU можно создавать в рабочих областях, расположенных в регионах "Восточная часть США", "Восточная Австралия" и "Северная Европа".
Пулы с ускорением GPU доступны только в среде выполнения Apache Spark 3.1 (не рекомендуется) и 3.2 (не рекомендуется).
Чтобы создать кластеры с поддержкой GPU, возможно, потребуется запросить увеличение предельного значения.

Среда ML GPU

Azure Synapse Analytics предоставляет встроенную поддержку инфраструктуры глубокого обучения. Среды выполнения Azure Synapse Analytics для Apache Spark 3 включают поддержку самых распространенных библиотек глубокого обучения, таких как TensorFlow и PyTorch. Среда выполнения Azure Synapse также включает вспомогательные библиотеки, такие как Petastorm и Horovod, которые обычно используются для распределенного обучения.

ТензорФлоу

TensorFlow — это платформа машинного обучения с открытым кодом для всех разработчиков. Она используется для реализации приложений машинного обучения и глубокого обучения.

Дополнительные сведения о TensorFlow см. в документации по API TensorFlow.

PyTorch

PyTorch — это оптимизированная библиотека тензоров для глубокого обучения с помощью GPU и ЦП.

Дополнительные сведения о PyTorch приведены в документации по PyTorch.

Хоровод

Horovod — это платформа распределенного глубокого обучения, которая предназначена для работы с TensorFlow, Keras и PyTorch. Платформа Horovod была разработана для обеспечения быстроты, простоты и удобства глубокого обучения. С ее помощью существующий скрипт обучения можно масштабировать для запуска на сотнях GPU всего в нескольких строках кода. Кроме того, Horovod может работать поверх Apache Spark, что позволяет унифицировать обработку данных и обучение модели в едином конвейере.

Дополнительные сведения о выполнении распределенных заданий обучения в Azure Synapse Analytics см. в следующих руководствах. Руководство. Распределенное обучение с помощью Horovod и PyTorch - Tutorial: Распределенное обучение с помощью Horovod и TensorFlow

Дополнительные сведения о платформе Horovod приведены в документации по Horovod.

Петасторм

Petastorm — это библиотека доступа к данным с открытым кодом, которая обеспечивает одноузловое или распределенное обучение моделей глубокого обучения. Эта библиотека позволяет проводить обучение непосредственно на наборах данных в формате Apache Parquet и на наборах данных, которые уже были загружены в качестве кадра данных (DataFrame) Apache Spark. Petastorm поддерживает популярные платформы обучения, такие как TensorFlow и PyTorch.

Дополнительные сведения о Petastorm см. на странице GitHub Petastorm и в документации по API Petastorm.

Следующие шаги

В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в пулах Apache Spark в Azure Synapse Analytics. Дополнительные сведения об обучении модели см. в следующих учебниках:

Выполнение экспериментов SparkML: Учебник по Apache SparkML
Ускорение рабочих нагрузок ETL с помощью RAPIDS: Apache Spark Rapids