Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Apache Spark в Azure Synapse Analytics позволяет выполнять машинное обучение с помощью больших данных, предоставляя возможность получить ценные сведения из больших объемов структурированных, неструктурированных и быстро меняющихся данных. Существует несколько вариантов, которые можно использовать для обучения моделей машинного обучения с помощью Azure Spark в Azure Synapse Analytics: Apache Spark MLlib, Машинное обучение Azure и большое количество других библиотек с исходным кодом.
Примечание.
Предварительная версия пулов с поддержкой GPU Azure Synapse теперь устарела.
Пулы Apache Spark с поддержкой GPU
Чтобы упростить создание пулов и управление ими, Azure Synapse предварительно устанавливает низкоуровневые библиотеки и настраивает все сложные сетевые требования между разными вычислительными узлами. Эта интеграция позволяет пользователям начать работу с пулами с ускорением GPU всего за несколько минут.
Примечание.
- Пулы с ускорением GPU можно создавать в рабочих областях, расположенных в регионах "Восточная часть США", "Восточная Австралия" и "Северная Европа".
- Пулы с ускорением GPU доступны только в среде выполнения Apache Spark 3.1 (не рекомендуется) и 3.2 (не рекомендуется).
- Чтобы создать кластеры с поддержкой GPU, возможно, потребуется запросить увеличение предельного значения.
Среда ML GPU
Azure Synapse Analytics предоставляет встроенную поддержку инфраструктуры глубокого обучения. Среды выполнения Azure Synapse Analytics для Apache Spark 3 включают поддержку самых распространенных библиотек глубокого обучения, таких как TensorFlow и PyTorch. Среда выполнения Azure Synapse также включает вспомогательные библиотеки, такие как Petastorm и Horovod, которые обычно используются для распределенного обучения.
ТензорФлоу
TensorFlow — это платформа машинного обучения с открытым кодом для всех разработчиков. Она используется для реализации приложений машинного обучения и глубокого обучения.
Дополнительные сведения о TensorFlow см. в документации по API TensorFlow.
PyTorch
PyTorch — это оптимизированная библиотека тензоров для глубокого обучения с помощью GPU и ЦП.
Дополнительные сведения о PyTorch приведены в документации по PyTorch.
Хоровод
Horovod — это платформа распределенного глубокого обучения, которая предназначена для работы с TensorFlow, Keras и PyTorch. Платформа Horovod была разработана для обеспечения быстроты, простоты и удобства глубокого обучения. С ее помощью существующий скрипт обучения можно масштабировать для запуска на сотнях GPU всего в нескольких строках кода. Кроме того, Horovod может работать поверх Apache Spark, что позволяет унифицировать обработку данных и обучение модели в едином конвейере.
Дополнительные сведения о выполнении распределенных заданий обучения в Azure Synapse Analytics см. в следующих руководствах. Руководство. Распределенное обучение с помощью Horovod и PyTorch - Tutorial: Распределенное обучение с помощью Horovod и TensorFlow
Дополнительные сведения о платформе Horovod приведены в документации по Horovod.
Петасторм
Petastorm — это библиотека доступа к данным с открытым кодом, которая обеспечивает одноузловое или распределенное обучение моделей глубокого обучения. Эта библиотека позволяет проводить обучение непосредственно на наборах данных в формате Apache Parquet и на наборах данных, которые уже были загружены в качестве кадра данных (DataFrame) Apache Spark. Petastorm поддерживает популярные платформы обучения, такие как TensorFlow и PyTorch.
Дополнительные сведения о Petastorm см. на странице GitHub Petastorm и в документации по API Petastorm.
Следующие шаги
В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в пулах Apache Spark в Azure Synapse Analytics. Дополнительные сведения об обучении модели см. в следующих учебниках:
- Выполнение экспериментов SparkML: Учебник по Apache SparkML
- Ускорение рабочих нагрузок ETL с помощью RAPIDS: Apache Spark Rapids