Возможности машинного обучения в Azure Synapse Analytics

2025-01-02

Azure Synapse Analytics предлагает различные возможности машинного обучения. В этой статье приводятся общие сведения о том, как можно применить Машинное обучение в контексте Azure Synapse.

В данном обзоре различные возможности Synapse, связанные с машинным обучением, рассматриваются с точки зрения процесса обработки и анализа данных.

Возможно, вы знакомы с тем, как выглядит типичный процесс обработки и анализа данных. Это хорошо известный процесс, который применяется в большинстве проектов машинного обучения.

В целом процесс состоит из следующих шагов:

Анализ бизнес-процессов (не рассматривается в этой статье)
Получение и изучение данных
Моделирование
Развертывание модели и ее оценка

В этой статье описываются возможности использования машинного обучения Azure Synapse в различных подсистемах аналитики с точки зрения процесса обработки и анализа данных. Здесь вкратце описаны возможности Azure Synapse, которые могут помочь на каждом этапе процесса обработки и анализа данных.

Получение и изучение данных

Большинство проектов машинного обучения состоят из четко установленных шагов, один из которых — доступ к данным и их понимание.

Источник данных и конвейеры

Благодаря Фабрика данных Azure, встроенной в Azure Synapse, есть мощный набор средств, доступных для приема данных и конвейеров оркестрации данных. Это позволяет легко создавать конвейеры данных для доступа к ним и их преобразования в формат, который можно использовать для машинного обучения. Узнайте больше о конвейерах данных в Synapse.

Подготовка и просмотр или визуализация данных

Важной частью процесса машинного обучения является понимание данных путем их изучения и визуализации.

В зависимости от места хранения данных Synapse предлагает набор различных средств для их исследования и подготовки к анализу и машинному обучению. Один из способов, позволяющих максимально быстро приступить к исследованию данных, заключается в использовании Apache Spark или бессерверных пулов SQL непосредственно для данных в озере данных.

Apache Spark для Azure Synapse предоставляет возможности преобразования, подготовки и исследования данных в большом масштабе. Эти пулы Spark предлагают такие средства, как PySpark/Python, Scala и .NET для обработки данных в большом масштабе. С помощью эффективных библиотек визуализации можно улучшить процесс исследования данных, чтобы лучше понять их суть. Узнайте больше о том, как исследовать и визуализировать данные в Synapse с помощью Spark.
Бессерверные пулы SQL обеспечивают возможность изучения данных путем непосредственного применения TSQL к озеру данных. Бессерверные пулы SQL также предлагают встроенные визуализации в Synapse Studio. Узнайте больше о том, как исследовать данные с помощью бессерверных пулов SQL.

Моделирование

В Azure Synapse обучающие модели машинного обучения можно выполнять на пулах Apache Spark с помощью таких средств, как PySpark/Python, Scala или .NET.

Обучение моделей в пулах Spark с помощью MLlib

Модели машинного обучения можно обучать с помощью различных алгоритмов и библиотек. Spark MLlib предлагает масштабируемые алгоритмы машинного обучения, которые могут помочь в решении наиболее типичных проблем в этой сфере. Руководство по обучению модели с помощью MLlib в Synapse см. в статье Создание приложения машинного обучения с помощью Apache Spark MLlib и Azure Synapse Analytics.

Помимо MLlib для разработки моделей можно также использовать такие популярные библиотеки, как Scikit Learn. Дополнительные сведения об установке библиотек в пулах Synapse Spark см. в статье Управление библиотеками для Apache Spark в Azure Synapse Analytics.

Развертывание модели и ее оценка

Модели, обученные в службе Azure Synapse или за ее пределами, можно легко использовать для пакетной оценки. В настоящее время пакетную оценку в Synapse можно выполнить двумя способами.

Вы можете использовать функцию TSQL PREDICT в пулах Synapse SQL, чтобы выполнять прогнозирование непосредственно там, где находятся ваши данные. Эта эффективная и масштабируемая функция позволяет обогатить данные без их перемещения из хранилища данных. В Synapse Studio был представлен новый управляемый интерфейс для моделей машинного обучения, с помощью которого можно развернуть модель ONNX из реестра моделей Машинного обучения Azure в пулах Synapse SQL для пакетной оценки с помощью функции PREDICT.
Другим вариантом пакетного оценки моделей машинного обучения в Azure Synapse является использование пулов Apache Spark для Azure Synapse. В зависимости от библиотек, используемых для обучения моделей, для выполнения пакетной оценки можно использовать возможности кода.

SynapseML

SynapseML (прежнее название — MMLSpark) — это библиотека с открытым кодом, которая упрощает создание конвейеров машинного обучения с активным масштабированием. Это экосистема инструментов, используемых для расширения платформы Apache Spark в нескольких новых направлениях. SynapseML объединяет ряд существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API, доступный в Python, R, Scala, .NET и Java. Дополнительные сведения см. в разделе Основные возможности SynapseML.

Поделиться через