Обучение моделей машинного обучения

Статья
11/15/2023

Apache Spark в Microsoft Fabric позволяет машинному обучению с большими данными, предоставляя возможность получать ценные сведения от больших объемов структурированных, неструктурированных и быстро перемещаемых данных. Существует несколько вариантов обучения моделей машинного обучения с помощью Apache Spark в Microsoft Fabric: Apache Spark MLlib, SynapseML и различных других библиотек с открытым кодом.

Apache SparkML и MLlib

Apache Spark в Microsoft Fabric предоставляет унифицированную, параллельную платформу обработки данных с открытым кодом, поддерживающую обработку в памяти для повышения аналитики больших данных. Подсистема обработки Spark призвана ускорить разработку, повысить удобство использования и реализовать сложную аналитику. Возможности распределенного вычисления в памяти Spark отлично подходят для итеративных алгоритмов, используемых в машинном обучении и графовых вычислениях.

Существуют двt масштабируемых библиотеки машинного обучения Spark, которые предоставляют возможности алгоритмического моделирования для этой распределенной среды: SparkM и MLlib. MLlib содержит исходный API, созданный на основе RDD. SparkML — это новый пакет, который предоставляет API более высокого уровня, созданный поверх кадров данных для построения конвейеров машинного обучения. SparkML поддерживает не все возможности MLlib, но заменяет MLlib в качестве стандартной библиотеки машинного обучения Spark.

Примечание.

Дополнительные сведения о создании модели SparkML см. в статье "Обучение моделей с помощью Apache Spark MLlib".

SynapseML

SynapseML (ранее известный как MMLSpark) — это библиотека с открытым кодом, которая упрощает создание конвейеров машинного обучения (ML). Эта библиотека предназначена для оптимизации работы специалистов по обработке и анализу данных в Spark, ускоренной реализации экспериментов и использования самых современных методов машинного обучения, включая глубокое обучение, на больших наборах данных.

SynapseML предоставляет уровень поверх низкоуровневых API SparkML при создании масштабируемых моделей машинного обучения, таких как индексирование строк, принудительное преобразование данных в макет, ожидаемый алгоритмами машинного обучения, и сборка векторов функций. Библиотека SynapseML упрощает эти и другие распространенные задачи для создания моделей в PySpark.

В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в Apache Spark в Microsoft Fabric. Дополнительные сведения об обучении модели см. в следующих учебниках:

Использование примеров ИИ для создания моделей машинного обучения: использование примеров ИИ
Отслеживание запусков машинного обучения с помощью экспериментов: эксперименты машинного обучения

Обучение моделей машинного обучения

Apache SparkML и MLlib

Популярные библиотеки

SynapseML

Обратная связь

Обратная связь

Дополнительные ресурсы

Обучение моделей машинного обучения

Apache SparkML и MLlib

Популярные библиотеки

SynapseML

Связанный контент

Обратная связь

Обратная связь

Дополнительные ресурсы