Обучение моделей машинного обучения

Apache Spark в Microsoft Fabric позволяет машинному обучению с большими данными, предоставляя возможность получать ценные сведения от больших объемов структурированных, неструктурированных и быстро перемещаемых данных. Существует несколько вариантов обучения моделей машинного обучения с помощью Apache Spark в Microsoft Fabric: Apache Spark MLlib, SynapseML и различных других библиотек с открытым кодом.

Apache SparkML и MLlib

Apache Spark в Microsoft Fabric предоставляет унифицированную, параллельную платформу обработки данных с открытым кодом, поддерживающую обработку в памяти для повышения аналитики больших данных. Подсистема обработки Spark призвана ускорить разработку, повысить удобство использования и реализовать сложную аналитику. Возможности распределенного вычисления в памяти Spark отлично подходят для итеративных алгоритмов, используемых в машинном обучении и графовых вычислениях.

Существуют двt масштабируемых библиотеки машинного обучения Spark, которые предоставляют возможности алгоритмического моделирования для этой распределенной среды: SparkM и MLlib. MLlib содержит исходный API, созданный на основе RDD. SparkML — это новый пакет, который предоставляет API более высокого уровня, созданный поверх кадров данных для построения конвейеров машинного обучения. SparkML поддерживает не все возможности MLlib, но заменяет MLlib в качестве стандартной библиотеки машинного обучения Spark.

Примечание.

Дополнительные сведения о создании модели SparkML см. в статье "Обучение моделей с помощью Apache Spark MLlib".

Среда выполнения Microsoft Fabric для Apache Spark включает несколько популярных пакетов с открытым кодом для моделей машинного обучения. Эти библиотеки предоставляют многократно используемый код, который вы можете включить в программы или проекты. Ниже перечислен ряд актуальных библиотек машинного обучения, которые включены в этот набор по умолчанию.

  • Scikit-learn — это одна из самых популярных библиотек машинного обучения с одним узлом для классических алгоритмов машинного обучения. Scikit-learn поддерживает большинство контролируемых и неконтролируемых алгоритмов обучения, которые также можно использовать для интеллектуального и обычного анализа данных.

  • XGBoost — это популярная библиотека машинного обучения с оптимизированными алгоритмами для обучения деревьев принятия решений и случайных лесов.

  • PyTorch и Tensorflow — это мощные библиотеки глубокого обучения Python. Эти библиотеки можно использовать для создания моделей с одним компьютером, задав количество исполнителей в пуле равным нулю. Несмотря на то, что Apache Spark не работает с этой конфигурацией, это простой и экономичный способ создания моделей с одним компьютером.

SynapseML

SynapseML (ранее известный как MMLSpark) — это библиотека с открытым кодом, которая упрощает создание конвейеров машинного обучения (ML). Эта библиотека предназначена для оптимизации работы специалистов по обработке и анализу данных в Spark, ускоренной реализации экспериментов и использования самых современных методов машинного обучения, включая глубокое обучение, на больших наборах данных.

SynapseML предоставляет уровень поверх низкоуровневых API SparkML при создании масштабируемых моделей машинного обучения, таких как индексирование строк, принудительное преобразование данных в макет, ожидаемый алгоритмами машинного обучения, и сборка векторов функций. Библиотека SynapseML упрощает эти и другие распространенные задачи для создания моделей в PySpark.

В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в Apache Spark в Microsoft Fabric. Дополнительные сведения об обучении модели см. в следующих учебниках: