Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Apache Spark — часть Microsoft Fabric — позволяет машинному обучению масштабироваться. Используйте его для получения аналитических сведений от больших объемов структурированных, неструктурированных и потоковых данных. Обучение моделей в Microsoft Fabric с помощью библиотек с открытым исходным кодом, таких как Apache Spark MLlib, SynapseML и другие.
Apache SparkML и MLlib
Apache Spark — часть Microsoft Fabric — это единая платформа параллельной обработки данных с открытым исходным кодом. Он использует обработку в памяти для ускорения аналитики больших данных. Spark создается для ускорения, простоты использования и расширенной аналитики. Распределенные вычисления в памяти Spark предназначены для итеративных алгоритмов машинного обучения и графов.
Масштабируемые библиотеки машинного обучения MLlib и SparkML позволяют использовать возможности алгоритмического моделирования в этой распределенной среде. MLlib предоставляет исходный API на основе RDD. SparkML — это новый пакет, предоставляющий API на основе DataFrame более высокого уровня для создания пайплайнов машинного обучения. Он предоставляет API более высокого уровня, построенный на основе кадров данных для создания конвейеров машинного обучения. SparkML пока не поддерживает все функции MLlib, но он заменяет MLlib в качестве стандартной библиотеки машинного обучения Spark.
Примечание.
Дополнительные сведения см. в разделе "Обучение моделей" с помощью Apache Spark MLlib.
Популярные библиотеки
Среда выполнения Microsoft Fabric для Apache Spark включает несколько популярных пакетов с открытым кодом для обучения моделей машинного обучения. Эти библиотеки предоставляют повторно используемый код для проектов. Среда выполнения включает следующие библиотеки машинного обучения:
Scikit-learn — популярная библиотека с одним узлом для классических алгоритмов машинного обучения. Он поддерживает большинство контролируемых и неконтролируемых алгоритмов и обрабатывает добычу данных и анализ данных.
XGBoost — популярная библиотека с оптимизированными алгоритмами для обучения деревьев принятия решений и случайных лесов.
PyTorch и Tensorflow — это мощные библиотеки глубокого обучения Python. С помощью этих библиотек можно задать количество исполнителей в пуле равным нулю, чтобы создать модели с одним компьютером. Хотя эта конфигурация не поддерживает Apache Spark, это простой и экономичный способ создания моделей с одним компьютером.
SynapseML
Библиотека с открытым кодом SynapseML (ранее известная как MMLSpark) помогает создавать масштабируемые конвейеры машинного обучения (ML). Он ускоряет экспериментирование и позволяет применять расширенные методы, включая глубокое обучение, к большим наборам данных.
SynapseML предоставляет уровень над низкоуровневыми API SparkML при создании масштабируемых моделей машинного обучения. Эти API охватывают индексирование строк, сборку вектора признаков, приведение данных в макеты, подходящие для алгоритмов машинного обучения и многое другое. Библиотека SynapseML упрощает эти и другие распространенные задачи для создания моделей в PySpark.
Связанный контент
Ознакомьтесь с параметрами обучения моделей машинного обучения в Apache Spark в Microsoft Fabric. Дополнительные сведения можно найти здесь
- Использование примеров ИИ для создания моделей машинного обучения: использование примеров ИИ
- Отслеживание запусков машинного обучения с помощью экспериментов: эксперименты машинного обучения