Знакомство с машинным обучением Spark в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

В этой статье объясняется, как эффективно использовать Spark для машинного обучения в кластерах больших данных SQL Server.

Машинное обучение Spark в кластерах больших данных SQL Server

Кластеры больших данных SQL Server позволяют сценариям машинного обучения и решениям с помощью различных стеков технологий: служб машинного обучения SQL Server и Apache Spark ML.

Чтобы лучше понять, когда следует использовать каждый стек технологий, ознакомьтесь с руководством по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается машинное обучение Apache Spark.

Для сценариев машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным подходом. Тем не менее, это далеко не полный список возможностей того, что можно достичь с помощью Машинного обучения Spark, для полного списка функций см. в статье Spark MLlib.

В следующем разделе представлен список сценариев и ссылок на Spark в кластерах больших данных SQL Server.

Основные элементы машинного обучения Spark в кластерах больших данных SQL Server

Learn	Contents	Link
Среда выполнения кластеров больших данных SQL Server для Apache Spark	Будет показано, что входит в состав каждого выпуска.	Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark
Пул хранения	Как хранить и использовать HDFS + Spark вместе для разблокировки данных для машинного обучения	Знакомство с пулом носителей в кластерах больших данных SQL Server
Используйте возможности на основе цифровых блокнотов и ваши избранные средства.	Подключите конечную точку Spark-Livy, используя выбранные вами средства	Отправка заданий Spark в кластерах больших данных SQL Server в Azure Data Studio Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code Использование sparklyr в кластере больших данных SQL Server
Установка дополнительных пакетов	В случае, если пакет не предусмотрен по умолчанию, установите его.	Управление библиотекой Spark
Как устранять неполадки	В случае поломки	Устранение неполадок ноутбука `pyspark` Отладка и диагностика приложений Spark в кластерах больших данных SQL Server на сервере истории Spark
Отправка пакетных заданий машинного обучения	Сделайте так, чтобы обучение машинного обучения и пакетная оценка запускались через командную строку.	Отправка заданий Spark с помощью средств командной строки
Быстрое перемещение данных между SQL Server и Spark	Сделайте sql Server источником и (или) назначением для сценариев машинного обучения Spark. Использование HDFS не является обязательным	Использование соединителя Apache Spark для SQL Server и AZURE SQL
Эксплуатация модели Spark	После обучения ввод в эксплуатацию с помощью MLeap	Создание, экспорт и оценка моделей машинного обучения Spark в кластерах больших данных SQL Server
Data wrangling	Наряду с мощными возможностями обработки данных Spark мы поставляем PROSE	Обработка данных с помощью акселератора кода PROSE

Next steps

Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".

Last updated on 2021-10-05

Поделиться через

Знакомство с машинным обучением Spark в кластерах больших данных SQL Server

Машинное обучение Spark в кластерах больших данных SQL Server

Основные элементы машинного обучения Spark в кластерах больших данных SQL Server

Next steps

Дополнительные ресурсы