Поделиться через


Знакомство с машинным обучением Spark в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Important

Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.

В этой статье объясняется, как эффективно использовать Spark для машинного обучения в кластерах больших данных SQL Server.

Машинное обучение Spark в кластерах больших данных SQL Server

Кластеры больших данных SQL Server позволяют сценариям машинного обучения и решениям с помощью различных стеков технологий: служб машинного обучения SQL Server и Apache Spark ML.

Чтобы лучше понять, когда следует использовать каждый стек технологий, ознакомьтесь с руководством по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается машинное обучение Apache Spark.

Для сценариев машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным подходом. Тем не менее, это далеко не полный список возможностей того, что можно достичь с помощью Машинного обучения Spark, для полного списка функций см. в статье Spark MLlib.

В следующем разделе представлен список сценариев и ссылок на Spark в кластерах больших данных SQL Server.

Основные элементы машинного обучения Spark в кластерах больших данных SQL Server

Learn Contents Link
Среда выполнения кластеров больших данных SQL Server для Apache Spark Будет показано, что входит в состав каждого выпуска. Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark
Пул хранения Как хранить и использовать HDFS + Spark вместе для разблокировки данных для машинного обучения Знакомство с пулом носителей в кластерах больших данных SQL Server
Используйте возможности на основе цифровых блокнотов и ваши избранные средства. Подключите конечную точку Spark-Livy, используя выбранные вами средства Отправка заданий Spark в кластерах больших данных SQL Server в Azure Data Studio
Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code
Использование sparklyr в кластере больших данных SQL Server
Установка дополнительных пакетов В случае, если пакет не предусмотрен по умолчанию, установите его. Управление библиотекой Spark
Как устранять неполадки В случае поломки Устранение неполадок ноутбука pyspark
Отладка и диагностика приложений Spark в кластерах больших данных SQL Server на сервере истории Spark
Отправка пакетных заданий машинного обучения Сделайте так, чтобы обучение машинного обучения и пакетная оценка запускались через командную строку. Отправка заданий Spark с помощью средств командной строки
Быстрое перемещение данных между SQL Server и Spark Сделайте sql Server источником и (или) назначением для сценариев машинного обучения Spark. Использование HDFS не является обязательным Использование соединителя Apache Spark для SQL Server и AZURE SQL
Эксплуатация модели Spark После обучения ввод в эксплуатацию с помощью MLeap Создание, экспорт и оценка моделей машинного обучения Spark в кластерах больших данных SQL Server
Data wrangling Наряду с мощными возможностями обработки данных Spark мы поставляем PROSE Обработка данных с помощью акселератора кода PROSE

Next steps

Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".