Поделиться через


Общие сведения об использовании машинного обучения Spark в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Внимание

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

В этой статье объясняется, как эффективно использовать Spark для Машинное обучение в SQL Server Кластеры больших данных.

Машинное обучение Spark в кластерах больших данных SQL Server

Кластеры больших данных SQL Server позволяют применять сценарии и решения машинного обучения, использующие различные технологические стеки: Службы машинного обучения SQL Server и Apache Spark ML.

Чтобы лучше понять, когда следует использовать каждый технологический стек, обратитесь к разделу Руководство по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается Apache Spark ML.

Для сценариев машинного обучения на основе больших данных размещение больших данных в HDFS и использование возможностей Apache Spark ML являются более экономичным, масштабируемым и эффективным вариантом. Однако это далеко не исчерпывающий список возможностей машинного обучения Spark. Полный список возможностей см. в разделе Spark MLlib.

В следующем разделе приведен проверенный список сценариев и статей, связанных с использованием Spark в кластерах больших данных SQL Server.

Материалы по использованию машинного обучения Spark в кластерах больших данных SQL Server

Learn Содержимое Ссылка
Среда выполнения кластеров больших данных SQL Server для Apache Spark Содержит сведения о том, что входит в каждый выпуск Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark
Пул носителей Сведения о том, как хранить данные и как совместно использовать HDFS и Spark для получения доступа к данным для машинного обучения Знакомство с пулом носителей в SQL Server Кластеры больших данных
Использование возможностей на основе записных книжек и выбранных инструментов Подключение конечной точки Spark-Livy с использованием выбранных инструментов Отправка заданий Spark в SQL Server Кластеры больших данных в Azure Data Studio
Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code
Использование sparklyr в кластере больших данных SQL Server
Установка дополнительных пакетов Если пакет отсутствует в списке, установите его Управление библиотекой Spark
Как устранять неполадки В случае появления ошибок Устранение неполадок с записной книжкой pyspark
Отладка и диагностика приложений Spark на sql Server Кластеры больших данных в сервере журнала Spark
Отправка пакетных заданий машинного обучения Запуск обучения ML и пакетной оценки из командной строки Отправка заданий Spark с помощью средств командной строки
Быстрое перемещение данных между SQL Server и Spark Выбор SQL Server в качестве источника и/или места назначения для сценариев машинного обучения Spark. Использование HDFS не является обязательным Использование соединителя Apache Spark для SQL Server и AZURE SQL
Практическое использование модели Spark После обучения приступите к практическому использованию модели с помощью MLeap Создание, экспорт и оценка моделей машинного обучения Spark на Кластеры больших данных SQL Server
Общие сведения о первичной обработке данных Наряду с мощными возможностями Spark по первичной обработке данных мы предоставляем ускоритель кода PROSE Первичная обработка данных с помощью ускорителя кода PROSE

Следующие шаги

Дополнительные сведения см. в статье "Знакомство с SQL Server Кластеры больших данных".