Общие сведения об использовании машинного обучения Spark в кластерах больших данных SQL Server
Область применения: SQL Server 2019 (15.x)
Внимание
Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.
В этой статье объясняется, как эффективно использовать Spark для Машинное обучение в SQL Server Кластеры больших данных.
Машинное обучение Spark в кластерах больших данных SQL Server
Кластеры больших данных SQL Server позволяют применять сценарии и решения машинного обучения, использующие различные технологические стеки: Службы машинного обучения SQL Server и Apache Spark ML.
Чтобы лучше понять, когда следует использовать каждый технологический стек, обратитесь к разделу Руководство по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается Apache Spark ML.
Для сценариев машинного обучения на основе больших данных размещение больших данных в HDFS и использование возможностей Apache Spark ML являются более экономичным, масштабируемым и эффективным вариантом. Однако это далеко не исчерпывающий список возможностей машинного обучения Spark. Полный список возможностей см. в разделе Spark MLlib.
В следующем разделе приведен проверенный список сценариев и статей, связанных с использованием Spark в кластерах больших данных SQL Server.
Материалы по использованию машинного обучения Spark в кластерах больших данных SQL Server
Learn | Содержимое | Установить связь |
---|---|---|
Среда выполнения кластеров больших данных SQL Server для Apache Spark | Содержит сведения о том, что входит в каждый выпуск | Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark |
Пул носителей | Сведения о том, как хранить данные и как совместно использовать HDFS и Spark для получения доступа к данным для машинного обучения | Знакомство с пулом носителей в SQL Server Кластеры больших данных |
Использование возможностей на основе записных книжек и выбранных инструментов | Подключение конечной точки Spark-Livy с использованием выбранных инструментов | Отправка заданий Spark в SQL Server Кластеры больших данных в Azure Data Studio Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code Использование sparklyr в кластере больших данных SQL Server |
Установка дополнительных пакетов | Если пакет отсутствует в списке, установите его | Управление библиотекой Spark |
Как устранять неполадки | В случае появления ошибок | Устранение неполадок с записной книжкой pyspark Отладка и диагностика приложений Spark на sql Server Кластеры больших данных в сервере журнала Spark |
Отправка пакетных заданий машинного обучения | Запуск обучения ML и пакетной оценки из командной строки | Отправка заданий Spark с помощью средств командной строки |
Быстрое перемещение данных между SQL Server и Spark | Выбор SQL Server в качестве источника и/или места назначения для сценариев машинного обучения Spark. Использование HDFS не является обязательным | Использование соединителя Apache Spark для SQL Server и AZURE SQL |
Практическое использование модели Spark | После обучения приступите к практическому использованию модели с помощью MLeap | Создание, экспорт и оценка моделей машинного обучения Spark на Кластеры больших данных SQL Server |
Общие сведения о первичной обработке данных | Наряду с мощными возможностями Spark по первичной обработке данных мы предоставляем ускоритель кода PROSE | Первичная обработка данных с помощью ускорителя кода PROSE |
Следующие шаги
Дополнительные сведения см. в статье "Знакомство с SQL Server Кластеры больших данных".