Поделиться через


Руководство по машинному обучению для кластеров больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

В этой статье объясняется, как использовать sql Server Кластеры больших данных для сценариев Машинное обучение.

Внимание

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, и программное обеспечение будет продолжать поддерживаться с помощью накопительных обновлений SQL Server до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

Общие сведения о машинном обучении в кластерах больших данных SQL Server

SQL Server Кластеры больших данных позволяет сценариям машинного обучения и решениям использовать различные стеки технологий: SQL Server Машинное обучение Services и Apache Spark ML.

SQL Server Кластеры больших данных предлагают Машинное обучение возможности в подсистеме SQL Server, используя установленный стек технологий служб SQL Server Машинное обучение Services; обеспечивая высокопроизводительные Машинное обучение сценарии вывода и оценки.

Для сценариев машинного обучения на основе больших данных размещение больших данных в HDFS и использование возможностей Apache Spark ML являются более экономичным, масштабируемым и эффективным вариантом.

Сценарии машинного обучения

Возможности машинного обучения могут использоваться в различных сферах и решениях, таких как обнаружение мошенничества, прогнозирование, обработка данных, а также задачи общей классификации и регрессии. Однако важно использовать наиболее подходящую технологию для каждого конкретного сценария.

Аспект Службы машинного обучения SQL Server Apache Spark ML
Размещение данных Использует локальность табличных данных в SQL Server. Уровень данных "Премиум". Масштабируемый уровень данных больших данных, использующий HDFS; неструктурированные, частично структурированные или структурированные данные.
Сценарии применения Сценарии вывода и оценки с низкой задержкой 1. Модели машинного обучения для распределенного пакетного обучения и оценки на основе больших данных
2. Приемники извлечения, преобразования и загрузки, подготовка крупномасштабных данных и конструирование признаков для машинного обучения
Веб-каналы Панели мониторинга, отчеты и приложения на основе машинного обучения. Требуется низкая задержка Данные с пакетной оценкой могут быть переданы на SQL Server для управления сценариями на основе машинного обучения
Задержка Требуется низкая задержка Допускается более высокая задержка
Дополнительные сведения Запуск скриптов Python и R с помощью служб Машинное обучение в SQL Server Кластеры больших данных Общие сведения об использовании машинного обучения Spark в кластерах больших данных SQL Server

Следующие шаги

Дополнительные сведения см. в статье "Знакомство с SQL Server Кластеры больших данных".