Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: SQL Server 2019 (15.x)
Important
Кластеры больших данных Microsoft SQL Server 2019 прекращены. Поддержка кластеров больших данных SQL Server 2019 закончилась с 28 февраля 2025 г. Дополнительные сведения см. в записи блога объявлений и параметрах больших данных на платформе Microsoft SQL Server.
В этой статье объясняется, как эффективно использовать Spark для машинного обучения в кластерах больших данных SQL Server.
Машинное обучение Spark в кластерах больших данных SQL Server
Кластеры больших данных SQL Server позволяют сценариям машинного обучения и решениям с помощью различных стеков технологий: служб машинного обучения SQL Server и Apache Spark ML.
Чтобы лучше понять, когда следует использовать каждый стек технологий, ознакомьтесь с руководством по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается машинное обучение Apache Spark.
Для сценариев машинного обучения на основе больших данных использование HDFS для размещения больших данных и возможностей Машинного обучения Apache Spark является более экономичным, масштабируемым и мощным подходом. Тем не менее, это далеко не полный список возможностей того, что можно достичь с помощью Машинного обучения Spark, для полного списка функций см. в статье Spark MLlib.
В следующем разделе представлен список сценариев и ссылок на Spark в кластерах больших данных SQL Server.
Основные элементы машинного обучения Spark в кластерах больших данных SQL Server
| Learn | Contents | Link |
|---|---|---|
| Среда выполнения кластеров больших данных SQL Server для Apache Spark | Будет показано, что входит в состав каждого выпуска. | Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark |
| Пул хранения | Как хранить и использовать HDFS + Spark вместе для разблокировки данных для машинного обучения | Знакомство с пулом носителей в кластерах больших данных SQL Server |
| Используйте возможности на основе цифровых блокнотов и ваши избранные средства. | Подключите конечную точку Spark-Livy, используя выбранные вами средства |
Отправка заданий Spark в кластерах больших данных SQL Server в Azure Data Studio Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code Использование sparklyr в кластере больших данных SQL Server |
| Установка дополнительных пакетов | В случае, если пакет не предусмотрен по умолчанию, установите его. | Управление библиотекой Spark |
| Как устранять неполадки | В случае поломки |
Устранение неполадок ноутбука pysparkОтладка и диагностика приложений Spark в кластерах больших данных SQL Server на сервере истории Spark |
| Отправка пакетных заданий машинного обучения | Сделайте так, чтобы обучение машинного обучения и пакетная оценка запускались через командную строку. | Отправка заданий Spark с помощью средств командной строки |
| Быстрое перемещение данных между SQL Server и Spark | Сделайте sql Server источником и (или) назначением для сценариев машинного обучения Spark. Использование HDFS не является обязательным | Использование соединителя Apache Spark для SQL Server и AZURE SQL |
| Эксплуатация модели Spark | После обучения ввод в эксплуатацию с помощью MLeap | Создание, экспорт и оценка моделей машинного обучения Spark в кластерах больших данных SQL Server |
| Data wrangling | Наряду с мощными возможностями обработки данных Spark мы поставляем PROSE | Обработка данных с помощью акселератора кода PROSE |
Next steps
Дополнительные сведения см. в разделе "Общие сведения о кластерах больших данных SQL Server".