介绍 SQL Server 大数据群集上的 Spark 机器学习

适用范围:SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章Microsoft SQL Server 平台上的大数据选项

本文介绍如何在 SQL Server 大数据群集 上有效地使用 Spark 机器学习。

SQL Server 大数据群集中的 Spark 机器学习

SQL Server 大数据群集支持使用不同技术堆栈的机器学习方案和解决方案:SQL Server 机器学习服务和 Apache Spark ML 。

为了更好地了解何时使用哪种技术堆栈,请参阅 SQL Server 大数据群集的机器学习指南。 该指南涵盖 Apache Spark ML。

对于基于大数据的机器学习方案,使用 HDFS 进行大数据托管并使用 Apache Spark ML 功能是一种更具成本效益、可缩放性且功能更强大的方法。 但是,这远未详尽地列出利用 Spark 机器学习可实现的目标,有关完整的功能列表,请参阅:Spark MLlib

下一部分提供 SQL Server 大数据群集中 Spark 的方案和引用的精选列表。

构建 SQL Server 大数据群集上的 Spark 机器学习基块

Learn 目录 链接
适用于 Apache Spark 的 SQL Server 大数据群集运行时 当中包括每个版本所包含的内容 适用于 Apache Spark 的 SQL Server 大数据群集运行时指南
存储池 如何一起存储和使用 HDFS + Spark 来解锁机器学习的数据 SQL Server 大数据群集 中的存储池简介
使用基于笔记本的体验和自己选择的工具 使用所选工具连接 Spark-Livy 终结点 在 Azure Data Studio 的 SQL Server 大数据群集 上提交 Spark 作业
在 Visual Studio Code 中的 SQL Server 大数据群集上提交 Spark 作业
在 SQL Server 大数据群集中使用 Sparklyr
如何安装额外的包 如果未提供可立即使用的包,请安装该包 Spark 库管理
如何进行故障排除 如果中断 pyspark 笔记本进行故障排除
在 Spark History Server 中调试和诊断 SQL Server 大数据群集 上的 Spark 应用程序
如何提交机器学习批处理作业 使用命令行运行 ML 训练和批处理评分 使用命令行工具提交 Spark 作业
如何在 SQL Server 和 Spark 之间快速移动数据 为 Spark ML 方案提供 SQL Server 源和/或目标。 不强制使用 HDFS 使用用于 SQL Server 和 Azure SQL 的 Apache Spark 连接器
Spark 模型操作化 训练后,使用 MLeap 进行操作化 在 SQL Server 大数据群集 上创建和导出 Spark 机器学习模型并对其评分
数据整理 除了 Spark 强大的数据整理功能外,我们还提供 PROSE 使用 PROSE 代码加速器进行数据整理

后续步骤

有关详细信息,请参阅 SQL Server 大数据群集 简介