介绍 SQL Server 大数据群集上的 Spark 机器学习
适用范围:SQL Server 2019 (15.x)
重要
Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。
本文介绍如何在 SQL Server 大数据群集 上有效地使用 Spark 机器学习。
SQL Server 大数据群集中的 Spark 机器学习
SQL Server 大数据群集支持使用不同技术堆栈的机器学习方案和解决方案:SQL Server 机器学习服务和 Apache Spark ML 。
为了更好地了解何时使用哪种技术堆栈,请参阅 SQL Server 大数据群集的机器学习指南。 该指南涵盖 Apache Spark ML。
对于基于大数据的机器学习方案,使用 HDFS 进行大数据托管并使用 Apache Spark ML 功能是一种更具成本效益、可缩放性且功能更强大的方法。 但是,这远未详尽地列出利用 Spark 机器学习可实现的目标,有关完整的功能列表,请参阅:Spark MLlib。
下一部分提供 SQL Server 大数据群集中 Spark 的方案和引用的精选列表。
构建 SQL Server 大数据群集上的 Spark 机器学习基块
Learn | 目录 | 链接 |
---|---|---|
适用于 Apache Spark 的 SQL Server 大数据群集运行时 | 当中包括每个版本所包含的内容 | 适用于 Apache Spark 的 SQL Server 大数据群集运行时指南 |
存储池 | 如何一起存储和使用 HDFS + Spark 来解锁机器学习的数据 | SQL Server 大数据群集 中的存储池简介 |
使用基于笔记本的体验和自己选择的工具 | 使用所选工具连接 Spark-Livy 终结点 | 在 Azure Data Studio 的 SQL Server 大数据群集 上提交 Spark 作业 在 Visual Studio Code 中的 SQL Server 大数据群集上提交 Spark 作业 在 SQL Server 大数据群集中使用 Sparklyr |
如何安装额外的包 | 如果未提供可立即使用的包,请安装该包 | Spark 库管理 |
如何进行故障排除 | 如果中断 | 对 pyspark 笔记本进行故障排除在 Spark History Server 中调试和诊断 SQL Server 大数据群集 上的 Spark 应用程序 |
如何提交机器学习批处理作业 | 使用命令行运行 ML 训练和批处理评分 | 使用命令行工具提交 Spark 作业 |
如何在 SQL Server 和 Spark 之间快速移动数据 | 为 Spark ML 方案提供 SQL Server 源和/或目标。 不强制使用 HDFS | 使用用于 SQL Server 和 Azure SQL 的 Apache Spark 连接器 |
Spark 模型操作化 | 训练后,使用 MLeap 进行操作化 | 在 SQL Server 大数据群集 上创建和导出 Spark 机器学习模型并对其评分 |
数据整理 | 除了 Spark 强大的数据整理功能外,我们还提供 PROSE | 使用 PROSE 代码加速器进行数据整理 |
后续步骤
有关详细信息,请参阅 SQL Server 大数据群集 简介。