SQL Server 大数据群集上的机器学习指南
适用范围:SQL Server 2019 (15.x)
本文介绍如何在机器学习方案中使用 SQL Server 大数据群集。
重要
Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章和 Microsoft SQL Server 平台上的大数据选项。
SQL Server 大数据群集中的机器学习简介
SQL Server 大数据群集 支持使用不同技术堆栈的机器学习方案和解决方案:SQL Server 机器学习服务和 Apache Spark ML 。
SQL Server 大数据群集 使用已建立的 SQL Server 机器学习服务技术堆栈,在 SQL Server 引擎内提供机器学习功能;实现高性能的数据库内机器学习推理和评分方案。
对于基于大数据的机器学习方案,使用 HDFS 进行大数据托管并使用 Apache Spark ML 功能更具成本效益、可缩放性,且功能更强大。
机器学习方案
机器学习功能支持各种应用程序和解决方案,如欺诈检测、预测、流失以及一般分类和回归任务。 然而,在方案中使用最佳技术也很重要。
方面 | SQL Server 机器学习服务 | Apache Spark ML |
---|---|---|
数据位置 | 利用 SQL Server 上的表格数据位置。 高级数据层。 | 使用 HDFS 的可缩放大数据数据层;非结构化、半结构化和结构化数据。 |
最适用于 | 低延迟推理和评分方案 | 1. 基于大数据的分布式批处理训练和评分机器学习模型 2. 用于 ML 的 ETL 接收器和大规模数据准备和特征工程 |
源 | ML 支持的 BI 仪表板、报表和应用程序。 需要低延迟 | 批处理评分的数据可能会提升到 SQL Server 以驱动 ML 支持的方案 |
延迟 | 需要低延迟 | 可接受较高延迟 |
了解详细信息 | 通过机器学习服务在 SQL Server 大数据群集上运行 Python 和 R 脚本 | SQL Server 大数据群集上的 Spark 机器学习简介 |
后续步骤
有关详细信息,请参阅 SQL Server 大数据群集 简介。