SQL Server 大数据群集上的机器学习指南

适用范围:SQL Server 2019 (15.x)

本文介绍如何在机器学习方案中使用 SQL Server 大数据群集。

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章Microsoft SQL Server 平台上的大数据选项

SQL Server 大数据群集中的机器学习简介

SQL Server 大数据群集 支持使用不同技术堆栈的机器学习方案和解决方案:SQL Server 机器学习服务和 Apache Spark ML 。

SQL Server 大数据群集 使用已建立的 SQL Server 机器学习服务技术堆栈,在 SQL Server 引擎内提供机器学习功能;实现高性能的数据库内机器学习推理和评分方案。

对于基于大数据的机器学习方案,使用 HDFS 进行大数据托管并使用 Apache Spark ML 功能更具成本效益、可缩放性,且功能更强大。

机器学习方案

机器学习功能支持各种应用程序和解决方案,如欺诈检测、预测、流失以及一般分类和回归任务。 然而,在方案中使用最佳技术也很重要。

方面 SQL Server 机器学习服务 Apache Spark ML
数据位置 利用 SQL Server 上的表格数据位置。 高级数据层。 使用 HDFS 的可缩放大数据数据层;非结构化、半结构化和结构化数据。
最适用于 低延迟推理和评分方案 1. 基于大数据的分布式批处理训练和评分机器学习模型
2. 用于 ML 的 ETL 接收器和大规模数据准备和特征工程
ML 支持的 BI 仪表板、报表和应用程序。 需要低延迟 批处理评分的数据可能会提升到 SQL Server 以驱动 ML 支持的方案
延迟 需要低延迟 可接受较高延迟
了解详细信息 通过机器学习服务在 SQL Server 大数据群集上运行 Python 和 R 脚本 SQL Server 大数据群集上的 Spark 机器学习简介

后续步骤

有关详细信息,请参阅 SQL Server 大数据群集 简介