教程:通过 SQL 机器学习在 R 中部署聚类分析模型
适用于: SQL Server 2016 (13.x) 及更高版本 Azure SQL 托管实例
本系列教程由四个部分组成,引导你使用 R 在 SQL Server 机器学习服务中或在大数据群集上开发和部署 K-Means 聚类分析模型,以便对客户数据进行聚类分析。
本系列教程由四个部分组成,引导你使用 R 在 SQL Server 机器学习服务中开发和部署 K-Means 聚类分析模型,以便对客户数据进行聚类分析。
本系列教程由四个部分组成,引导你使用 R 在 SQL Server R Services 中开发和部署 K-Means 聚类分析模型,以便对客户数据进行聚类分析。
本系列教程由四个部分组成,引导你使用 R 在 Azure SQL 托管实例机器学习服务中开发和部署 K-Means 聚类分析模型,以便对客户数据进行聚类分析。
在本系列的第一部分中,你将设置本教程的先决条件,然后将示例数据集还原到一个数据库。 在第二和第三部分中,你将在 Azure Data Studio 笔记本中开发一些 R 脚本,用于分析和准备此示例数据以及训练机器学习模型。 然后,在第四部分中,你将使用存储过程在数据库中运行这些 R 脚本。
聚类分析可解释为将数据组织成组,其中一个组的成员在某些方面类似。 对于本系列教程,假设你拥有一家零售企业。 你将使用 K-Means 算法在产品购买及退货的数据集中执行针对客户的聚类分析。 通过对客户进行聚类分析,可以将特定组定为目标,更加高效地专注于市场营销工作。 K-Means 群集是一种无监督式学习算法,该算法根据相似性寻找数据中的规律。
本文将指导如何进行以下操作:
- 还原示例数据库
第二部分介绍如何从数据库准备数据以执行聚类分析。
第三部分介绍如何在 R 中创建和训练 K-Means 聚类分析模型。
在第四部分中,你将了解如何在数据库中创建存储过程,以便基于新数据在 R 中执行聚类分析。
先决条件
- 支持 Python 语言的 SQL Server 机器学习服务 - 按照 Windows 安装指南或 Linux 安装指南中的安装说明进行操作。 还可以启用 SQL Server 大数据群集上的机器学习服务。
- 支持 R 语言的 SQL Server 机器学习服务 - 按照 Windows 安装指南中的安装说明进行操作。
Azure SQL 托管实例机器学习服务。 有关信息,请参阅 Azure SQL 托管实例机器学习服务概述。
用于将示例数据库还原到 Azure SQL 托管实例的 SQL Server Management Studio。
Azure Data Studio。 你将使用 Azure Data Studio 中适用于 SQL 的笔记本。 若要详细了解笔记本,请参阅如何使用 Azure Data Studio 中的笔记本。
R IDE - 此教程使用 RStudio Desktop。
RODBC - 此驱动程序用于你在本教程中开发的 R 脚本。 如果尚未安装,请使用 R 命令
install.packages("RODBC")
安装它。 有关 RODBC 的详细信息,请参阅 CRAN - RODBC 包。
还原示例数据库
本教程中使用的示例数据集已保存到 .bak 数据库备份文件,以供下载和使用。 此数据集派生自 事务处理性能委员会 (TPC) 提供的 tpcx-bb 数据集。
注意
如果在大数据群集上使用机器学习服务,请了解如何将数据库还原成 SQL Server 大数据群集主实例。
下载 tpcxbb_1gb.bak 文件。
使用以下详细信息,按 Azure Data Studio 中从备份文件还原数据库中的说明操作:
- 从下载的 tpcxbb_1gb.bak 文件导入
- 将目标数据库命名为“tpcxbb_1gb”
可以查询 dbo.customer 表验证数据库还原后数据集是否存在:
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
下载 tpcxbb_1gb.bak 文件。
使用以下详细信息,按 SQL Server Management Studio 中将数据库还原到托管实例的说明操作:
- 从下载的 tpcxbb_1gb.bak 文件导入
- 将目标数据库命名为“tpcxbb_1gb”
可以查询 dbo.customer 表验证数据库还原后数据集是否存在:
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
清理资源
如果不打算继续学习本教程,请删除 tpcxbb_1gb 数据库。
后续步骤
在本系列教程的第一部分中,你已完成以下步骤:
- 安装必备组件
- 还原示例数据库
若要为机器学习模型准备数据,按本系列教程的第二部分进行操作:
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈