教程：通过 SQL 机器学习在 R 中部署聚类分析模型

适用于： SQL Server 2016 （13.x）及更高版本 Azure SQL 托管实例

本系列教程由四个部分组成，引导你使用 R 在 SQL Server 机器学习服务中或在大数据群集上开发和部署 K-Means 聚类分析模型，以便对客户数据进行聚类分析。

本系列教程由四个部分组成，引导你使用 R 在 SQL Server 机器学习服务中开发和部署 K-Means 聚类分析模型，以便对客户数据进行聚类分析。

本系列教程由四个部分组成，引导你使用 R 在 SQL Server R Services 中开发和部署 K-Means 聚类分析模型，以便对客户数据进行聚类分析。

本系列教程由四个部分组成，引导你使用 R 在 Azure SQL 托管实例机器学习服务中开发和部署 K-Means 聚类分析模型，以便对客户数据进行聚类分析。

在本系列的第一部分中，你将设置本教程的先决条件，然后将示例数据集还原到一个数据库。在第二和第三部分中，你将在 Azure Data Studio 笔记本中开发一些 R 脚本，用于分析和准备此示例数据以及训练机器学习模型。然后，在第四部分中，你将使用存储过程在数据库中运行这些 R 脚本。

聚类分析可解释为将数据组织成组，其中一个组的成员在某些方面类似。对于本系列教程，假设你拥有一家零售企业。你将使用 K-Means 算法在产品购买及退货的数据集中执行针对客户的聚类分析。通过对客户进行聚类分析，可以将特定组定为目标，更加高效地专注于市场营销工作。 K-Means 群集是一种无监督式学习算法，该算法根据相似性寻找数据中的规律。

本文将指导如何进行以下操作：

还原示例数据库

第二部分介绍如何从数据库准备数据以执行聚类分析。

第三部分介绍如何在 R 中创建和训练 K-Means 聚类分析模型。

在第四部分中，你将了解如何在数据库中创建存储过程，以便基于新数据在 R 中执行聚类分析。

先决条件

支持 Python 语言的 SQL Server 机器学习服务 - 按照 Windows 安装指南或 Linux 安装指南中的安装说明进行操作。还可以启用 SQL Server 大数据群集上的机器学习服务。

支持 R 语言的 SQL Server 机器学习服务 - 按照 Windows 安装指南中的安装说明进行操作。

Azure SQL 托管实例机器学习服务。 有关信息，请参阅 Azure SQL 托管实例机器学习服务概述。
SQL Server Management Studio (SSMS) - 使用 SSMS 将示例数据库还原到 Azure SQL 托管实例。安装最新版本的 SQL Server Management Studio （SSMS）。

Azure Data Studio。你将使用 Azure Data Studio 中适用于 SQL 的笔记本。若要详细了解笔记本，请参阅如何使用 Azure Data Studio 中的笔记本。
R IDE - 此教程使用 RStudio Desktop。
RODBC - 此驱动程序用于你在本教程中开发的 R 脚本。如果尚未安装，请使用 R 命令 install.packages("RODBC") 安装它。有关 RODBC 的详细信息，请参阅 CRAN - RODBC 包。

还原示例数据库

本教程中使用的示例数据集已保存到 .bak 数据库备份文件，以供下载和使用。此数据集派生自事务处理性能委员会 (TPC) 提供的 tpcx-bb 数据集。

注意

如果在大数据群集上使用机器学习服务，请了解如何将数据库还原成 SQL Server 大数据群集主实例。

下载 tpcxbb_1gb.bak 文件。
使用以下详细信息，按 Azure Data Studio 中从备份文件还原数据库中的说明操作：
- 从下载的 tpcxbb_1gb.bak 文件导入。
- 将目标数据库命名为 tpcxbb_1gb。
可以查询 dbo.customer 表验证数据库还原后数据集是否存在：
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

下载 tpcxbb_1gb.bak 文件。
使用以下详细信息，按 SQL Server Management Studio 中将数据库还原到托管实例的说明操作：
- 从下载的 tpcxbb_1gb.bak 文件导入。
- 将目标数据库命名为 tpcxbb_1gb。
可以查询 dbo.customer 表验证数据库还原后数据集是否存在：
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

清理资源

如果不打算继续学习本教程，请删除 tpcxbb_1gb 数据库。

下一步

在本系列教程的第一部分中，你已完成以下步骤：

安装必备组件
还原示例数据库

若要为机器学习模型准备数据，按本系列教程的第二部分进行操作：

准备数据以执行聚类分析

反馈

此页面是否有帮助？

Last updated on 2025-01-02

通过

教程：通过 SQL 机器学习在 R 中部署聚类分析模型

先决条件

还原示例数据库

清理资源

下一步

反馈

其他资源