教學課程：使用 SQL 機器學習在 R 中部署群集模型

發行項
05/04/2023

適用於：SQL Server 2016 (13.x) 和更新版本Azure SQL 受控執行個體

在本教學課程系列中 (總共四個部分)，您將使用 R，在 SQL Server 機器學習服務中或在巨量資料叢集上開發和部署 K-Means 群集模型，以分類客戶資料。

在本教學課程系列中 (總共四個部分)，您將使用 R，在 SQL Server 機器學習服務中開發和部署 K-Means 群集模型，以群集客戶資料。

在本教學課程系列中 (總共四個部分)，您將使用 R，在 SQL Server R Services 中開發和部署 K-Means 群集模型，以群集客戶資料。

在本教學課程系列中 (總共四個部分)，您將使用 R 在 Azure SQL 受控執行個體機器學習服務中，開發及部署 K-Means 群集模型，以群集客戶資料。

在本系列的第一部分中，您將設定本教學課程的必要條件，然後將範例資料集還原至資料庫。在第二部分和第三部分中，您將在 Azure Data Studio 筆記本中開發一些 R 指令碼來分析和準備此範例資料，並定型機器學習模型。接著在第四部分中，您將使用預存程序在資料庫內執行這些 R 指令碼。

叢集可以解釋成將資料組織成群組，而群組的成員在某些方面是相似的。在本教學課程系列中，假設您有一家零售公司。您將使用 K-Means 演算法在產品購買和退貨資料集中，執行客戶叢集。透過將客戶叢集，您可以鎖定特定群組，以更有效率地專注於行銷工作。 K-Means 叢集是非監督式學習演算法，會根據相似性找出資料中的模式。

在本文中，您將學會如何：

還原範例資料庫

在第二部分，您將了解如何準備資料庫中的資料，以執行群集。

在第三部分中，您將了解如何在 R 中建立和定型 K-Means 群集模型。

在第四部分中，您將了解如何在資料庫中建立預存程序，以根據新的資料在 R 中執行群集。

Prerequisites

SQL Server 機器學習服務與 Python 語言選項 - 請遵循 Windows 安裝指南或 Linux 安裝指南中的安裝指示。您也可以啟用 SQL Server 巨量資料叢集上的機器學習服務。

SQL Server 機器學習服務與 R 語言選項 - 請遵循 Windows 安裝指南中的安裝指示。

Azure SQL 受控執行個體機器學習服務。如需詳細資訊，請參閱 Azure SQL 受控執行個體機器學習服務概觀。
請參閱 SQL Server Management Studio，以了解如何將範例資料庫還原到 Azure SQL 受控執行個體。

Azure Data Studio。您會在 Azure Data Studio 中使用適用於 SQL 的筆記本。如需筆記本的詳細資訊，請參閱如何在 Azure Data Studio 中使用筆記本。
R IDE - 本教學課程使用 RStudio Desktop。
RODBC - 此驅動程式用於您將在本教學課程中開發的 R 指令碼。如果尚未安裝，請使用 R 命令 install.packages("RODBC") 進行安裝。如需 RODBC 的詳細資訊，請參閱 CRAN - 封裝 RODBC。

還原範例資料庫

本教學課程中使用的範例資料集已儲存到 .bak 資料庫備份檔案中，供您下載和使用。此資料集衍生自 tpcx-bb 資料集 (由 Transaction Processing Performance Council (TPC) 提供)。

注意

如果您是在巨量資料叢集上使用機器學習服務，請參閱如何將資料庫還原至 SQL Server 巨量資料叢集主要執行個體。

下載 tpcxbb_1gb.bak 檔案。
請遵循在 Azure Data Studio 中從備份檔案還原資料庫中的指示，使用下列詳細資料：
- 從您下載的 tpcxbb_1gb.bak 檔案匯入
- 將目標資料庫命名為 "tpcxbb_1gb"
您可以藉由查詢 dbo.customer 資料表，確認資料集在還原資料庫後是否存在：
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

下載 tpcxbb_1gb.bak 檔案。
遵循 SQL Server Management Studio 中將資料庫還原至受控執行個體的指引，使用以下詳細資料：
- 從您下載的 tpcxbb_1gb.bak 檔案匯入
- 將目標資料庫命名為 "tpcxbb_1gb"
您可以藉由查詢 dbo.customer 資料表，確認資料集在還原資料庫後是否存在：
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

清除資源

如果您不打算繼續進行本教學課程，請刪除 tpcxbb_1gb 資料庫。

後續步驟

在本教學課程系列的第一部分中，您已完成下列步驟：

安裝了必要條件
還原範例資料庫

若要針對機器學習模型準備資料，請遵循本教學課程系列的第二部分進行：

準備執行群集所需的資料