教學課程:使用 SQL 機器學習在 R 中部署群集模型
適用於:SQL Server 2016 (13.x) 和更新版本 Azure SQL 受控執行個體
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中或在巨量資料叢集上開發和部署 K-Means 群集模型,以分類客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中開發和部署 K-Means 群集模型,以群集客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server R Services 中開發和部署 K-Means 群集模型,以群集客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R 在 Azure SQL 受控執行個體機器學習服務中,開發及部署 K-Means 群集模型,以群集客戶資料。
在本系列的第一部分中,您將設定本教學課程的必要條件,然後將範例資料集還原至資料庫。 在第二部分和第三部分中,您將在 Azure Data Studio 筆記本中開發一些 R 指令碼來分析和準備此範例資料,並定型機器學習模型。 接著在第四部分中,您將使用預存程序在資料庫內執行這些 R 指令碼。
叢集可以解釋成將資料組織成群組,而群組的成員在某些方面是相似的。 在本教學課程系列中,假設您有一家零售公司。 您將使用 K-Means 演算法在產品購買和退貨資料集中,執行客戶叢集。 透過將客戶叢集,您可以鎖定特定群組,以更有效率地專注於行銷工作。 K-Means 叢集是非監督式學習演算法,會根據相似性找出資料中的模式。
在本文中,您將學會如何:
- 還原範例資料庫
在第二部分,您將了解如何準備資料庫中的資料,以執行群集。
在第三部分中,您將了解如何在 R 中建立和定型 K-Means 群集模型。
在第四部分中,您將了解如何在資料庫中建立預存程序,以根據新的資料在 R 中執行群集。
Prerequisites
- SQL Server 機器學習服務與 Python 語言選項 - 請遵循 Windows 安裝指南或 Linux 安裝指南中的安裝指示。 您也可以啟用 SQL Server 巨量資料叢集上的機器學習服務。
- SQL Server 機器學習服務與 R 語言選項 - 請遵循 Windows 安裝指南中的安裝指示。
Azure SQL 受控執行個體機器學習服務。 如需詳細資訊,請參閱 Azure SQL 受控執行個體機器學習服務概觀。
SQL Server Management Studio (SSMS) - 使用 SSMS 將範例資料庫還原至 Azure SQL 受控執行個體。 若要下載,請參閱 SQL Server Management Studio。
Azure Data Studio。 您會在 Azure Data Studio 中使用適用於 SQL 的筆記本。 如需筆記本的詳細資訊,請參閱如何在 Azure Data Studio 中使用筆記本。
R IDE - 本教學課程使用 RStudio Desktop。
RODBC - 此驅動程式用於您將在本教學課程中開發的 R 指令碼。 如果尚未安裝,請使用 R 命令
install.packages("RODBC")
進行安裝。 如需 RODBC 的詳細資訊,請參閱 CRAN - 封裝 RODBC。
還原範例資料庫
本教學課程中使用的範例資料集已儲存到 .bak
資料庫備份檔案中,供您下載和使用。 此資料集衍生自 tpcx-bb 資料集 (由 Transaction Processing Performance Council (TPC) 提供)。
注意
如果您是在巨量資料叢集上使用機器學習服務,請參閱如何將資料庫還原至 SQL Server 巨量資料叢集主要執行個體。
下載 tpcxbb_1gb.bak 檔案。
請遵循在 Azure Data Studio 中從備份檔案還原資料庫中的指示,使用下列詳細資料:
- 從您下載的
tpcxbb_1gb.bak
檔案匯入。 - 將目標資料庫命名為
tpcxbb_1gb
。
- 從您下載的
您可以藉由查詢
dbo.customer
資料表,確認資料集在還原資料庫後是否存在:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
下載 tpcxbb_1gb.bak 檔案。
遵循 SQL Server Management Studio 中將資料庫還原至受控執行個體的指引,使用以下詳細資料:
- 從您下載的
tpcxbb_1gb.bak
檔案匯入。 - 將目標資料庫命名為
tpcxbb_1gb
。
- 從您下載的
您可以藉由查詢
dbo.customer
資料表,確認資料集在還原資料庫後是否存在:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
清除資源
如果您不打算繼續進行本教學課程,請刪除 tpcxbb_1gb
資料庫。
後續步驟
在本教學課程系列的第一部分中,您已完成下列步驟:
- 安裝了必要條件
- 還原範例資料庫
若要針對機器學習模型準備資料,請遵循本教學課程系列的第二部分進行: