分享方式:


教學課程:使用 SQL 機器學習在 R 中部署群集模型

適用於:SQL Server 2016 (13.x) 和更新版本 Azure SQL 受控執行個體

在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中或在巨量資料叢集上開發和部署 K-Means 群集模型,以分類客戶資料。

在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中開發和部署 K-Means 群集模型,以群集客戶資料。

在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server R Services 中開發和部署 K-Means 群集模型,以群集客戶資料。

在本教學課程系列中 (總共四個部分),您將使用 R 在 Azure SQL 受控執行個體機器學習服務中,開發及部署 K-Means 群集模型,以群集客戶資料。

在本系列的第一部分中,您將設定本教學課程的必要條件,然後將範例資料集還原至資料庫。 在第二部分和第三部分中,您將在 Azure Data Studio 筆記本中開發一些 R 指令碼來分析和準備此範例資料,並定型機器學習模型。 接著在第四部分中,您將使用預存程序在資料庫內執行這些 R 指令碼。

叢集可以解釋成將資料組織成群組,而群組的成員在某些方面是相似的。 在本教學課程系列中,假設您有一家零售公司。 您將使用 K-Means 演算法在產品購買和退貨資料集中,執行客戶叢集。 透過將客戶叢集,您可以鎖定特定群組,以更有效率地專注於行銷工作。 K-Means 叢集是非監督式學習演算法,會根據相似性找出資料中的模式。

在本文中,您將學會如何:

  • 還原範例資料庫

第二部分,您將了解如何準備資料庫中的資料,以執行群集。

第三部分中,您將了解如何在 R 中建立和定型 K-Means 群集模型。

第四部分中,您將了解如何在資料庫中建立預存程序,以根據新的資料在 R 中執行群集。

Prerequisites

還原範例資料庫

本教學課程中使用的範例資料集已儲存到 .bak 資料庫備份檔案中,供您下載和使用。 此資料集衍生自 tpcx-bb 資料集 (由 Transaction Processing Performance Council (TPC) 提供)。

注意

如果您是在巨量資料叢集上使用機器學習服務,請參閱如何將資料庫還原至 SQL Server 巨量資料叢集主要執行個體

  1. 下載 tpcxbb_1gb.bak 檔案。

  2. 請遵循在 Azure Data Studio 中從備份檔案還原資料庫中的指示,使用下列詳細資料:

    • 從您下載的 tpcxbb_1gb.bak 檔案匯入。
    • 將目標資料庫命名為 tpcxbb_1gb
  3. 您可以藉由查詢 dbo.customer 資料表,確認資料集在還原資料庫後是否存在:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. 下載 tpcxbb_1gb.bak 檔案。

  2. 遵循 SQL Server Management Studio 中將資料庫還原至受控執行個體的指引,使用以下詳細資料:

    • 從您下載的 tpcxbb_1gb.bak 檔案匯入。
    • 將目標資料庫命名為 tpcxbb_1gb
  3. 您可以藉由查詢 dbo.customer 資料表,確認資料集在還原資料庫後是否存在:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

清除資源

如果您不打算繼續進行本教學課程,請刪除 tpcxbb_1gb 資料庫。

後續步驟

在本教學課程系列的第一部分中,您已完成下列步驟:

  • 安裝了必要條件
  • 還原範例資料庫

若要針對機器學習模型準備資料,請遵循本教學課程系列的第二部分進行: