使用 Azure 機器學習分析數據

本教學課程使用 Azure 機器學習設計工具來建置預測性機器學習模型。此模型是以儲存在 Azure Synapse 中的數據為基礎。本教學情境旨在預測客戶是否可能購買自行車，以便 Adventure Works 自行車店能夠制定精準行銷活動。

必要條件

若要逐步執行本教學課程，您需要：

預先載入 AdventureWorksDW 範例數據的 SQL 集區。若要布建此 SQL 集區，請參閱建立 SQL 集區，然後選擇載入範例數據。如果您已經有數據倉儲，但沒有範例數據，您可以手動載入範例數據。
Azure Machine Learning 工作區。請遵循本教學課程來建立新的教學課程。

取得資料

所使用的數據位於 AdventureWorksDW 的 dbo.vTargetMail 檢視中。若要在本教學課程中使用數據存放區，數據會先匯出至 Azure Data Lake Storage 帳戶，因為 Azure Synapse 目前不支持數據集。 Azure Data Factory 可用來使用複製活動將數據從數據倉儲匯出至 Azure Data Lake Storage。使用下列查詢進行匯入：

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

在 Azure Data Lake Storage 中提供數據之後，Azure 機器學習中的數據存放區會用來連線到 Azure 記憶體服務。請遵循下列步驟來建立資料存放區和對應的數據集：

從 Azure 入口網站啟動 Azure Machine Learning 工作室，或在 Azure Machine Learning 工作室登入。
在 [管理] 區段的左側窗格中按一下 數據存放區，然後按一下 新增資料存放區。
提供資料存放區的名稱、選取類型為『Azure Blob 儲存體』、提供位置和認證。接著按一下 [ 建立]。
接下來，單擊資料集於資產區段的左側窗格中。選取[建立數據集]，並選擇[從數據存放區]選項。
指定資料集的名稱，然後選擇類型為 表格式。然後，按 [下一步] 以繼續前進。
在 [選取或建立數據存放區] 區段中，選取 [先前建立的數據存放區] 選項。選取稍早建立的數據存放區。按 [下一步] 並指定路徑和檔案設定。如果檔案包含欄位標題，請務必指定欄位標題。
最後，按兩下 [建立] 以建立資料集。

設定設計工具實驗

接下來，請依照下列步驟進行設計工具設定：

在作者區段的左窗格中，按一下設計索引標籤。
選取 [容易使用的預先建置元件 ] 以建置新的管線。
在右側的 [設定] 窗格中，指定管線的名稱。
此外，請在設定按鈕中，為整個實驗選取先前已佈建的目標計算叢集。關閉 [設定] 窗格。

匯入資料

選取搜尋方塊下方左窗格中的[數據集] 子標籤。
將稍早建立的數據集拖曳至畫布。

清理資料

若要清除數據，請卸除與模型無關的數據行。請執行以下步驟：

選取左窗格中的元件子標籤。
將選取資料集中的資料行元件，從資料轉換 < 操作拖曳到畫布中。將此元件連線至 數據集 元件。
單擊元件以開啟 [屬性] 窗格。按一下 [編輯欄位] 以指定要移除的欄位。
排除兩個數據行：CustomerAlternateKey 和 GeographyKey。按下 [儲存]

建立模型

數據分割為 80-20：80% 來定型機器學習模型，20% 用來測試模型。此二元分類問題會使用「雙類別」演算法。

將 Split Data 元件拖曳至畫布。
在 [屬性] 窗格中，針對 第一個輸出數據集中的數據列分數輸入 0.8。
將 二元增強決策樹 元件拖曳到畫布中。
將 訓練模型 元件拖曳至畫布。將其連線到二元促進決策樹 (ML 演算法) 和分割資料 (用於訓練演算法的資料) 元件，以指定輸入。
針對 [訓練模型]，在屬性窗格中的 [標籤] 欄 選項中，選取 [編輯欄]。選取 BikeBuyer 資料行作為要預測的數據行，然後選取 [ 儲存]。