在此教學課程中,您會了解如何在 Azure Machine Learning 工作室中使用 Azure Machine Learning,運用無程式碼的自動化機器學習 (AutoML) 來訓練分類模型。 此分類模型會預測客戶是否向金融機構申請定期存款。
透過自動化機器學習,您可以將耗時的工作自動化。 自動化機器學習會快速地逐一嘗試多種演算法和超參數的組合,協助您根據所選擇的成功計量找到最佳模型。
您在本教學課程中不會撰寫任何程式碼。 您會使用工作室介面來執行訓練。 您會了解如何執行下列工作:
- 建立 Azure Machine Learning 工作區
- 執行自動化機器學習實驗
- 探索模型詳細資料
- 部署建議的模型
先決條件
Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請建立免費帳戶。
下載 bank+marketing.zip 數據文件。 我們將使用 bank-full.csv 檔案。 y 資料行指出客戶是否申請定期存款,稍後本教學課程會將其識別為預測的目標資料行。
附註
此銀行行銷資料集是根據 知識共享署名 4.0 國際授權提供。 此資料集可作為 UCI 機器學習資料庫的一部分提供。
莫羅,S.、P. 麗塔和 P. 科爾特斯。 2014. 銀行營銷。 UCI 機器學習儲存庫。 https://doi.org/10.24432/C5K306。
建立工作區
Azure Machine Learning 工作區是雲端中您用來實驗、定型及部署機器學習模型的基礎資源。 工作區可將您的 Azure 訂用帳戶和資源群組與服務中容易使用的物件結合。
完成下列步驟以建立工作區並繼續教學課程。
選取 [建立工作區]。
提供下列資訊來設定新的工作區:
欄位 描述 工作區名稱 輸入可識別您工作區的唯一名稱。 名稱必須是整個資源群組中唯一的。 請使用可輕鬆回想並且與其他人建立的工作區有所區別的名稱。 工作區名稱不區分大小寫。 訂用帳戶 選取您要使用的 Azure 訂用帳戶。 資源群組 在您的訂用帳戶中使用現有的資源群組,或輸入名稱來建立新的資源群組。 資源群組會保留 Azure 方案的相關資源。 您需要參與者或擁有者角色,以使用現有的資源群組。 如需詳細資訊,請參閱管理對 Azure Machine Learning 工作區的存取。 區域 選取最接近使用者與資料資源的 Azure 區域,以建立工作區。 選取 [建立] 以建立工作區。
如需 Azure 資源的詳細資訊,請參閱建立工作區。
如需在 Azure 中建立工作區的其他方式,請在入口網站或使用 Python SDK (v2) 管理 Azure Machine Learning 工作區。
建立自動化機器學習工作
完成下列實驗設定,並使用位於 https://ml.azure.com 的 Azure Machine Learning 工作室來執行步驟。 Machine Learning Studio 是彙總的 Web 介面,其中包含機器學習工具,可為所有技能等級的資料科學從業人員執行資料科學案例。 Internet Explorer 瀏覽器不支援工作室。
選取訂用帳戶與您建立的工作區。
在瀏覽窗格中,選取 [撰寫]> [自動化 ML]。
因為此教學課程是您的第一個自動化 ML 實驗,您會看到一個空白清單與文件連結。
選取 [新增自動化 ML 工作]。
在 [訓練方法] 中,選取 [自動訓練],然後選取 [開始設定工作]。
在 [基本設定] 中,選取 [建立新的],然後針對 [實驗名稱],輸入 my-1st-automl-experiment。
選取 [下一步] 以載入您的資料集。
建立資料集並將其載入為資料資產
設定實驗之前,請先將資料檔案以 Azure Machine Learning 資料資產的形式上傳到您的工作區。 針對此教學課程,您可以將資料資產視為自動化工作的資料集。 如此一來,您就可以確保資料會針對實驗適當格式化。
在 [工作類型與資料] 中,針對 [選取工作類型],選擇 [分類]。
在 [選取資料] 下,選擇 [建立]。
在 [資料類型] 表單上,為資料資產提供名稱,並提供選用的描述。
針對 [類型],選取 [表格式]。 自動化 ML 介面目前僅支援 TabularDatasets。
選取 [下一步] 。
在 [資料來源] 表單中,選取 [從本機檔案]。 選取 [下一步] 。
在 [目的地儲存體類型] 中,選取在工作區建立期間自動設定的預設資料存放區:workspaceblobstore。 您會將資料檔案上傳到此位置,使其可供您的工作區使用。
選取 [下一步] 。
在 [檔案或資料夾選取範圍] 中,選取 [上傳檔案或資料夾]> [上傳檔案]。
選擇您本機電腦上的 bankmarketing_train.csv 檔案。 您下載此檔案為先決條件。
選取 [下一步] 。
上傳完成時,資料預覽區域會根據檔案類型填入。
在 [設定] 表單中,檢查資料的值。 然後選取 [下一步]。
欄位 描述 教學課程的值 檔案格式 定義檔案中所儲存資料的版面配置和類型。 Delimited (分隔檔) 分隔符號 一或多個字元,其用來指定純文字或其他資料流中個別獨立區域之間的界限。 分號 編碼 識別要用來讀取資料集之字元結構描述資料表的位元。 UTF-8 資料行標題 指出資料集標頭 (如果有的話) 的處理方式。 All files have same headers (所有檔案都有相同的標頭) Skip rows (略過資料列) 指出資料集內略過多少資料列 (如果有的話)。 None [Schema] \(結構描述\) 表單可讓您進一步設定此實驗的資料。 針對此範例,請選取 [day_of_week] 的切換開關,如此一來,就不會將它包含在內。 選取 [下一步] 。
在 [檢閱] 表單中,驗證您的資訊,然後選取 [建立]。
從清單中選取資料集。
選取資料資產並查看 [預覽] 索引標籤。確保它未包含 day_of_week,然後選取 [關閉]。
選取 [下一步] 以繼續工作設定。
設定工作
在載入和設定資料之後,您可以設定您的實驗。 這項設定包括實驗設計工作,例如,選取計算環境的大小,以及指定您要預測的資料行。
填入 [工作設定] 表單,如下所示:
選取 [y (字串)] 做為目標資料行,這是您想要預測的項目。 此資料行會指出用戶端是否已申請定期存款。
選取 [檢視其他組態設定] 並填入欄位,如下所示。 這些設定可進一步控制訓練作業。 否則會根據實驗選取範圍和資料來套用預設值。
其他組態 描述 教學課程的值 主要計量 用來測量機器學習演算法的評估計量。 AUCWeighted 解釋最佳模型 自動在自動化 ML 所建立的最佳模型上顯示可解釋性。 啟用 已封鎖的模型 您要從定型作業中排除的演算法 None 選取 [儲存]。
在 [驗證和測試] 下:
- 針對 [驗證類型],選取 [K 折交叉驗證]。
- 針對 [交叉驗證次數],選取 2。
選取 [下一步] 。
選取 [計算叢集] 作為計算類型。
計算目標是用來執行定型指令碼或裝載服務部署的本機或雲端式資源環境。 針對此實驗,您可以嘗試雲端式無伺服器計算 (預覽版) 或建立您自己的雲端式計算。
附註
若要使用無伺服器計算,請啟用預覽功能,選取 [無伺服器],然後略過此程序。
若要建立您自己的計算目標,請在 [選取計算類型] 中,選取 [計算叢集] 以設定您的計算目標。
填入虛擬機器表單,以設定您的計算。 選取 [ 新增]。
欄位 描述 教學課程的值 地點 您要執行機器的區域 美國西部 2 虛擬機器階層 選取您的實驗應具備的優先順序 專用 虛擬機器類型 為您的計算選取虛擬機器類型。 CPU (中央處理器) 虛擬機器大小 為您的計算選取虛擬機器大小。 系統會根據您的資料和實驗類型提供建議的大小清單。 Standard_DS12_V2 選取 [下一步] 以移至 [進階設定] 表單。
欄位 描述 教學課程的值 計算名稱 可識別您計算內容的唯一名稱。 automl-compute 最小/最大節點數 若要分析資料,您必須指定一個或多個節點。 最小節點: 1
最大節點數: 6縮小之前的閒置秒數 叢集自動縮小至最小節點計數之前的閒置時間。 120 (預設值) 進階設定 用於設定和授權虛擬網路以進行實驗的設定。 None 選取 [建立]。
建立計算可能需要幾分鐘的時間才能完成。
建立完成後,請從清單選取新的計算目標。 選取 [下一步] 。
選取 [提交訓練作業] 以執行實驗。 實驗準備開始時,[概觀] 畫面會隨即開啟,且其頂端會顯示 [狀態]。 此狀態會隨著實驗的進行而更新。 通知也會出現在工作室中,以通知您實驗的狀態。
重要事項
準備實驗執行需要 10-15 分鐘的時間。 執行之後,每個反覆項目需要 2-3 分鐘以上的時間。
在生產環境中,您可以先離開一下。 但是在此教學課程中,在其他項目繼續執行時,您可以開始探索 [模型] 索引標籤上完成的已測試演算法。
探索模型
瀏覽至 [模型 + 子工作] 索引標籤,以查看已測試的演算法 (模型)。 依預設,工作會在模型完成時,根據計量分數來排序模型。 在本教學課程中,根據所選 AUCWeighted 計量評分最高的模型會在清單頂端。
當您等候所有實驗模型完成時,可選取已完成模型的演算法名稱來探索其效能詳細資料。 選取 [概觀] 和 [計量] 索引標籤,以尋找工作的相關資訊。
下列動畫會檢視所選模型的屬性、計量和效能圖表。
檢視模型說明
在您等候模型完成時,也可以查看模型說明,並查看影響特定模型預測的資料功能 (原始或工程)。
這些模型說明可以視需求產生。 屬於 [說明 (預覽)] 索引標籤一部分的模型說明儀表板會對這些說明進行摘要。
若要產生模型說明:
在頁面頂端的瀏覽連結中,選取工作名稱以回到 [模型] 畫面。
選取 [模型 + 子工作] 索引標籤。
在本教學課程中,請選取第一個 MaxAbsScaler、LightGBM 模型。
選取 [說明模型]。 右側即出現 [說明模型] 窗格。
選取您的計算類型,然後選取您先前建立的執行個體或叢集:automl-compute。 此計算叢集會開始子工作以產生模型說明。
選取 [建立]。 綠色成功訊息隨即顯示。
附註
可解釋性作業大約需要 2-5 分鐘才能完成。
選取 [模型說明 (預覽)]。 此索引標籤會在可解釋性執行完成之後填入。
在左側展開窗格。 在 [功能] 下,選取顯示列的列。
選取 [彙總特徵重要性] 索引標籤。此圖表會顯示哪些資料特徵影響所選模型的預測。
在此範例中,持續時間 似乎對此模型的預測有最大的影響。
部署最佳模型
自動化機器學習介面可讓您將最佳模型部署為 Web 服務。 部署是模型的整合,因此可以根據新資料進行預測,並找出潛在的商機區域。 此實驗中對 Web 服務的部署表示金融機構現在有可反覆進行且可調整的 Web 解決方案,能識別潛在的定期存款客戶。
檢查您的實驗執行是否已完成。 若要這麼做,請選取畫面頂端的工作名稱,並瀏覽回到父工作頁面。 [完成] 狀態會顯示在畫面的左上方。
實驗執行完成後,[詳細資料] 頁面就會填入 [最佳模型摘要] 區段。 在此實驗內容中,根據 AUCWeighted 計量,VotingEnsemble 會被視為最佳模型。
部署此模型。 部署需要 20 分鐘左右的時間才能完成。 部署程序需要幾個步驟,包括註冊模型、產生資源,以及為 Web 服務設定這些資源。
選取 [VotingEnsemble] 以開啟模型特定頁面。
選取 [部署]> [Web 服務]。
填入 [部署模型] 窗格,如下所示:
欄位 值 名稱 my-automl-deploy 描述 我的第一個自動化機器學習實驗部署 計算類型 選取 [Azure 容器執行個體] 啟用驗證 停用。 使用自訂部署資產 停用。 允許自動產生預設驅動程式檔案 (計分指令碼) 和環境檔案。 在此範例中,使用 [進階] 功能表中提供的預設值。
選取 [部署]。
[工作] 畫面頂端會顯示綠色成功訊息。 在 [模型摘要] 窗格中,狀態訊息會顯示在 [部署狀態] 下。 定期選取 [重新整理] 以檢查部署狀態。
您已有可運作的 Web 服務,可用來產生預測。
若要深入了解如何取用新的 Web 服務及如何使用 Power BI 內建的 Azure Machine Learning 支援來測試您的預測,請繼續進行相關內容。
清除資源
部署檔案比資料和實驗檔案大,因此儲存的成本會較高。 如果您想要保留工作區和實驗檔案,請僅刪除部署檔案,以將帳戶的成本降至最低。 如果您不打算使用任何檔案,請刪除整個資源群組。
刪除部署執行個體
只需從 https://ml.azure.com/. 的 Azure Machine Learning 刪除部署執行個體
移至 Azure Machine Learning。 瀏覽至您的工作區,並在 [資產] 窗格下,選取 [端點]。
選取您想要刪除的部署,然後選取 [刪除]。
選取 [繼續]。
刪除資源群組
重要事項
您所建立的資源可用來作為其他 Azure Machine Learning 教學課程和操作說明文章的先決條件。
如果不打算使用您建立的任何資源,請刪除以免產生任何費用:
在 Azure 入口網站的搜尋方塊中,輸入 [資源群組],然後從結果中選取它。
從清單中,選取您所建立的資源群組。
在 [概觀] 頁面上,選取 [刪除資源群組]。
輸入資源群組名稱。 然後選取 [刪除]。
相關內容
在此自動化機器學習教學課程中,您已使用 Azure Machine Learning 的自動化 ML 介面來建立及部署分類模型。 如需詳細資訊和後續的步驟,請參閱下列資源:
- 深入了解自動化機器學習。
- 了解分類計量和圖表:評估自動化機器學習實驗結果文章。
- 深入了解如何設定 NLP 的 AutoML。
也請嘗試這些其他模型類型的自動化機器學習:
- 如需預測的無程式碼範例,請參閱教學課程:在 Azure Machine Learning 工作室中以無程式碼自動化機器學習預測需求。
- 如需物件偵測模型的第一個程式碼範例,請參閱教學課程:使用 AutoML 和 Python 來將物件偵測模型定型。