共用方式為


教學課程 2:定型信用風險模型 - 機器學習 Studio (傳統)

適用於:這是複選標記,這表示本文適用於Machine Learning Studio(傳統版)。 Machine Learning Studio (傳統版) 這是 X,這表示本文不適用於 Azure Machine Learning。Azure Machine Learning

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您依該日期轉換至 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

在本教學課程中,您會深入瞭解開發預測性分析解決方案的程式。 您可以在 機器學習 Studio 中開發簡單的模型(傳統版)。 接著,您會將模型部署為 機器學習 Web 服務。 此已部署的模型可以使用新的數據進行預測。 本教學課程是 三部分教學課程系列的第二部分

假設您需要根據他們在信用申請上提供的資訊來預測個人的信用風險。

信用風險評估是一個複雜的問題,但本教學課程會簡化它一點。 您將使用它作為如何使用 機器學習 Studio 建立預測性分析解決方案的範例(傳統版)。 您將針對此解決方案使用 機器學習 Studio(傳統版)和 機器學習 Web 服務。

在本三部分教學課程中,您會從公開可用的信用風險數據開始。 您接著會開發並定型預測模型。 最後,您會將模型部署為 Web 服務。

在本 教學課程的第一部分中,您已建立 Machine Learning Studio (傳統)工作區、上傳的數據,以及建立實驗。

在本教學課程的這個部分中,您會:

  • 定型多個模型
  • 評分和評估模型

在本 教學課程的第三部分中,您會將模型部署為Web服務。

必要條件

完成 本教學課程的第一部分

定型多個模型

使用 機器學習 Studio(傳統版)建立機器學習模型的優點之一,就是能夠在單一實驗中一次嘗試一種以上的模型,並比較結果。 這種類型的實驗可協助您找出問題的最佳解決方案。

在本教學課程中我們正在開發的實驗中,您將建立兩種不同類型的模型,然後比較其評分結果,以決定要在最終實驗中使用的演算法。

您可以選擇各種模型。 若要查看可用的模型,請展開模組選擇區中的 Machine Learning 節點,然後展開 [初始化模型 ] 及其下方的節點。 基於此實驗的目的,您將選取 Two-Class 支援向量機器 (SVM) 和 Two-Class 提升判定樹 模組。

您將在此實驗中新增 Two-Class 提升式判定樹 模組和 Two-Class 支援向量機器 模組。

二類促進式決策樹

首先,設定提升式判定樹模型。

  1. 在模組調色盤中尋找 Two-Class 提升判定樹 模組,並將其拖曳到畫布上。

  2. 尋找 定型模型 模組,將其拖曳到畫布上,然後將 Two-Class 提升判定樹 模組的輸出連接到 定型模型 模組的左側輸入埠。

    Two-Class 促進式判定樹模組會初始化泛型模型,而定型模型會使用定型數據來定型模型。

  3. 將左側 執行 R 文稿 模組的左側輸出連接到 訓練模型 模組的右輸入埠(在本教學課程中,您使用了來自分割資料模組左側的資料進行訓練)。

    提示

    您在此實驗中不需要使用 執行 R 腳本 模組的兩個輸入和一個輸出,所以可以保持它們未連結。

實驗的這個部分現在看起來像這樣:

訓練模型

現在,您必須告訴 定型模型 模組,您希望模型預測信用風險值。

  1. 選取 [訓練模型] 模組。 在[屬性]窗格中,按一下[啟動資料行選取器]

  2. 在 [ 選取單一數據行 ] 對話框中,於 [可用數據行] 底下的搜尋欄位中輸入 「信用風險」,選取下方的 [信用風險],然後按兩下向右鍵按鈕 (>) 將 [信用風險] 移至 [選取的數據行]。

    選取訓練模型模組的信用風險數據行

  3. 按兩下 [確定 ] 複選標記。

雙類別支援向量機

接下來,您會設定 SVM 模型。

首先,關於 SVM 的一些說明。 提升判定樹適用於任何類型的功能。 不過,由於 SVM 模組會產生線性分類器,因此當所有數值特徵具有相同尺度時,所產生的模型會達到最佳的測試錯誤率。 若要將所有數值特徵轉換為相同的尺度,您可以使用 “Tanh” 轉換(搭配 Normalize Data 模組)。 這會將我們的數字轉換成 [0,1] 範圍。 SVM 模組會將字串功能轉換為類別功能,然後轉換成二進位 0/1 功能,因此您不需要手動轉換字串功能。 此外,您不應該更改信用風險欄(第 21 欄)— 雖然它是數值,但這是我們訓練模型來預測的值,因此您必須保持不變。

若要設定 SVM 模型,請執行下列動作:

  1. 在模組調色盤中尋找二分類支持向量機模組,並將其拖曳到畫布上。

  2. 以滑鼠右鍵按兩下 [定型模型] 模組,選取 [ 複製],然後以滑鼠右鍵按兩下畫布,然後選取 [ 貼上]。 定型模型模組的複本與原始模組具有相同的欄位選擇。

  3. Two-Class 支援向量機器 模組的輸出連接到第二個 訓練模型 模組的左側輸入埠。

  4. 尋找 標準化數據 模組,並將其拖曳到畫布上。

  5. 將左側 執行 R 腳本 模組的左側輸出連接到此模組的輸入(請注意,模組的輸出埠可能連線到一個以上的其他模組)。

  6. 標準化數據 模組的左側輸出埠連接到第二個 訓練模型 模組的右輸入埠。

實驗的這個部分現在看起來應該像這樣:

定型第二個模型

現在設定 標準化資料 模組:

  1. 按兩下以選取 [標準化數據 ] 模組。 在 [屬性] 窗格中,針對 Transformation 方法參數選取 Tanh

  2. 點擊啟動欄選擇器,將從這開始設為「無欄位」,在第一個下拉式清單中選擇包含,在第二個下拉式清單中選擇欄位類型,然後在第三個下拉式清單中選擇數值。 這會指定所有數值欄位(僅限數值)都會被轉換。

  3. 按一下此列右邊的加號 (+) - 這會建立一列下拉選單。 在第一個下拉式清單中選取 排除,在第二個下拉式清單中選取 欄名稱,然後在文字欄位中輸入「信用風險」。 這意味著應忽略信用風險欄(您需要這麼做,因為該欄是數值型的,若不排除,將被轉換)。

  4. 點擊 確定 符號。

    選取標準化數據模組的數據行

標準化數據模組現在會設定為對所有數值數據行執行 Tanh 轉換,但信用風險數據行除外。

評分和評估模型

您可以使用由分割資料模組分出的測試資料來對已訓練的模型進行評分。 然後,您可以比較兩個模型的結果,以查看哪一個更好。

新增評分模型模組

  1. 尋找 評分模型 模組,並將其拖曳到畫布上。

  2. 將與Two-Class 提升決策樹模組連接的定型模型模組連接到評分模型模組的左側輸入埠。

  3. 將正確的 執行 R 文稿 模組 (我們的測試資料) 連接到 評分模型 模組的正確輸入埠。

    已連線評分模型模組

    評分模型模組現在可以從測試數據擷取信用資訊、透過模型執行,以及比較模型在測試數據中產生的預測與實際信用風險數據行。

  4. 複製並貼上 評分模型 模組,以建立第二個複本。

  5. 將 SVM 模型的輸出(也就是連接到 Two-Class 支援向量機器模組的定型模型模組的輸出埠)連接到第二個評分模型模組的輸入埠。

  6. 針對 SVM 模型,您必須對測試資料執行與定型數據相同的轉換。 因此,複製並貼上 Normalize 數據 模組以建立第二個複本,並將其連線到正確的 執行 R 腳本 模組。

  7. 將第二個 標準化數據 模組的左側輸出連接到第二個 評分模型 模組的右輸入埠。

    兩個評分模型模組都已連線

新增評估模型模組

若要評估兩個評分結果並加以比較,請使用 評估模型 模組。

  1. 尋找 評估模型 模組,並將其拖曳到畫布上。

  2. 將與提升式判定樹模型模型相關聯的 評分模型 模組輸出埠連接到 評估模型 模組的左側輸入埠。

  3. 將其他 評分模型 模組連接到正確的輸入埠。

    評估已連線的模型模組

執行實驗並檢查結果

若要執行實驗,請按下畫布下方的 [ 執行] 按鈕。 這可能需要幾分鐘的時間。 每個模組上的旋轉指示器會顯示其正在執行中,然後在模組完成時顯示綠色複選標記。 當所有模組都有勾選時,實驗已完成。

實驗現在看起來應該像這樣:

評估這兩個模型

若要檢查結果,請按兩下 評估模型 模組的輸出埠,然後選取 [ 可視化]。

評估模型模組會產生一組曲線和計量,可讓您比較兩個評分模型的結果。 您可以將結果檢視為接收者運算子特性 (ROC) 曲線、精確度/回收曲線或增益曲線。 顯示的其他數據包括混淆矩陣、曲線下區域的累計值(AUC),以及其他計量。 您可以藉由向左或向右移動滑桿來變更閾值,並查看其如何影響計量集合。

在圖表的右側,點擊 [評分數據集][比較評分數據集],以反白顯示相關的曲線,同時顯示下方的相關指標。 在曲線圖例中,「評分數據集」會對應至 評估模型 模組的左側輸入埠-在我們的案例中,這是提升的判定樹模型。 「要比較的評分數據集」對應到正確的輸入埠,而在我們的案例中,這是 SVM 模型。 當您按一下其中一個標籤時,該模型的曲線會反白顯示,並顯示對應的指標,如下圖所示。

模型的 ROC 曲線

藉由檢查這些值,您可以決定哪一個模型最接近提供您要尋找的結果。 您可以透過變更不同模型中的參數值,回返回去並重複進行您的實驗。

解譯這些結果及微調模型效能的科學與藝術,已超出本教學課程的範圍。 如需其他說明,您可能會閱讀下列文章:

提示

每次執行實驗時,該反覆項目的記錄都會保留在執行歷程記錄中。 您可以在畫布下方按下 [檢視執行歷程記錄] 來檢視這些反覆運算,並回到其中任何一個版本。 您也可以按下 [屬性] 窗格中的 [先前執行],立即返回到您目前開啟的上一個迭代。

您可以按下畫布下方的 [ 另存新檔 ],建立實驗任一版本的副本。 使用實驗的 [摘要 ] 和 [ 描述 ] 屬性來記錄您在實驗反覆項目中嘗試的內容。

如需詳細資訊,請參閱在Machine Learning Studio中管理實驗反覆專案(傳統版)。

清除資源

如果您不再需要使用本文建立的資源,請將其刪除,以避免產生任何費用。 瞭解如何在文章中 匯出和刪除產品內用戶數據

下一步

在本教學課程中,您已完成下列步驟:

  • 建立實驗
  • 定型多個模型
  • 評分和評估模型

您現在已準備好部署此數據的模型。