使用工作室 UI 來設定無程式碼的 AutoML 訓練

在本文中,您將瞭解如何不使用任何程式碼在 Azure Machine Learning 工作室 中以 Azure Machine Learning 自動化 ML 來設定 AutoML 定型作業。

自動化機器學習 (AutoML) 是針對特定資料來選取最佳機器學習服務演算法的流程。 此流程可讓您快速產生機器學習模型。 深入了解 Azure Machine Learning 如何實作自動化機器學習

如需端對端範例,請參考教學課程:AutoML - 訓練無程式碼分類模型

如需以 Python 程式碼為基礎的體驗,請使用 Azure Machine Learning SDK 設定自動化機器學習實驗

Prerequisites

開始使用

  1. 登入 Azure Machine Learning Studio

  2. 選取訂用帳戶及工作區。

  3. 巡覽至左側窗格。 選取位於 [撰寫] 區段下的 [自動化 ML]。

Azure Machine Learning Studio 導覽窗格

若這是第一次執行任何實驗,則將會看到空白清單,以及前往文件的連結。

否則,您會看到最近的自動化 ML 實驗清單,包括使用 SDK 建立的實驗。

建立及執行實驗

  1. 選取 [+ 新增自動化 ML 作業] 並填入表單。

  2. 從儲存體容器選取資料集,或建立新資料集。 資料集可從本機檔案、Web URL、資料存放區或 Azure 開放資料集來建立。 深入瞭解資料集建立

    重要

    定型資料的需求:

    • 資料必須是表格式形式。
    • 您想要預測的值 (目標資料行) 必須存在於資料中。
    1. 若要從本機電腦上的檔案建立新資料集,請選取 [+ 建立資料集],然後選取 [從本機檔案]。

    2. 在 [基本資訊] 表單中,為資料集提供唯一名稱,並提供選擇性描述。

    3. 選取 [下一步] 來開啟 [資料存放區和檔案選取表單]。 在此表單上,您將會選取上傳資料集的位置:與工作區一同自動建立的預設儲存體容器,或選取想要用於實驗的儲存體容器。

      1. 如果您的資料位於虛擬網路後方,您必須啟用 [略過驗證] 功能,以確保工作區可以存取您的資料。 如需詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室
    4. 選取 [瀏覽],為您的資料集上傳資料檔案。

    5. 檢閱 [設定和預覽] 表單以進行確認。 表單會根據檔案類型以智慧方式填入。

      欄位 描述
      檔案格式 定義檔案中所儲存資料的版面配置和類型。
      分隔符號 一或多個字元,其用來指定純文字或其他資料流中個別獨立區域之間的界限。
      編碼 識別要用來讀取資料集之字元結構描述資料表的位元。
      資料行標題 指出資料集標題 (如果有的話) 的處理方式。
      Skip rows (略過資料列) 指出資料集內略過多少資料列 (如果有的話)。

      選取 [下一步] 。

    6. [結構描述] 表單會根據在 [設定與預覽] 表單中選取的項目以智慧方式填入。 請在此處設定每個資料行的資料類型、檢閱資料行名稱,以及選取針對實驗不要包含哪些資料行。

      選取 [下一步]。

    7. [確認詳細資料] 表單上會顯示先前在 [基本資訊] 和 [設定與預覽] 表單中填入的資訊摘要。 您也可以選擇使用啟用分析的計算,為資料集建立資料設定檔。 深入了解資料分析

      選取 [下一步] 。

  3. 在新建立的資料集出現後選取該資料集。 您也可以檢視資料集的預覽和範例統計資料。

  4. 在 [設定作業] 表單上,選取 [建立新項目],然後輸入 Tutorial-automl-deploy 作為實驗名稱。

  5. 選取目標資料行;這是將要進行預測的資料行。

  6. 為資料分析和訓練作業選取計算類型。 您可以選取計算叢集計算執行個體

  7. 從現有計算的下拉式清單中選取計算。 若要建立新的計算,請遵循步驟 8 中的指示。

  8. 選取 [建立新的計算] 來針對此實驗設定計算內容。

    欄位 描述
    計算名稱 輸入可識別您計算內容的唯一名稱。
    虛擬機器優先順序 雖然低優先順序的虛擬機器較便宜,但無法保證計算節點。
    虛擬機器類型 選取 CPU 或 GPU 作為虛擬機器類型。
    虛擬機器大小 為您的計算選取虛擬機器大小。
    最小/最大節點數 若要分析資料,您必須指定一個或多個節點。 輸入所計算的節點數上限。 預設為 Azure Machine Learning Compute 的 6 個節點。
    進階設定 這些設定可讓您為您的實驗設定使用者帳戶和現有虛擬網路。

    選取 [建立]。 建立新的計算可能會需要數分鐘。

    注意

    計算名稱會指出所選/建立的計算是否已「啟用分析」。 (如需詳細資料,請參閱資料分析)。

    選取 [下一步] 。

  9. 在 [工作類型和設定] 表單上,選取工作類型:分類、迴歸,或預測。 如需詳細資訊,請參閱支援的工作類型

    1. 針對 [分類],您也可以啟用深度學習。

      如果啟用了深度學習,則驗證會限制為 train_validation 分割) 深入瞭解 SDK v1 (驗證選項

    2. 針對 [預測],您可以:

      1. 啟用深度學習。

      2. 選取時間資料行:這個資料行包含要使用的時間資料。

      3. 選取預測範圍:指出模型能夠預測未來多少時間單位 (分鐘/小時/天/週/月/年)。 模型需要針對未來預測的時間越長,其正確性越低。 深入了解預測及預測範圍

  10. (選擇性) 檢視其他組態設定:可用來更進一步控制訓練作業的其他設定。 否則會根據實驗選取範圍和資料來套用預設值。

    其他組態 描述
    主要計量 用來評分模型的主要計量。 深入了解模型計量
    解釋最佳模型 選取啟用或停用,以顯示建議的最佳模型說明。
    這項功能目前不適用於特定的預測演算法
    封鎖的演算法 選取要從訓練作業中排除的演算法。

    允許演算法僅用於 SDK 實驗
    請參閱每個工作類型支援的模型
    結束準則 當符合其中任何一項準則時,訓練作業即會停止。
    訓練作業時間 (小時):允許訓練作業執行的時間長度。
    計量分數閾值:所有管線的最低計量分數。 這可確保若擁有想要達到的已定義目標計量,則不會在訓練作業上花費超過必要程度的時間。
    並行 並行反覆項目上限:要在訓練作業中測試的管線 (反覆項目) 數量上限。 作業不會執行超過指定數量的反覆項目。 深入瞭解自動化 ML 如何執行叢集上的多個子作業
  11. (選擇性) 檢視特徵化設定:如果您選擇在 [其他設定] 表單中啟用 [自動特徵化],則會套用預設的特徵化技術。 在 [檢視特徵化設定] 中,您可以變更這些預設值,並據以進行自訂。 了解如何自訂特徵化

    螢幕擷取畫面顯示 [選取工作類型] 對話方塊,並已呼叫 [檢視特徵化設定]。

  12. [選擇性] 驗證和測試表單可讓您執行下列作業。

    1. 指定要用於訓練作業的驗證類型。 深入瞭解 (SDK v1) 的交叉驗證

      1. 預測工作只支援 K 折交叉驗證。
    2. 提供測試資料集 (預覽) 來評估自動化 ML 在實驗結束時為您產生的建議模型。 您提供測試資料時,測試作業會在實驗結束時進行自動觸發。 此測試作業只會在自動化 ML 所建議的最佳模型上作業。 學習如何取得遠端測試作業的結果

      重要

      提供測試資料集來評估產生的模型是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。

      • 測試資料會被視為與訓練和驗證不同,因此不會使得建議模型的測試作業結果產生偏差。 深入了解模型驗證期間的偏差
      • 您可以提供自己的測試資料集,或選擇使用訓練資料集的百分比。 測試資料的格式必須是 Azure Machine Learning TabularDataset
      • 測試資料集的結構描述應該符合訓練資料集。 目標資料行是選擇性的,但如果沒有指定目標資料行,則不會計算任何測試單位。
      • 測試資料集不應與訓練資料集或驗證資料集相同。
      • 預測作業不支援訓練/測試分割。

      螢幕擷取畫面顯示表單中選取驗證資料和測試資料的位置。

自訂特徵化

特徵化表單中,您可以啟用/停用自動特徵化,以及為您的實驗自訂自動特徵化設定。 若要開啟此表單,請參閱建立和執行實驗一節中的步驟 10。

下表摘要說明目前可透過工作室完成的自訂。

資料行 自訂
已包括 指定要包含哪些資料行以供訓練。
功能類型 變更所選資料行的實值型別。
插補 選取要在資料中插補遺漏值的值。

Azure Machine Learning 工作室自訂特徵化

執行實驗並檢視結果

選取 [完成] 以執行實驗。 實驗準備流程最多需要 10 分鐘。 訓練作業可能需要額外 2-3 分鐘不等,才能讓每個管線完成執行。

注意

自動化 ML 採用的演算法具有固有的隨機性,可能會導致建議模型的最終計量分數有些微變化,例如精確度。 自動化 ML 也會在必要時對資料 (例如,訓練測試分割、訓練驗證分割或交叉驗證) 執行作業。 因此,如果您以相同設定和主要計量多次執行實驗,您可能會在每個實驗的最終計量分數中看到這些因素造成的差異。

檢視實驗詳細資料

[作業詳細資料] 畫面會在 [詳細資料] 索引標籤中開啟。此畫面會顯示實驗工作的摘要,並會在頂端作業編號旁顯示狀態列。

[模型] 索引標籤包含依計量分數所建立的模型清單。 依預設,根據所選計量評分最高的模型會出現在清單頂端。 如果訓練作業嘗試多個模型,系統會將所有結果新增到清單中。 使用此方式快速比較到目前為止所產生的各個模型計量。

作業詳細資料

檢視訓練作業詳細資料

在任何已完成的模型上向下切入,以查看訓練作業的詳細資料。 在 [模型] 索引標籤上檢視詳細資料,例如模型摘要和用於所選模型的超參數。

超參數詳細資料

您也可以在 [計量] 索引標籤上查看模型專屬的效能計量圖表。深入了解圖表

反覆項目詳細資料

在 [資料轉換] 索引標籤中,您可以看到資料前置處理、特徵工程、調整技術以及用來產生此模型的機器學習演算法的圖表。

重要

[資料轉換] 索引標籤處於預覽狀態。 此功能是實驗性預覽功能,而且可能隨時變更。

資料轉換

檢視遠端測試作業的結果 (預覽版)

如果您在實驗設定期間指定測試資料集或選擇訓練/測試分割--在 [驗證和測試] 表單上,自動化 ML 預設會自動測試建議的模型。 如此一來,自動化 ML 會計算測試計量,以判斷建議模型和其預測的品質。

重要

有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。

若要檢視建議模型的測試作業計量,

  1. 瀏覽至 [模型] 頁面,選取最佳模型。
  2. 選取 [測試結果 (預覽)] 索引標籤。
  3. 選取您要的作業,檢視 [計量] 索引標籤。自動測試建議模型的測試結果索引標籤

若要檢視用來計算測試計量的測試預測,

  1. 瀏覽至頁面底部,然後選取 [輸出資料集] 底下的連結,以開啟資料集。
  2. 在 [資料集] 頁面上,選取 [探索] 索引標籤,以檢視該測試作業的預測。
    1. 或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾以找出您的 predicted.csv 檔案。

或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾來找出您的 predictions.csv 檔案。

模型測試作業會產生 predictions.csv 檔案,並儲存在與工作區一起建立的預設資料存放區。 具有相同訂用帳戶的所有使用者都可以看到此資料存放區。 如果測試作業所使用或所建立的任何資訊都必需保密,則不建議使用測試作業。

測試現有的自動化 ML 模型 (預覽)

重要

有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。

當您的實驗完成之後,您可以測試自動 ML 為您產生的模型。 如果您想要測試不同自動化 ML 產生的模型,而不是測試建議模型,您可以使用下列步驟來執行此作業。

  1. 選取現有的自動化 ML 實驗作業。

  2. 瀏覽至作業的 [模型] 索引標籤,然後選取想要測試的已完成模型。

  3. 在模型的 [詳細資料] 頁面上,選取 [測試模型 (預覽)] 按鈕,以開啟 [測試模型] 窗格。

  4. 在 [測試模型] 窗格中,選取想要用於測試作業的計算叢集和測試資料集。

  5. 選取 [測試] 按鈕。 測試資料集的結構描述應該符合訓練資料集,但 [目標資料行] 是選用項目。

  6. 成功建立模型測試作業之後,[詳細資料] 分頁會顯示成功訊息。 選取 [測試結果] 索引標籤,以查看作業的進度。

  7. 若要檢視測試作業的結果,請開啟 [詳細資料] 分頁,並依照檢視遠端測試作業的結果一節的步驟執行。

    測試模型表單

模型說明 (預覽)

若要進一步了解您的模型,您可以使用模型說明儀表板查看影響模型預測的資料特徵 (原始或工程)。

模型說明儀表板會提供訓練模型的整體分析,以及其預測和說明。 也可讓您深入了解個別的資料點和其個別的特徵重要度。 深入了解說明儀表板視覺效果

若要取得特定模型的說明,

  1. 在 [模型] 索引標籤中,為您想要了解的模型。

  2. 選取 [說明模型] 按鈕,並提供可用來產生說明的計算。

  3. 檢查 [子作業] 索引標籤中的狀態。

  4. 完成之後,請瀏覽至包含說明儀表板的 [說明 (預覽)] 索引標籤。

    模型說明儀表板

編輯和提交作業 (預覽版)

重要

根據現有實驗複製、編輯和提交新實驗的功能是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。

在您想要根據現有實驗的設定建立新實驗的情況下,自動化 ML 提供在 Studio UI 中使用 [編輯和提交] 按鈕的選項。

這項功能僅限於從 Studio UI 起始的體驗,而且需要新實驗的資料結構描述,以符合原始實驗的資料結構描述。

[編輯並提交] 按鈕會開啟 [建立新的自動化 ML 作業] 精靈,並預先填入資料、計算和實驗設定。 您可以視需要瀏覽每個表單,並視需要編輯新實驗的選取項目。

部署模型

當手邊具備最佳模型時,即可將其作為 Web 服務部署以預測新的資料。

提示

如果您想要使用 Python SDK 來部署透過 automl 套件產生的模型,您必須向工作區註冊您的模型

當您註冊模型之後,請選取工作室左側窗格中的 [模型] 來尋找該模型。 開啟您的模型之後,您可以選取畫面頂端的 [部署] 按鈕,然後依照部署模型一節中步驟 2 所述的指示進行。

自動化 ML 可協助部署模型,而無須撰寫程式碼:

  1. 您有數個部署選項。

    • 選項 1:根據您所定義的計量準則,部署最佳模型。

      1. 實驗完成後,請選取畫面控制項頂端的 [作業 1],瀏覽至父代執行分頁。
      2. 選取最佳模型摘要一節中所列的模型。
      3. 在視窗左上方選取 [部署]。
    • 選項 2:若要從此實驗部署特定模型反覆項目。

      1. 從 [模型] 索引標籤中選取所需的模型
      2. 在視窗左上方選取 [部署]。
  2. 填入 [部署模型] 窗格。

    欄位
    名稱 輸入部署的唯一名稱。
    描述 輸入描述以更清楚地識別此部署的用途。
    計算類型 選取想要部署的端點類型:Azure Kubernetes Service (AKS)Azure 容器執行個體 (ACI)
    計算名稱 僅適用於 AKS:選取想要部署的目標 AKS 叢集名稱。
    啟用驗證 選取允許以權杖為基礎或以金鑰為基礎的驗證。
    使用自訂部署資產 若想要上傳自己的評分指令碼和環境檔案,請啟用此功能。 否則,自動化 ML 會依預設來為您提供這些資產。 深入了解評分指令碼

    重要

    檔案名稱必須少於 32 個字元,且必須以英數字元開始及結束。 其中可包含虛線、底線、點和英數字元。 不允許空格。

    「進階」功能表提供預設部署功能,例如資料收集和資源使用率設定。 若想要覆寫這些預設,請在此功能表中進行。

  3. 選取 [部署]。 部署需要約 20 分鐘才能完成。 開始部署後,會出現 [模型摘要] 索引標籤。 請參閱部署狀態一節底下的部署進度。

現在您已擁有可運作的 Web 服務,可用來產生預測! 您可從 Power BI 內建的 Azure Machine Learning 支援以透過查詢服務來測試預測。

後續步驟