使用工作室 UI 來設定無程式碼的 AutoML 訓練
在本文中,您將瞭解如何不使用任何程式碼在 Azure Machine Learning 工作室 中以 Azure Machine Learning 自動化 ML 來設定 AutoML 定型作業。
自動化機器學習 (AutoML) 是針對特定資料來選取最佳機器學習服務演算法的流程。 此流程可讓您快速產生機器學習模型。 深入了解 Azure Machine Learning 如何實作自動化機器學習。
如需端對端範例,請參考教學課程:AutoML - 訓練無程式碼分類模型。
如需以 Python 程式碼為基礎的體驗,請使用 Azure Machine Learning SDK 設定自動化機器學習實驗。
Prerequisites
Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請在開始前先建立免費帳戶。 立即試用免費或付費版本的 Azure Machine Learning。
Azure Machine Learning 工作區。 請參閱建立工作區資源。
開始使用
選取訂用帳戶及工作區。
巡覽至左側窗格。 選取位於 [撰寫] 區段下的 [自動化 ML]。
若這是第一次執行任何實驗,則將會看到空白清單,以及前往文件的連結。
否則,您會看到最近的自動化 ML 實驗清單,包括使用 SDK 建立的實驗。
建立及執行實驗
選取 [+ 新增自動化 ML 作業] 並填入表單。
從儲存體容器選取資料集,或建立新資料集。 資料集可從本機檔案、Web URL、資料存放區或 Azure 開放資料集來建立。 深入瞭解資料集建立。
重要
定型資料的需求:
- 資料必須是表格式形式。
- 您想要預測的值 (目標資料行) 必須存在於資料中。
若要從本機電腦上的檔案建立新資料集,請選取 [+ 建立資料集],然後選取 [從本機檔案]。
在 [基本資訊] 表單中,為資料集提供唯一名稱,並提供選擇性描述。
選取 [下一步] 來開啟 [資料存放區和檔案選取表單]。 在此表單上,您將會選取上傳資料集的位置:與工作區一同自動建立的預設儲存體容器,或選取想要用於實驗的儲存體容器。
- 如果您的資料位於虛擬網路後方,您必須啟用 [略過驗證] 功能,以確保工作區可以存取您的資料。 如需詳細資訊,請參閱在 Azure 虛擬網路中使用 Azure Machine Learning 工作室。
選取 [瀏覽],為您的資料集上傳資料檔案。
檢閱 [設定和預覽] 表單以進行確認。 表單會根據檔案類型以智慧方式填入。
欄位 描述 檔案格式 定義檔案中所儲存資料的版面配置和類型。 分隔符號 一或多個字元,其用來指定純文字或其他資料流中個別獨立區域之間的界限。 編碼 識別要用來讀取資料集之字元結構描述資料表的位元。 資料行標題 指出資料集標題 (如果有的話) 的處理方式。 Skip rows (略過資料列) 指出資料集內略過多少資料列 (如果有的話)。 選取 [下一步] 。
[結構描述] 表單會根據在 [設定與預覽] 表單中選取的項目以智慧方式填入。 請在此處設定每個資料行的資料類型、檢閱資料行名稱,以及選取針對實驗不要包含哪些資料行。
選取 [下一步]。
[確認詳細資料] 表單上會顯示先前在 [基本資訊] 和 [設定與預覽] 表單中填入的資訊摘要。 您也可以選擇使用啟用分析的計算,為資料集建立資料設定檔。 深入了解資料分析。
選取 [下一步] 。
在新建立的資料集出現後選取該資料集。 您也可以檢視資料集的預覽和範例統計資料。
在 [設定作業] 表單上,選取 [建立新項目],然後輸入 Tutorial-automl-deploy 作為實驗名稱。
選取目標資料行;這是將要進行預測的資料行。
從現有計算的下拉式清單中選取計算。 若要建立新的計算,請遵循步驟 8 中的指示。
選取 [建立新的計算] 來針對此實驗設定計算內容。
欄位 描述 計算名稱 輸入可識別您計算內容的唯一名稱。 虛擬機器優先順序 雖然低優先順序的虛擬機器較便宜,但無法保證計算節點。 虛擬機器類型 選取 CPU 或 GPU 作為虛擬機器類型。 虛擬機器大小 為您的計算選取虛擬機器大小。 最小/最大節點數 若要分析資料,您必須指定一個或多個節點。 輸入所計算的節點數上限。 預設為 Azure Machine Learning Compute 的 6 個節點。 進階設定 這些設定可讓您為您的實驗設定使用者帳戶和現有虛擬網路。 選取 [建立]。 建立新的計算可能會需要數分鐘。
注意
計算名稱會指出所選/建立的計算是否已「啟用分析」。 (如需詳細資料,請參閱資料分析)。
選取 [下一步] 。
在 [工作類型和設定] 表單上,選取工作類型:分類、迴歸,或預測。 如需詳細資訊,請參閱支援的工作類型。
針對 [分類],您也可以啟用深度學習。
如果啟用了深度學習,則驗證會限制為 train_validation 分割。 ) 深入瞭解 SDK v1 (驗證選項 。
針對 [預測],您可以:
啟用深度學習。
選取時間資料行:這個資料行包含要使用的時間資料。
選取預測範圍:指出模型能夠預測未來多少時間單位 (分鐘/小時/天/週/月/年)。 模型需要針對未來預測的時間越長,其正確性越低。 深入了解預測及預測範圍。
(選擇性) 檢視其他組態設定:可用來更進一步控制訓練作業的其他設定。 否則會根據實驗選取範圍和資料來套用預設值。
其他組態 描述 主要計量 用來評分模型的主要計量。 深入了解模型計量。 解釋最佳模型 選取啟用或停用,以顯示建議的最佳模型說明。
這項功能目前不適用於特定的預測演算法。封鎖的演算法 選取要從訓練作業中排除的演算法。
允許演算法僅用於 SDK 實驗。
請參閱每個工作類型支援的模型。結束準則 當符合其中任何一項準則時,訓練作業即會停止。
訓練作業時間 (小時):允許訓練作業執行的時間長度。
計量分數閾值:所有管線的最低計量分數。 這可確保若擁有想要達到的已定義目標計量,則不會在訓練作業上花費超過必要程度的時間。並行 並行反覆項目上限:要在訓練作業中測試的管線 (反覆項目) 數量上限。 作業不會執行超過指定數量的反覆項目。 深入瞭解自動化 ML 如何執行叢集上的多個子作業。 (選擇性) 檢視特徵化設定:如果您選擇在 [其他設定] 表單中啟用 [自動特徵化],則會套用預設的特徵化技術。 在 [檢視特徵化設定] 中,您可以變更這些預設值,並據以進行自訂。 了解如何自訂特徵化。
[選擇性] 驗證和測試表單可讓您執行下列作業。
指定要用於訓練作業的驗證類型。 深入瞭解 (SDK v1) 的交叉驗證 。
- 預測工作只支援 K 折交叉驗證。
提供測試資料集 (預覽) 來評估自動化 ML 在實驗結束時為您產生的建議模型。 您提供測試資料時,測試作業會在實驗結束時進行自動觸發。 此測試作業只會在自動化 ML 所建議的最佳模型上作業。 學習如何取得遠端測試作業的結果。
重要
提供測試資料集來評估產生的模型是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。
- 測試資料會被視為與訓練和驗證不同,因此不會使得建議模型的測試作業結果產生偏差。 深入了解模型驗證期間的偏差。
- 您可以提供自己的測試資料集,或選擇使用訓練資料集的百分比。 測試資料的格式必須是 Azure Machine Learning TabularDataset。
- 測試資料集的結構描述應該符合訓練資料集。 目標資料行是選擇性的,但如果沒有指定目標資料行,則不會計算任何測試單位。
- 測試資料集不應與訓練資料集或驗證資料集相同。
- 預測作業不支援訓練/測試分割。
自訂特徵化
在特徵化表單中,您可以啟用/停用自動特徵化,以及為您的實驗自訂自動特徵化設定。 若要開啟此表單,請參閱建立和執行實驗一節中的步驟 10。
下表摘要說明目前可透過工作室完成的自訂。
資料行 | 自訂 |
---|---|
已包括 | 指定要包含哪些資料行以供訓練。 |
功能類型 | 變更所選資料行的實值型別。 |
插補 | 選取要在資料中插補遺漏值的值。 |
執行實驗並檢視結果
選取 [完成] 以執行實驗。 實驗準備流程最多需要 10 分鐘。 訓練作業可能需要額外 2-3 分鐘不等,才能讓每個管線完成執行。
注意
自動化 ML 採用的演算法具有固有的隨機性,可能會導致建議模型的最終計量分數有些微變化,例如精確度。 自動化 ML 也會在必要時對資料 (例如,訓練測試分割、訓練驗證分割或交叉驗證) 執行作業。 因此,如果您以相同設定和主要計量多次執行實驗,您可能會在每個實驗的最終計量分數中看到這些因素造成的差異。
檢視實驗詳細資料
[作業詳細資料] 畫面會在 [詳細資料] 索引標籤中開啟。此畫面會顯示實驗工作的摘要,並會在頂端作業編號旁顯示狀態列。
[模型] 索引標籤包含依計量分數所建立的模型清單。 依預設,根據所選計量評分最高的模型會出現在清單頂端。 如果訓練作業嘗試多個模型,系統會將所有結果新增到清單中。 使用此方式快速比較到目前為止所產生的各個模型計量。
檢視訓練作業詳細資料
在任何已完成的模型上向下切入,以查看訓練作業的詳細資料。 在 [模型] 索引標籤上檢視詳細資料,例如模型摘要和用於所選模型的超參數。
您也可以在 [計量] 索引標籤上查看模型專屬的效能計量圖表。深入了解圖表。
在 [資料轉換] 索引標籤中,您可以看到資料前置處理、特徵工程、調整技術以及用來產生此模型的機器學習演算法的圖表。
重要
[資料轉換] 索引標籤處於預覽狀態。 此功能是實驗性預覽功能,而且可能隨時變更。
檢視遠端測試作業的結果 (預覽版)
如果您在實驗設定期間指定測試資料集或選擇訓練/測試分割--在 [驗證和測試] 表單上,自動化 ML 預設會自動測試建議的模型。 如此一來,自動化 ML 會計算測試計量,以判斷建議模型和其預測的品質。
重要
有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。
警告
下列自動化 ML 案例無法使用此功能
若要檢視建議模型的測試作業計量,
- 瀏覽至 [模型] 頁面,選取最佳模型。
- 選取 [測試結果 (預覽)] 索引標籤。
- 選取您要的作業,檢視 [計量] 索引標籤。
若要檢視用來計算測試計量的測試預測,
- 瀏覽至頁面底部,然後選取 [輸出資料集] 底下的連結,以開啟資料集。
- 在 [資料集] 頁面上,選取 [探索] 索引標籤,以檢視該測試作業的預測。
- 或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾以找出您的
predicted.csv
檔案。
- 或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾以找出您的
或者,您也可以從 [輸出 + 記錄] 索引標籤檢視/下載預測檔案,您可以展開 [預測] 資料夾來找出您的 predictions.csv 檔案。
模型測試作業會產生 predictions.csv 檔案,並儲存在與工作區一起建立的預設資料存放區。 具有相同訂用帳戶的所有使用者都可以看到此資料存放區。 如果測試作業所使用或所建立的任何資訊都必需保密,則不建議使用測試作業。
測試現有的自動化 ML 模型 (預覽)
重要
有一項預覽功能是使用測試資料集來測試模型以評估產生的模型。 此功能是實驗性預覽功能,而且可能隨時變更。
警告
下列自動化 ML 案例無法使用此功能
當您的實驗完成之後,您可以測試自動 ML 為您產生的模型。 如果您想要測試不同自動化 ML 產生的模型,而不是測試建議模型,您可以使用下列步驟來執行此作業。
選取現有的自動化 ML 實驗作業。
瀏覽至作業的 [模型] 索引標籤,然後選取想要測試的已完成模型。
在模型的 [詳細資料] 頁面上,選取 [測試模型 (預覽)] 按鈕,以開啟 [測試模型] 窗格。
在 [測試模型] 窗格中,選取想要用於測試作業的計算叢集和測試資料集。
選取 [測試] 按鈕。 測試資料集的結構描述應該符合訓練資料集,但 [目標資料行] 是選用項目。
成功建立模型測試作業之後,[詳細資料] 分頁會顯示成功訊息。 選取 [測試結果] 索引標籤,以查看作業的進度。
若要檢視測試作業的結果,請開啟 [詳細資料] 分頁,並依照檢視遠端測試作業的結果一節的步驟執行。
模型說明 (預覽)
若要進一步了解您的模型,您可以使用模型說明儀表板查看影響模型預測的資料特徵 (原始或工程)。
模型說明儀表板會提供訓練模型的整體分析,以及其預測和說明。 也可讓您深入了解個別的資料點和其個別的特徵重要度。 深入了解說明儀表板視覺效果。
若要取得特定模型的說明,
在 [模型] 索引標籤中,為您想要了解的模型。
選取 [說明模型] 按鈕,並提供可用來產生說明的計算。
檢查 [子作業] 索引標籤中的狀態。
完成之後,請瀏覽至包含說明儀表板的 [說明 (預覽)] 索引標籤。
編輯和提交作業 (預覽版)
重要
根據現有實驗複製、編輯和提交新實驗的功能是預覽功能。 此功能是實驗性預覽功能,而且可能隨時變更。
在您想要根據現有實驗的設定建立新實驗的情況下,自動化 ML 提供在 Studio UI 中使用 [編輯和提交] 按鈕的選項。
這項功能僅限於從 Studio UI 起始的體驗,而且需要新實驗的資料結構描述,以符合原始實驗的資料結構描述。
[編輯並提交] 按鈕會開啟 [建立新的自動化 ML 作業] 精靈,並預先填入資料、計算和實驗設定。 您可以視需要瀏覽每個表單,並視需要編輯新實驗的選取項目。
部署模型
當手邊具備最佳模型時,即可將其作為 Web 服務部署以預測新的資料。
提示
如果您想要使用 Python SDK 來部署透過 automl
套件產生的模型,您必須向工作區註冊您的模型。
當您註冊模型之後,請選取工作室左側窗格中的 [模型] 來尋找該模型。 開啟您的模型之後,您可以選取畫面頂端的 [部署] 按鈕,然後依照部署模型一節中步驟 2 所述的指示進行。
自動化 ML 可協助部署模型,而無須撰寫程式碼:
您有數個部署選項。
選項 1:根據您所定義的計量準則,部署最佳模型。
- 實驗完成後,請選取畫面控制項頂端的 [作業 1],瀏覽至父代執行分頁。
- 選取最佳模型摘要一節中所列的模型。
- 在視窗左上方選取 [部署]。
選項 2:若要從此實驗部署特定模型反覆項目。
- 從 [模型] 索引標籤中選取所需的模型
- 在視窗左上方選取 [部署]。
填入 [部署模型] 窗格。
欄位 值 名稱 輸入部署的唯一名稱。 描述 輸入描述以更清楚地識別此部署的用途。 計算類型 選取想要部署的端點類型:Azure Kubernetes Service (AKS) 或 Azure 容器執行個體 (ACI)。 計算名稱 僅適用於 AKS:選取想要部署的目標 AKS 叢集名稱。 啟用驗證 選取允許以權杖為基礎或以金鑰為基礎的驗證。 使用自訂部署資產 若想要上傳自己的評分指令碼和環境檔案,請啟用此功能。 否則,自動化 ML 會依預設來為您提供這些資產。 深入了解評分指令碼。 重要
檔案名稱必須少於 32 個字元,且必須以英數字元開始及結束。 其中可包含虛線、底線、點和英數字元。 不允許空格。
「進階」功能表提供預設部署功能,例如資料收集和資源使用率設定。 若想要覆寫這些預設,請在此功能表中進行。
選取 [部署]。 部署需要約 20 分鐘才能完成。 開始部署後,會出現 [模型摘要] 索引標籤。 請參閱部署狀態一節底下的部署進度。
現在您已擁有可運作的 Web 服務,可用來產生預測! 您可從 Power BI 內建的 Azure Machine Learning 支援以透過查詢服務來測試預測。
後續步驟
- 了解如何取用 Web 服務。
- 了解自動化機器學習結果。
- 深入了解自動化機器學習和 Azure Machine Learning。