共用方式為


使用 AutoML 分類

使用 AutoML 自動尋找最佳分類演算法和超參數位態,以預測指定輸入的標籤或類別。

使用UI設定分類實驗

您可以使用 AutoML UI 搭配下列步驟來設定分類問題:

  1. 在側邊欄中,選取 [實驗]

  2. 分類 卡片中,選取 [開始訓練]。

    [設定 AutoML 實驗] 頁面隨即顯示。 在此頁面上,您會設定 AutoML 程式、指定要預測的數據集、問題類型、目標或標籤數據行、用來評估和評分實驗回合的計量,以及停止條件。

  3. 在 [計算] 欄位中,選取執行 Databricks Runtime ML 的叢集。

  4. 在 [數據集] 下,選擇 [瀏覽]。

  5. 瀏覽至您要使用的資料表,然後按下 選取。 數據表架構隨即出現。

    • 在 Databricks Runtime 10.3 ML 和更新版本中,您可以 指定 AutoML 應該用於訓練的欄位。 您無法移除作為預測目標的選取欄位或用於分割資料的時間欄位。
    • 在 Databricks Runtime 10.4 LTS ML 和更新版本中,您可以選取 [] 下拉式清單,從 [插補] 下拉式清單中選取 null 值,以指定 null 值。 根據預設,AutoML 會根據數據行類型和內容選取插補方法。

    注意

    如果您指定非預設插補方法,AutoML 不會執行語意類型偵測

  6. 按下 [預測目標] 欄位。 隨即會出現下拉式清單,其中列出結構中顯示的欄位。 選取您想要模型預測的數據行。

  7. [實驗名稱] 欄位會顯示預設名稱。 若要變更,在欄位中輸入新名稱。

您也可以:

進階組態

開啟 進階設定 (選擇性) 區段以存取這些參數。

  • 評估計量是用來對執行評分的主要計量
  • 在 Databricks Runtime 10.4 LTS ML 和更新版本中,可以將訓練架構排除在考慮之外。 根據預設,AutoML 會使用 AutoML 演算法下所列的架構來訓練模型。
  • 您可以編輯停止條件。 預設停止條件為:
    • 對於預測實驗,120 分鐘後停止。
    • 在 Databricks Runtime 10.4 LTS ML 及以下版本中,對於分類和迴歸實驗,在 60 分鐘後或完成 200 次測試後停止,以先發生者為準。 對於 Databricks Runtime 11.0 ML 及更新版本,試用次數不作為停止條件。
    • 在 Databricks Runtime 10.4 ML 和更新版本中,對於分類和迴歸實驗,AutoML 會納入早期停止功能;如果驗證計量不再有所改善,該功能會停止訓練和微調模型。
  • 在 Databricks Runtime 10.4 LTS ML 和更新版本中,您可以選取 time column,以時間順序分割定型、驗證和測試的數據(僅適用於 分類回歸)。
  • Databricks 建議將 [資料目錄 ] 字段保留空白。 未填入此欄位會觸發將數據集安全地儲存為 MLflow 成品的預設行為。 您可以指定 DBFS 路徑,但在此情況下,數據集不會繼承 AutoML 實驗的訪問許可權。

執行實驗並監視結果

若要啟動 AutoML 實驗,按下 [啟動 AutoML]。 實驗會開始執行,[AutoML 訓練] 頁面將隨即顯示。 若要重新整理執行資料表,請按下 「重新整理」按鈕

檢視實驗進度

您可以從這個頁面執行下列動作:

  • 隨時停止實驗。
  • 開啟資料探索筆記本。
  • 監視執行。
  • 瀏覽至任何執行的執行頁面。

使用 Databricks Runtime 10.1 ML 和更新版本時,AutoML 會顯示數據集潛在問題的警告,例如不支援的數據行類型或高基數數據行。

注意

Databricks 會盡最大努力指出潛在錯誤或問題。 不過,這可能並不完整,而且可能無法擷取您可能搜尋的問題或錯誤。

若要查看資料集的任何警告,請在實驗完成後,按下訓練頁面或實驗頁面上的 [警告] 索引標籤。

AutoML 警告

檢視結果

實驗完成時,您可以:

  • 使用 MLflow 註冊並部署一個模型。
  • 選取 [檢視筆記本] 以檢閱和編輯與建立最佳模型相關的筆記本
  • 選擇 檢視數據探索筆記本,開啟數據探索筆記本。
  • 對執行表中的紀錄進行搜尋、篩選和排序。
  • 參閱任意執行的詳細資料:
    • 按下進入 MLflow 執行,即可找到產生的包含試執行原始程式碼的筆記本。 筆記本會儲存在執行頁面的 [成品] 區段中。 如果工作區系統管理員已啟用下載成品,您可以下載此筆記本並將其匯入到工作區。
    • 若要檢視執行結果,請在 [Models] 欄或 [開始時間] 欄中點擊。 [執行] 頁面隨即出現,其中顯示試用版執行的相關信息(例如參數、計量和標籤),以及執行所建立的成品,包括模型。 此頁面也包含您可以使用模型進行預測的程式碼片段。

若要稍後返回此 AutoML 實驗,請在 [實驗] 頁面上的表格中找到它,。 每個 AutoML 實驗的結果 (包括資料探索和訓練筆記本) 都會儲存在執行實驗之使用者的databricks_automl 資料夾中。

註冊和部署模型

使用 AutoML UI 註冊並部署您的模型。 執行完成時,頂列會根據主要指標顯示最佳模型。

  1. 針對您要註冊的模型,選取 [ 模型 ] 數據行中的連結。
  2. 選取 [註冊模型] 按鈕 ,將其註冊至 Unity 目錄或 模型登錄

    注意

    Databricks 建議您將模型註冊至 Unity 目錄,以取得最新功能。

  3. 註冊之後,您可以將模型部署至 自訂模型服務端點

沒有名為 『pandas.core.indexes.numeric』 的模組

使用 AutoML 與模型服務來部署的模型時,您可能會收到錯誤:No module named 'pandas.core.indexes.numeric

這是由於 AutoML 與模型服務端點環境之間的 pandas 版本不相容。 您可以執行 add-pandas-dependency.py script 來解決此錯誤。 此指令碼會為您記錄的模型編輯 requirements.txtconda.yaml,以包含適當的 pandas 相依性版本:pandas==1.5.3

  1. 修改腳本以包含記錄模型之 MLflow 執行 run_id
  2. 將模型重新註冊至 Unity 目錄或模型登錄。
  3. 嘗試為新版 MLflow 模型提供服務。

下一步