分享方式:


使用 Azure Databricks AutoML Python API 定型 ML 模型

本文示範如何使用 AutoML Python API 使用 Azure Databricks AutoML 來定型模型。 如需詳細資訊,請參閱 Azure Databricks AutoML Python API 參考

API 提供函式來開始分類、回歸和預測 AutoML 執行。 每個函式呼叫都會訓練一組模型,併為每個模型產生試用筆記本。

請參閱 AutoML 實驗的需求

使用 AutoML API 設定實驗

下列步驟一般描述如何使用 API 設定 AutoML 實驗:

  1. 建立筆記本 ,並將其連結至執行 Databricks Runtime ML 的叢集。

  2. 識別您想要從現有數據來源使用的數據表,或 將數據檔上傳至 DBFS 並建立數據表。

  3. 若要啟動 AutoML 執行,請使用 automl.regress()automl.classify() 函式並傳遞數據表,以及任何其他定型參數。 若要查看所有函式和參數,請參閱 Azure Databricks AutoML Python API 參考

    例如:

    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
  4. 當 AutoML 執行開始時,控制台中會出現 MLflow 實驗 URL。 使用此 URL 來監視執行進度。 重新整理 MLflow 實驗,以查看完成的試用版。

  5. AutoML 執行完成之後:

  • 使用輸出摘要中的鏈接,流覽至產生最佳結果的 MLflow 實驗或筆記本。
  • 使用數據探索筆記本的連結,以深入了解傳遞至 AutoML 的數據。 您也可以將此筆記本附加至相同的叢集,然後重新執行以重現結果或執行其他數據分析。
  • 使用 AutoML 呼叫傳回的摘要物件,探索有關試用版的更多詳細數據,或載入由指定試用版定型的模型。 深入瞭解 AutoMLSummary 物件
  • 從試用版複製任何產生的筆記本,然後將它附加至相同的叢集以重現結果,以重新執行它。 您也可以進行必要的編輯、重新執行以定型其他模型,並將其記錄到相同的實驗中。

匯入筆記本

若要匯入儲存為 MLflow 成品的 databricks.automl.import_notebook 筆記本,請使用 Python API。 如需詳細資訊,請參閱 匯入筆記本

註冊及部署模型

您可以註冊及部署 AutoML 定型的模型,就像 MLflow 模型登錄中的任何已註冊模型一樣;請參閱 記錄、載入、註冊和部署 MLflow 模型

沒有名為的模組 pandas.core.indexes.numeric

使用 AutoML 搭配模型服務建置的模型時,您可能會收到錯誤: No module named 'pandas.core.indexes.numeric

這是因為 AutoML 與服務端點環境的模型之間版本不相容 pandas 。 您可以執行 add-pandas-dependency.py 文稿來解決此錯誤。 腳本會編輯 記錄 requirements.txt 模型的 和 conda.yaml ,以包含適當的 pandas 相依性版本: pandas==1.5.3

  1. 變更文稿以包含 run_id 記錄模型所在之 MLflow 執行的 。
  2. 將模型重新登錄至 MLflow 模型登錄。
  3. 請嘗試提供新版本的 MLflow 模型。

筆記本範例

檢閱這些筆記本以開始使用 AutoML。

下列筆記本示範如何使用 AutoML 進行分類。

AutoML 分類範例筆記本

取得筆記本

下列筆記本示範如何使用 AutoML 執行回歸。

AutoML 回歸範例筆記本

取得筆記本

下列筆記本示範如何使用 AutoML 進行預測。

AutoML 預測範例筆記本

取得筆記本

下一步

Azure Databricks AutoML Python API 參考