共用方式為


預測的數據準備

本文說明 AutoML 如何準備數據以進行預測定型,並描述可設定的數據設定。 您可以在 AutoML UI 中的實驗設定期間調整這些選項。

如需使用 AutoML API 設定這些設定,請參閱 AutoML Python API 參照

支援的資料特徵類型

僅支援下面所列的功能類型。 例如,不支援映像

不支援以下特徵類型:

  • 數值 (ByteTypeShortTypeIntegerTypeLongTypeFloatTypeDoubleType)
  • 布林值
  • 字串 (類別或英文文字)
  • 時間戳記 (TimestampTypeDateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML 和更新版本)
  • DecimalType (Databricks Runtime 11.3 LTS ML 和更新版本)

插補遺漏值

在 Databricks Runtime 10.4 LTS ML 及更高版本中,您可以指定空值插補的方式。 在 UI 中,於資料表架構中,從 Impute with 欄位的下拉選單中選擇方法。 在 API 中,使用 imputers 參數。 如需詳細資訊,請參閱 AutoML Python API 參考

根據預設,AutoML 會根據數據行類型和內容選取插補方法。

注意

如果您指定非預設插補方法,AutoML 不會執行語意類型偵測。

將預測數據分割成定型、驗證和測試集

AutoML 會將資料分割成三個分割區,分別用於訓練、驗證和測試。

針對預測工作,AutoML 會使用時間序列交叉驗證。 此方法會按時間順序遞增擴充訓練資料集,並在後續時間點上執行驗證。 交叉驗證提供模型在不同時間區段上效能的健全評估。 其可確保會基於不可見的未來資料對預測模型執行嚴格測試,並維護預測的相關性和正確性。

交叉驗證折疊的數目取決於輸入資料表特性,例如時間序列數目、共變數的存在,以及時間序列長度。

時間序列彙總

針對預測問題,當時間序列中的時間戳記有多個值時,AutoML 會使用值的平均值。

若要改用總和,請編輯試用版執行所產生的原始程式碼筆記本。 在 [依 ... 彙總資料] 資料格中,將 .agg(y=(target_col, "avg")) 變更為 .agg(y=(target_col, "sum")),如下所示:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })