預測的數據準備

本文說明 AutoML 如何準備數據以進行預測定型，並描述可設定的數據設定。您可以在 AutoML UI 中的實驗設定期間調整這些選項。

如需使用 AutoML API 設定這些設定，請參閱 AutoML Python API 參照。

支援的資料特徵類型

僅支援下面所列的功能類型。例如，不支援映像。

不支援以下特徵類型：

數值 (ByteType、ShortType、IntegerType、LongType、FloatType 和 DoubleType)
布林值
字串 (類別或英文文字)
時間戳記 (TimestampType、DateType)
ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML 和更新版本)
DecimalType (Databricks Runtime 11.3 LTS ML 和更新版本)

插補遺漏值

在 Databricks Runtime 10.4 LTS ML 及更高版本中，您可以指定空值插補的方式。在 UI 中，於資料表架構中，從 Impute with 欄位的下拉選單中選擇方法。在 API 中，使用 imputers 參數。如需詳細資訊，請參閱 AutoML Python API 參考。

根據預設，AutoML 會根據數據行類型和內容選取插補方法。

注意

如果您指定非預設插補方法，AutoML 不會執行語意類型偵測。

將預測數據分割成定型、驗證和測試集

AutoML 會將資料分割成三個分割區，分別用於訓練、驗證和測試。

針對預測工作，AutoML 會使用時間序列交叉驗證。此方法會按時間順序遞增擴充訓練資料集，並在後續時間點上執行驗證。交叉驗證提供模型在不同時間區段上效能的健全評估。其可確保會基於不可見的未來資料對預測模型執行嚴格測試，並維護預測的相關性和正確性。

交叉驗證折疊的數目取決於輸入資料表特性，例如時間序列數目、共變數的存在，以及時間序列長度。

時間序列彙總

針對預測問題，當時間序列中的時間戳記有多個值時，AutoML 會使用值的平均值。

若要改用總和，請編輯試用版執行所產生的原始程式碼筆記本。在 [依 ... 彙總資料] 資料格中，將 .agg(y=(target_col, "avg")) 變更為 .agg(y=(target_col, "sum"))，如下所示：

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-11-22