本文說明 AutoML 如何準備數據以進行預測定型,並描述可設定的數據設定。 您可以在 AutoML UI 中的實驗設定期間調整這些選項。
如需使用 AutoML API 設定這些設定,請參閱 AutoML Python API 參照。
支援的資料特徵類型
僅支援下面所列的功能類型。 例如,不支援映像。
不支援以下特徵類型:
- 數值 (
ByteType、ShortType、IntegerType、LongType、FloatType和DoubleType) - 布林值
- 字串 (類別或英文文字)
- 時間戳記 (
TimestampType、DateType) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML 和更新版本)
- DecimalType (Databricks Runtime 11.3 LTS ML 和更新版本)
插補遺漏值
在 Databricks Runtime 10.4 LTS ML 及更高版本中,您可以指定空值插補的方式。 在 UI 中,於資料表架構中,從 Impute with 欄位的下拉選單中選擇方法。 在 API 中,使用 imputers 參數。 如需詳細資訊,請參閱 AutoML Python API 參考。
根據預設,AutoML 會根據數據行類型和內容選取插補方法。
注意
如果您指定非預設插補方法,AutoML 不會執行語意類型偵測。
將預測數據分割成定型、驗證和測試集
AutoML 會將資料分割成三個分割區,分別用於訓練、驗證和測試。
針對預測工作,AutoML 會使用時間序列交叉驗證。 此方法會按時間順序遞增擴充訓練資料集,並在後續時間點上執行驗證。 交叉驗證提供模型在不同時間區段上效能的健全評估。 其可確保會基於不可見的未來資料對預測模型執行嚴格測試,並維護預測的相關性和正確性。
交叉驗證折疊的數目取決於輸入資料表特性,例如時間序列數目、共變數的存在,以及時間序列長度。
時間序列彙總
針對預測問題,當時間序列中的時間戳記有多個值時,AutoML 會使用值的平均值。
若要改用總和,請編輯試用版執行所產生的原始程式碼筆記本。 在 [依 ... 彙總資料] 資料格中,將 .agg(y=(target_col, "avg")) 變更為 .agg(y=(target_col, "sum")),如下所示:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })