重要
這項功能 公開預覽版。
本文說明如何使用馬賽克 AI 模型訓練 UI 執行無伺服器預測實驗。
馬賽克 AI 模型定型 - 預測可藉由自動選取最佳演算法和超參數來簡化預測時間序列數據,同時在完全受控的計算資源上執行。
若要瞭解無伺服器預測與傳統計算預測之間的差異,請參閱 無伺服器預測與傳統計算預測。
要求
- 使用時間序列欄的訓練數據,並儲存為 Unity Catalog 表格。
- 如果工作區已啟用安全輸出網關 (SEG),
pypi.org必須新增至 允許的網域 清單。 請參閱 管理無伺服器輸出控制的網路原則。
使用UI建立預測實驗
前往您的 Azure Databricks 登入頁面,然後按下側邊欄中的 [實驗]。
在 [預測] 圖格中,選取 [開始訓練]。
從您可以存取的 Unity Catalog 資料表清單中選取 訓練資料。
-
時間資料行:選取包含時間序列時間週期的數據行。 資料欄的類型必須是
timestamp或date。 - 預測頻率:選取代表輸入數據頻率的時間單位。 例如,分鐘、小時、天、月。 這會決定時間序列的數據粒度。
- 預測地平線:指定要預測未來所選頻率的單位數目。 連同預測頻率,這會同時定義要預測的時間單位和時間單位數目。
注意
若要使用 自動 ARIMA 演算法,時間序列必須有規律頻率,且任何兩個點之間的間隔在整個時間序列中都必須相同。 AutoML 會以先前的值填入這些值,以處理遺漏的時間步驟。
-
時間資料行:選取包含時間序列時間週期的數據行。 資料欄的類型必須是
選擇您想要模型預測的 預測目標 數據行。
選擇性地指定 Unity 目錄資料表 預測資料路徑 來儲存輸出預測。
選取 模型註冊的 Unity Catalog 位置和名稱。
選擇性地設定 [進階選項]:
- 實驗名稱:提供 MLflow 實驗名稱。
- 時間序列識別碼數據行 - 針對多序列預測,請選取識別個別時間序列的數據行。 Databricks 會將這些數據行分組為不同的時間序列,並個別定型每個數列的模型。
- 主要計量:選擇用來評估並選取最佳模型的主要計量。
- 訓練架構:選擇要探索的 AutoML 架構。
- 分割數據行:選取包含自定義數據分割的數據行。 值必須是 “定型” , “驗證” , “測試”
- 權重欄:指定用來加權時間序列的欄位。 指定時間序列的所有範例都必須具有相同的權數。 重量必須介於[0-10000]範圍內。
- 假日區域:選取要作為模型訓練中共變數的假日區域。
- 超時:設定 AutoML 實驗的最大持續時間。
執行實驗並監視結果
若要啟動 AutoML 實驗,請按兩下 [開始訓練] 。 您可以從實驗訓練頁面執行下列動作:
- 隨時停止實驗。
- 監控正在運行。
- 流覽至任何回合的執行頁面。
此外,您可以檢查實驗的狀態,因為它會經歷下列階段:
- 預處理: 藉由插補遺漏值並將數據分割成定型、驗證和測試集,來驗證和準備輸入數據表。 自動特徵產生處理,例如類別特徵的單熱編碼,也會在此階段進行。
- 調音: 探索不同的預測演算法,並微調超參數。
- 訓練: 使用選取的最佳組態來定型和評估最終模型。 如果指定路徑,請在 Unity 目錄中註冊模型。
檢視結果或使用最佳模型
定型完成後,預測結果會儲存在指定的 Delta 數據表中,並將最佳模型註冊到 Unity 目錄。
從實驗頁面,您可以選擇下列後續步驟:
- 選取 [檢視預測 以查看預測結果數據表。
- 選取 [批次推斷筆記本] 以開啟一個自動生成的筆記本,使用最佳模型進行批次推斷。
- 選取 [建立服務端點,將最佳模型部署至模型服務端點。
無伺服器預測與傳統計算預測
下表摘要說明無伺服器預測與使用傳統計算 的
| 特徵/功能 | 無伺服器預測 | 傳統計算預測 |
|---|---|---|
| 計算基礎結構 | Azure Databricks 會管理計算組態,並自動針對成本和效能進行優化。 | 用戶設定的運算 |
| 統轄 | 註冊至 Unity 目錄的模型和產物 | 用戶設定的工作區檔案儲存庫 |
| 演算法選擇 | 統計模型 加上深度學習類神經網路演算法,DeepAR | 統計模型 |
| 特徵庫整合 | 不支援 | 支援 |
| 自動產生的筆記本 | 批次推論筆記本 | 所有試用版的原始程式碼 |
| 單鍵模型服務部署 | 支援 | 不支援 |
| 自定義訓練/驗證/測試分割 | 支援 | 不支援 |
| 個別時間序列的自訂權重 | 支援 | 不支援 |