AI 執行時 CLI 快速啟動

Important

AI 執行時的 CLI 目前處於 測試階段

本頁將逐步說明如何用 AI 執行時 CLI 提交你的第一個訓練工作。 開始前, 先安裝 CLI 並設定認證

步驟 1:撰寫 YAML 設定檔

建立描述工作負載的 train.yaml。 最小設定需要實驗名稱、環境、計算規格,以及一個指令:

experiment_name: my-first-air-run
compute:
  num_accelerators: 1
  accelerator_type: GPU_1xA10
command: echo "hello AIR!"

完整欄位參考,請參見 Workload YAML 參考

步驟二:提交連載

提交工作量:

air run --file train.yaml

CLI 會上傳你的本地程式碼、提交工作,並列印執行 ID。

若要持續查看記錄直到完成,請加上 --watch

air run --file train.yaml --watch

步驟 3:檢查執行結果

檢查狀態:

air get run <run-id>

串流或下載日誌:

air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-only ./logs/

近期賽事列表:

air list runs --limit 10
air list runs --active

取消跑步:

air cancel <run-id>

常見模式

從命令列覆蓋 YAML 欄位:

air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120

驗證設定,但不提交:

air run --file train.yaml --dry-run

使提交作業可安全地重試:

air run --file train.yaml --idempotency-key my-unique-key

如果同一鍵之前被使用過,則會回傳現有的執行,而非建立新的。

下一步