Important
AI 執行時的 CLI 目前處於 測試階段。
本頁將逐步說明如何用 AI 執行時 CLI 提交你的第一個訓練工作。 開始前, 先安裝 CLI 並設定認證。
步驟 1:撰寫 YAML 設定檔
建立描述工作負載的 train.yaml。 最小設定需要實驗名稱、環境、計算規格,以及一個指令:
experiment_name: my-first-air-run
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
command: echo "hello AIR!"
完整欄位參考,請參見 Workload YAML 參考。
步驟二:提交連載
提交工作量:
air run --file train.yaml
CLI 會上傳你的本地程式碼、提交工作,並列印執行 ID。
若要持續查看記錄直到完成,請加上 --watch:
air run --file train.yaml --watch
步驟 3:檢查執行結果
檢查狀態:
air get run <run-id>
串流或下載日誌:
air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-only ./logs/
近期賽事列表:
air list runs --limit 10
air list runs --active
取消跑步:
air cancel <run-id>
常見模式
從命令列覆蓋 YAML 欄位:
air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120
驗證設定,但不提交:
air run --file train.yaml --dry-run
使提交作業可安全地重試:
air run --file train.yaml --idempotency-key my-unique-key
如果同一鍵之前被使用過,則會回傳現有的執行,而非建立新的。