規劃 CycleCloud 生產部署

Azure CycleCloud 部署

警告

確定在建立儲存體帳戶期間未設定 Azure Data Lake Storage Gen 2 的「啟用階層命名空間」。 CycleCloud 無法使用已啟用 ADLS Gen 2 的 Blob 儲存體作為儲存體保險箱。

Azure CycleCloud 設定

Azure CycleCloud 叢集設定

  • 定義叢集使用者管理的使用者存取權
  • 判斷將使用哪一個排程器
  • 判斷排程器/前端節點需要哪些 SKU
  • 判斷計算/執行節點需要哪些 SKU。 這完全相依于正在執行的應用程式
  • 叢集是否會使用範本或手動部署?
  • 部署之後,任何腳本都必須在排程器上執行或執行節點:

應用程式

  • 應用程式有哪些相依性 (程式庫等) ? 這些如何可供使用?
  • 應用程式需要多久的時間才能安裝和安裝? 這可能會決定應用程式如何提供給執行節點,而且可能需要自訂映射。
  • 是否有任何需要考慮的授權相依性? 應用程式是否需要連絡內部部署授權伺服器?
  • 判斷要從何處執行應用程式,這會相依于安裝時間和效能需求:
  • 是否有特定 VM SKU 需要用來讓應用程式執行? MPI 是否為必要條件,因為需要 H 系列等不同系列的機器嗎?
  • 每個應用程式每個作業的最佳核心數目為何?
  • 可以使用現成 VM 嗎? 在 CycleCloud 中使用現成 VM
  • 確定 用帳戶配額已就緒,以滿足應用程式的核心需求

資料

  • 判斷 Azure 中輸入資料所在的位置。 這將取決於應用程式和資料大小的效能。
    • 在本機執行節點上
    • 從 NFS 共用
    • 在 Blob 儲存體中
    • 使用 Azure NetApp Files
  • 判斷輸出資料上是否需要任何後續處理
  • 決定輸出資料在處理完成後所在的位置
  • 它是否需要複製到其他位置?
  • 有哪些封存/備份需求?

作業提交

  • 使用者如何提交作業?
  • 他們是否有腳本可在排程器 VM 上執行,還是會有前端來協助資料上傳和作業提交?

備份和災害復原

  • 範本是否會用於叢集建立? 這可讓 CycleCloud 伺服器在部署之間更快速且一致地重新建立
  • 災害復原有哪些需求? 如果 Azure 區域未如預期般提供,企業會發生什麼情況?
  • 內部業務是否定義了任何應用程式 SLA?
  • 另一個區域是否可以作為待命?
  • 作業是否長時間執行? 檢查點是否會有所説明?