共用方式為


管理 Azure Machine Learning 計算執行個體

適用於:Azure CLI ml 延伸模組 v2 (目前)Python SDK azure-ai-ml v2 (目前)

了解如何在 Azure Machine Learning 工作區中管理計算執行個體

請在雲端中使用計算執行個體來作為已完整設定和完全受控的開發環境。 如果是開發或測試,您也可以使用執行個體作為定型計算目標。 計算執行個體可以平行執行多個作業,並具有作業佇列。 在開發環境中,無法與您工作區中的其他使用者共用計算執行個體。

在本文中,您將了解如何啟動、停止、重新啟動、刪除計算執行個體。 若要瞭解如何建立計算實例,請參閱建立 Azure 機器學習 計算實例

注意

本文會在下列各節中說明 CLI v2。 如果您仍在使用 CLI v1,請參閱建立 Azure Machine Learning 計算叢集 CLI v1

必要條件

根據您管理計算實例的慣用方法,選取其餘必要條件的適當索引標籤。

  • 如果您未在計算實例上執行程序代碼,請安裝 Azure 機器學習 Python SDK。 此 SDK 已經為您安裝在計算實例上。

  • 附加至 Python 命令稿中的工作區:

    執行此程式代碼以連線到 Azure 機器學習 工作區。

    在下列程式代碼中取代您的訂用帳戶標識碼、資源組名和工作區名稱。 若要尋找這些值:

    1. 登入 Azure Machine Learning Studio
    2. 開啟您要使用的工作區。
    3. 選取右上角 Azure Machine Learning 工作室 工具列中的工作區名稱。
    4. 將工作區、資源群組和訂用帳戶標識碼的值複製到程式代碼中。
    5. 複製一個值,關閉區域並貼上,然後在您貼到 Studio 內的筆記本時返回下一個值。

    適用於Python SDK azure-ai-ml v2 (目前)

    # Enter details of your AML workspace
    subscription_id = "<SUBSCRIPTION_ID>"
    resource_group = "<RESOURCE_GROUP>"
    workspace = "<AML_WORKSPACE_NAME>"
    # get a handle to the workspace
    from azure.ai.ml import MLClient
    from azure.identity import DefaultAzureCredential
    
    ml_client = MLClient(
        DefaultAzureCredential(), subscription_id, resource_group, workspace
    )

    ml_client 是您用來管理其他資源和作業之工作區的處理程式。

管理

啟動、停止、重新啟動、刪除計算執行個體。 計算執行個體不一定會自動縮小,因此請務必停止資源以避免持續收費。 停止計算執行個體會將其解除配置。 然後再於需要時加以啟動。 停止計算執行個體會停止計算時數的計費,但您仍需支付磁片、公用 IP 和標準負載平衡器的費用。

您可以啟用自動關機,以在指定的時間之後自動停止計算執行個體。

您也可以建立排程,讓計算執行個體根據每週特定日期和時間自動啟動及停止。

提示

計算執行個體具有 120GB 的 OS 磁碟。 若您用盡磁碟空間,請先使用終端清除至少 1-2 GB 的空間,然後再停止或重新啟動計算執行個體。 請不要從終端機發出 sudo 關機來停止計算執行個體。 計算執行個體上的暫存磁碟大小取決於所選擇的 VM 大小,並掛接於/mnt。

適用於Python SDK azure-ai-ml v2 (目前)

在這些範例中,計算實例的名稱會儲存在變數 ci_basic_name中。

  • 取得狀態

    from azure.ai.ml.entities import ComputeInstance, AmlCompute
    
    # Get compute
    ci_basic_state = ml_client.compute.get(ci_basic_name)
  • 停止

    from azure.ai.ml.entities import ComputeInstance, AmlCompute
    
    # Stop compute
    ml_client.compute.begin_stop(ci_basic_name).wait()
  • 啟動

    from azure.ai.ml.entities import ComputeInstance, AmlCompute
    
    # Start compute
    ml_client.compute.begin_start(ci_basic_name).wait()
  • 重新啟動

    from azure.ai.ml.entities import ComputeInstance, AmlCompute
    
    # Restart compute
    ml_client.compute.begin_restart(ci_basic_name).wait()
  • 刪除

    from azure.ai.ml.entities import ComputeInstance, AmlCompute
    
    ml_client.compute.begin_delete(ci_basic_name).wait()

Azure RBAC 可讓您控制工作區中的哪些使用者可以建立、刪除、啟動、停止、重新啟動計算執行個體。 工作區參與者和擁有者角色中的所有使用者都可以在工作區中建立、刪除、啟動、停止和重新啟動計算執行個體。 不過,只有特定計算執行個體的建立者,或代表其建立的使用者指派時,才允許存取該計算執行個體上的 Jupyter、JupyterLab 和 RStudio。 計算執行個體僅供具有根存取權的單一使用者使用。 該使用者可以存取在執行個體上執行的 Jupyter/JupyterLab/RStudio。 計算實例具有單一使用者登入,而且所有動作都會使用該使用者的身分識別來取得 Azure RBAC 和實驗作業的屬性。 SSH 存取是透過公開/私密金鑰機制來加以控制的。

這些動作可由 Azure RBAC 控制:

  • Microsoft.MachineLearningServices/workspaces/computes/read
  • Microsoft.MachineLearningServices/workspaces/computes/write
  • Microsoft.MachineLearningServices/workspaces/computes/delete
  • Microsoft.MachineLearningServices/workspaces/computes/start/action
  • Microsoft.MachineLearningServices/workspaces/computes/stop/action
  • Microsoft.MachineLearningServices/workspaces/computes/restart/action
  • Microsoft.MachineLearningServices/workspaces/computes/updateSchedules/action

若要建立運算執行個體,您必須取得下列動作的權限:

  • Microsoft.MachineLearningServices/workspaces/computes/write
  • Microsoft.MachineLearningServices/workspaces/checkComputeNameAvailability/action

稽核並觀察計算執行個體版本

部署計算實例之後,它就不會自動更新。 Microsoft 會每個月發行新的 VM 映像。 若要了解使用最新版本保持最新狀態的選項,請參閱弱點管理

若要追蹤實例的作業系統版本是否為最新版本,您可以使用 CLI、SDK 或 Studio UI 查詢其版本。

適用於Python SDK azure-ai-ml v2 (目前)

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Display operating system version
instance = ml_client.compute.get("myci")
print instance.os_image_metadata

如需此範例中所使用的類別、方法和參數的詳細資訊,請參閱下列參考文件:

IT 系統管理員可以使用 Azure 原則來監視 Azure 原則合規性入口網站中工作區執行個體的清查。 在 Azure 訂用帳戶或 Azure 管理群組範圍上,指派內建原則稽核 Azure Machine Learning Compute 執行個體與過時的作業系統

下一步