什麼是 Azure Machine Learning 計算執行個體?

Azure Machine Learning 計算執行個體是提供資料科學家使用的完全受控雲端式工作站。 雖然您可以在多個計算執行個體之間共用檔案,但每個計算執行個體僅有一個擁有者。

計算執行個體可讓您輕鬆地開始使用 Azure Machine Learning 開發,以及為 IT 系統管理員提供管理和企業就緒功能。

請在雲端中使用計算執行個體,做為已完整設定且完全受控的開發環境進行機器學習。 其也可做為開發和測試用途的定型與推斷計算目標。

若要讓計算執行個體 Jupyter 功能能夠運作,請確定您未停用 Web 通訊端通訊。 確保您的網路允許與 *.instances.azureml.net 和 *.instances.azureml.ms 進行 Websocket 連線。

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本會在沒有服務等級協定的情況下提供,不建議用於實際執行工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

為何要使用計算執行個體?

計算執行個體是完全受控的雲端式工作站,並已針對機器學習開發環境進行最佳化。 它提供了下列優點:

重點優勢 描述
生產力 您可在 Azure Machine Learning 工作室中,使用整合網路與下列工具來建置和部署模型:
- Jupyter
- JupyterLab
- VS Code (預覽)
計算執行個體已與 Azure Machine Learning 工作區和工作室完全整合。 您可以與工作區中的其他資料科學家共用筆記本和資料。
受控且安全 降低您的安全性磁碟使用量,並提升與企業安全性需求的合規性。 計算執行個體提供健全的管理原則和安全的網路設定,例如:

- 從 Resource Manager 範本或 Azure Machine Learning SDK 自動佈建
- Azure 角色型存取控制 (Azure RBAC)
- 虛擬網路支援
- 停用 SSH 存取的 Azure 原則
- 強制在虛擬網路中建立的 Azure 原則
- 根據排程的自動關機/自動啟動
- 已啟用 TLS 1.2
針對 ML 預先設定 使用已預先設定好的最新 ML 套件、深度學習架構、GPU 驅動程式,節省設定工作的時間。
可完全自訂 廣泛支援各種 Azure VM 類型 (包括 GPU) 和持續性的低層級自訂,例如安裝套件和驅動程式可讓您輕鬆地建置進階案例。 您也可以使用安裝指令碼來自動自訂

工具和環境

Azure Machine Learning 計算執行個體可讓您在工作區中以完全整合的筆記本體驗來撰寫、定型和部署模型。

您可以從 Azure Machine Learning 工作區JupyterJupyterLabVisual Studio Code 執行筆記本。 可以將 VS Code Desktop 設定為存取計算執行個體。 或者直接從瀏覽器使用適用於 Web 的 VS Code,且不需要任何必要的安裝或相依性。

建議您嘗試使用適用於 Web 的 VS Code,以利用其所提供的簡單整合及豐富的開發環境。 適用於 Web 的 VS Code 為您提供許多您喜愛的 VS Code Desktop 功能,包括瀏覽和編輯時搜尋和語法醒目提示。 如需使用 VS Code Desktop 和適用於 Web 的 VS Code 的詳細資訊,請參閱啟動與 Azure Machine Learning 整合的 Visual Studio Code (預覽)在遠端連線到計算執行個體的 VS Code 中工作 (預覽)

您可以安裝套件,並將核心新增至計算執行個體。

下列工具和環境已安裝在計算執行個體上:

一般工具和環境 詳細資料
驅動程式 CUDA
cuDNN
NVIDIA
Blob FUSE
Intel MPI Library
Azure CLI
Azure Machine Learning 範例
Docker
Nginx
NCCL 2.0
Protobuf
R 工具和環境 詳細資料
R 核心

您在建立執行個體時,可以新增 RStudio 或 Posit Workbench (先前稱為 RStudio Workbench)

PYTHON 工具和環境 詳細資料
Anaconda Python
Jupyter 和擴充功能
Jupyterlab 和擴充功能
Azure Machine Learning SDK
適用於來自 PyPI 的 Python
包含 azure-ai-ml 和許多常見的 Azure 額外套件。 若要查看完整清單,
在計算執行個體上開啟終端機視窗並執行
conda list -n azureml_py310_sdkv2 ^azure
其他 PyPI 套件 jupytext
tensorboard
nbconvert
notebook
Pillow
Conda 套件 cython
numpy
ipykernel
scikit-learn
matplotlib
tqdm
joblib
nodejs
深度學習套件 PyTorch
TensorFlow
Keras
Horovod
MLFlow
pandas-ml
scrapbook
ONNX 套件 keras2onnx
onnx
onnxconverter-common
skl2onnx
onnxmltools
Azure Machine Learning Python 範例

計算執行個體的基底 OS 為 Ubuntu。

存取檔案

Notebook 和 Python 指令碼會儲存在 Azure 檔案共用工作區的預設儲存體帳戶中。 這些檔案位於您的「使用者檔案」目錄底下。 此儲存體可讓您輕鬆地在計算執行個體之間共用筆記本。 當您停止或刪除計算執行個體時,儲存體帳戶也會讓您的筆記本安全地保留下來。

您工作區的 Azure 檔案共用帳戶會掛接為計算執行個體上的磁碟機。 此磁碟機是 Jupyter、Jupyter Labs、RStudio 和 Posit Workbench 的預設工作目錄。 這表示您在 Jupyter、JupyterLab、適用於 Web 的 VS Code、RStudio 或 Posit 中建立的筆記本和其他檔案會自動儲存在檔案共用上,且亦可供其他計算執行個體使用。

檔案共用中的檔案可從相同工作區中的所有計算執行個體來存取。 在計算執行個體上對這些檔案所做的任何變更,將會可靠地反向保存到檔案共用。

您也可以將最新的 Azure Machine Learning 範例複製到工作區檔案共用中「使用者檔案」目錄下的資料夾。

在網路磁碟機上寫入小型檔案的速度,可能會比寫入至計算執行個體本機磁碟本身來得更慢。 如果您要撰寫許多小型檔案,請嘗試直接在計算執行個體上使用目錄,例如 /tmp 目錄。 請注意,這些檔案將無法從其他計算執行個體存取。

請勿在筆記本檔案共用上儲存定型資料。 如需各種儲存資料選項的相關資訊,請參閱存取作業中的資料

您可以在計算執行個體上使用 /tmp 目錄來儲存暫存資料。 不過,請勿在計算執行個體的 OS 磁碟上寫入大型資料檔案。 計算執行個體上的 OS 磁碟容量為 128 GB。 您也可以將暫存定型資料,儲存在裝載於 /mnt 的暫存磁碟上。 暫存磁碟大小是根據所選的 VM 大小,並可在選擇較大的 VM 時儲存更大量的資料。 您所安裝的任何軟體套件,都會儲存在計算執行個體的 OS 磁碟上。 請注意,OS 磁碟目前不支援客戶管理的金鑰加密。 計算執行個體的 OS 磁碟會使用 Microsoft 受控金鑰進行加密。

您也可以裝載資料存放區和資料集

建立​​

請遵循建立開始使用所需的資源中的步驟,以建立基本計算執行個體。

如需其他選項,請參閱建立新的計算執行個體

若您是系統管理員,可在工作區中為其他人建立計算執行個體

您也可以使用安裝指令碼,以自動化方式自訂和設定計算執行個體。

建立計算執行個體的其他方式:

適用於計算執行個體建立的專用核心每個區域、VM 系列配額與總計區域配額會統一,並與 Azure Machine Learning 定型計算叢集配額共用。 停止計算執行個體並不會釋放配額,以確保您能夠重新啟動計算執行個體。 請勿藉由執行 sudo 關機的方式,透過 OS 終端停止計算執行個體。

計算實例隨附 P10 OS 磁碟。 暫存磁碟類型取決於所選擇的 VM 大小。 目前無法變更 OS 磁碟類型。

計算目標

計算執行個體可做為定型計算目標,並與 Azure Machine Learning 的計算訓練叢集類似。 但計算執行個體僅擁有單一節點,而計算叢集卻可以有更多節點。

計算執行個體:

  • 具有作業佇列。
  • 在虛擬網路環境中安全地執行作業,而無須企業開啟 SSH 連接埠。 作業會在容器化環境中執行,並在 Docker 容器中封裝模型的相依性。
  • 您可平行執行多個小型作業。 每 vCPU 單一作業可以平行執行,而其餘的作業會排入佇列。
  • 支援單一節點多 GPU 分散式定型作業

您可以使用計算執行個體,做為測試/偵錯案例的本機推斷部署目標。

提示

計算執行個體具有 120GB 的 OS 磁碟。 若您用盡磁碟空間並進入無法使用的狀態,請移除檔案/資料夾然後執行 sudo reboot,以透過計算執行個體終端,在 OS 磁碟 (掛接於 /) 上清除至少 5 GB 的磁碟空間。 重新啟動後將會釋放暫存磁碟;您不需要手動清除暫存磁碟上的空間。 如要存取終端,請移至計算清單頁面或計算執行個體詳細資訊頁面,然後按一下 [終端] 連結。 在終端機上執行 df -h 以檢查可用磁碟空間。 執行 sudo reboot 之前,請先清除至少 5 GB 的空間。 除非已清除 5 GB 的磁碟空間,否則請不要透過工作室停止或重新啟動計算執行個體。 如果 CI 磁碟已滿,自動關機 (包括已排程的啟動或停止,以及閒置關機) 將無法運作。

下一步