Azure Machine Learning 中的計算目標是什麼？

計算目標是指定的計算資源或環境，可讓您在其中執行定型指令碼或託管服務部署。此位置可能是您的本機電腦或雲端式計算資源。透過使用計算目標，你可以輕鬆地在不改程式碼的情況下，之後更改運算環境。

Azure Machine Learning 支援不同的計算目標。在一般模型開發生命週期中，您可能會：

從少量資料開始著手開發和試驗。在這個階段中，請使用您的本機環境做為計算目標，例如本機電腦或雲端式虛擬機器 (VM)。
擴大為大型資料，或使用其中一種定型計算目標執行分散式定型。
當你的模型準備好後，透過這些部署計算目標之一部署至網路託管環境。

將你用於計算目標的運算資源附加到工作區。工作區的使用者共享除本地機器外的運算資源。

定型計算目標

當你在較大資料集上擴展訓練或執行分散式訓練時，利用 Azure Machine Learning 計算建立一個單節點或多節點叢集，每次提交工作時自動擴展。您也可以附加自己的計算資源，但不同案例的支援可能會有所差異。

你可以在一個訓練任務間重複使用計算目標。 例如，將遠端 VM 連結至您的工作區之後，您可以將其重複用於多個作業。

針對機器學習管線，請針對每個計算目標使用適當的管線步驟。

您可以將下列任何資源用於大部分作業的定型計算目標。並非所有資源都可以用於自動化機器學習、機器學習管線或設計工具。 Azure Databricks 可用作本地執行與機器學習流程的訓練資源，但無法作為其他訓練的遠端目標。

定型目標	自動化機器學習	機器學習管線	Azure Machine Learning 設計器
Azure Machine Learning 計算叢集	是的	是的	是的
Azure Machine Learning 無伺服器計算	是的	是的	是的
Azure Machine Learning 計算實例	是 (透過 SDK)	是的	是的
Azure Machine Learning Kubernetes		是的	是的
遠端虛擬機器	是的	是的
Apache Spark 集區 (預覽)	是 (僅限 SDK 本機模式)	是的
Azure Databricks	是 (僅限 SDK 本機模式)	是的
Azure Data Lake Analytics		是的
Azure HDInsight		是的
Azure Batch		是的

定型目標	自動化機器學習	機器學習管線	Azure Machine Learning 設計器
本機電腦	是的
Azure Machine Learning 計算叢集	是的	是的	是的
Azure Machine Learning 計算實例	是 (透過 SDK)	是的	是的
Azure Machine Learning Kubernetes		是的	是的
遠端虛擬機器	是的	是的
Apache Spark 集區 (預覽)	是 (僅限 SDK 本機模式)	是的
Azure Databricks	是 (僅限 SDK 本機模式)	是的
Azure HDInsight		是的
Azure Batch		是的

秘訣

運算實例擁有一顆 120 GB 的作業系統磁碟。若您用盡磁碟空間，請先使用終端清除至少 1-2 GB 的空間，然後再停止或重新啟動計算執行個體。

推斷用的計算目標

當你執行推論時，Azure Machine Learning 會建立一個 Docker 容器，來承載模型及其所需資源。你會在計算目標中使用這個容器。

用來裝載模型的計算目標會影響已部署端點的成本和可用性。使用此資料表選擇適當的計算目標。

計算目標	用於	GPU 支援	描述
Azure Machine Learning endpoints	即時推斷批次推斷	是的	無伺服器計算上即時 (受控線上端點) 和批次評分 (批次端點) 的完全受控計算。
Azure Machine Learning Kubernetes	即時推斷批次推斷	是的	在內部部署、雲端和邊緣 Kubernetes 叢集上執行推斷工作負載。

計算目標	用於	GPU 支援	描述
本機 Web 服務	測試/偵錯		用於有限的測試和疑難排解。硬體加速取決於本機系統中的程式庫使用情況。
Azure Machine Learning Kubernetes	即時推斷	是的	在雲端中執行推斷工作負載。
Azure 容器實例	即時推斷建議僅用於開發/測試目的。		用於需要少於 48 GB RAM 的低規模 CPU 型工作負載。你不需要管理叢集。僅適用於大小小於 1 GB 的模型。在設計工具中支援。

附註

選擇叢集 SKU 時，先擴大規模，再逐步擴展。先從擁有你型號所需 150% 記憶體的機器開始，分析結果，然後找到一台效能符合需求的機器。學會後，增加機器數量以符合你對並行推論的需求。

使用線上端點部署和評分機器學習模型。

部署機器學習模型至 Azure。

Azure 機器學習運算（受管）

Azure Machine Learning 負責建立和管理受管理的運算資源。此類型的計算已針對機器學習工作負載進行最佳化。 Azure Machine Learning計算叢集，serverless compute，以及 compute instances 是唯一的受管理運算。

你不需要建立無伺服器運算。你可以從以下方式建立 Azure Machine Learning 的計算實例或運算叢集：

Azure Machine Learning Studio
Python SDK 與 Azure CLI：
- 計算執行個體
- 計算叢集
一個 Azure Resource Manager 模板。範例範本請參見 Create an Azure Machine Learning compute cluster。

附註

與其建立運算叢集，不如使用 serverless compute將運算生命週期管理卸載給 Azure Machine Learning。

當你建立這些運算資源時，它們會自動成為你工作區的一部分，與其他類型的計算目標不同。

功能	計算叢集	計算執行個體
單節點或多節點叢集	✓	單一節點叢集
每次提交作業時自動調整	✓
自動叢集管理和工作排程	✓	✓
同時支援 CPU 和 GPU 資源	✓	✓

附註

若要避免計算閒置時產生費用：

針對計算叢集，請確定節點數目下限設定為 0，或使用無伺服器計算。
針對計算執行個體，啟用閒置關機。雖然停止運算實例會停止計算工時的計費，但你仍然要支付磁碟、公共 IP 和標準負載平衡器的費用。

支援的 VM 系列和大小

重要事項

如果您的計算執行個體或計算叢集是以上述任一系列為基礎，請使用其他 VM 大小重新建立。

這些系列已於 2023 年 8 月 31 日淘汰：

這些系列已於 2024 年 8 月 31 日淘汰：

以下系列於2025年9月30日退役：

Azure NCv3系列

在 Azure Machine Learning 中為受控計算資源選取節點大小時，您可從 Azure 提供的精選 VM 大小中進行選擇。 Azure 提供多種 Linux 和 Windows 的尺寸，適合不同工作負載。欲了解更多資訊，請參閱虛擬機類型與大小。

選擇虛擬機大小時，有幾項例外和限制：

Azure Machine Learning 不支援某些虛擬機系列。
某些 VM 系列 (例如 GPU 和其他特殊 SKU) 一開始可能不會出現在可用的 VM 清單中。不過，一旦你申請配額變更，仍然可以使用它們。如需有關要求配額的詳細資訊，請參閱要求配額和限制增加。

欲了解更多支援系列，請參閱下表。

支援的 VM 系列	類別	支援者
Av2	一般用途	計算叢集和執行個體
DDSv4	一般用途	計算叢集和執行個體
Dv2	一般用途	計算叢集和執行個體
Dv3	一般用途	計算叢集和執行個體
DSv2	一般用途	計算叢集和執行個體
DSv3	一般用途	計算叢集和執行個體
EAv4	記憶體最佳化	計算叢集和執行個體
Ev3	記憶體最佳化	計算叢集和執行個體
ESv3	記憶體最佳化	計算叢集和執行個體
FSv2	計算最佳化	計算叢集和執行個體
外匯	計算最佳化	計算叢集
H	高效能計算	計算叢集和執行個體
HB	高效能計算	計算叢集和執行個體
HBv2	高效能計算	計算叢集和執行個體
HBv3	高效能計算	計算叢集和執行個體
HC	高效能計算	計算叢集和執行個體
LSv2	儲存體最佳化	計算叢集和執行個體
M	記憶體最佳化	計算叢集和執行個體
NC	GPU（K80）	計算叢集和執行個體
NC 促銷	GPU（K80）	計算叢集和執行個體
NCv2	GPU（P100）	計算叢集和執行個體
NCv3	GPU（V100）	計算叢集和執行個體
ND	GPU（P40）	計算叢集和執行個體
NDv2	GPU（V100）	計算叢集和執行個體
內華達州	GPU（M60）	計算叢集和執行個體
NVv3	GPU（M60）	計算叢集和執行個體
NCasT4_v3	GPU（T4）	計算叢集和執行個體
NCads_A100_v4	圖形處理器（A100）	計算叢集和執行個體
NDasrA100_v4	圖形處理器（A100）	計算叢集和執行個體
NCads_H100_v5	圖形處理器（H100）	計算叢集和執行個體
ND-H100-v5	圖形處理器（H100）	計算叢集和執行個體
ND-H200-v5	GPU（H200）	計算叢集和執行個體

雖然 Azure Machine Learning 支援這些虛擬機系列，但它們可能不在所有 Azure 區域都能使用。如要確認 VM 系列是否適用，請參閱各區域提供的產品。

附註

Azure Machine Learning 並不支援 Azure Compute 支援的所有虛擬機大小。如要列出可用的 VM 大小，請使用下列方法：

REST API

附註

Azure Machine Learning 並不支援 Azure Compute 支援的所有虛擬機大小。若要列出特定計算 VM 類型支援的可用 VM 大小，請使用下列其中一種方法：

REST API
機器學習的 Azure CLI 延伸模組 2.0命令，az ml compute list-sizes。

如果你使用 GPU 啟用的計算目標，請確保訓練環境安裝了正確的 CUDA 驅動程式。使用下表判斷要使用的正確 CUDA 版本：

GPU 架構	Azure VM 系列	支援的 CUDA 版本
霍珀	NCadsH100_v5，ND-H100-v5，ND-H200-v5	12.0 或以上
Ampere	NDA100_v4，NCA100_v4	11.0+
Turing	NCT4_v3	10.0+
沃爾特	NCv3、NDv2	9.0+
帕斯卡	NCv2、ND	9.0+
麥克斯韋	NV、NVv3	9.0+
開普勒	NC, NC 促銷	9.0+

除了確保 CUDA 版本和硬體相容之外，也請確保 CUDA 版本與您所使用的機器學習架構版本相容：

關於 PyTorch，請造訪 PyTorch 的先前版本頁面以確認相容性。
關於 TensorFlow，請造訪 TensorFlow 的「從原始碼建置」頁面查看相容性。

計算隔離

Azure 機器學習運算提供特定硬體類型且專屬單一客戶的虛擬機大小。隔離式 VM 大小最適合需要與其他客戶工作負載高度隔離的工作負載，例如您需要符合合規性與法規需求時。使用隔離大小時，只有 VM 會在該特定伺服器執行個體上執行。

目前的隔離 VM 供應項目包括：

Standard_M128ms
Standard_F72s_v2
Standard_NC24s_v3
Standard_NC24rs_v3 （支援 RDMA）

欲了解更多隔離資訊，請參閱Azure公有雲中的隔離。

非受控計算

Azure Machine Learning 不會管理 unmanaged 計算目標。你可以在 Azure Machine Learning 之外建立這種計算目標，然後把它附加到你的工作區。你可能需要採取額外措施來維護未管理的運算資源，或提升機器學習工作負載的效能。

Azure Machine Learning 支援以下非管理型運算類型：

遠端虛擬機器
Azure HDInsight
Azure Databricks
Azure Data Lake Analytics

Azure Kubernetes Service
Azure Synapse Spark pool（已棄用）

Kubernetes （簡體中文）

如需詳細資訊，請參閱管理計算資源。

使用線上端點部署和評分機器學習模型

部署機器學習模型至Azure

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-31