為 Azure HDInsight 叢集選取正確的 VM 大小

本文討論如何為 HDInsight 叢集中的各種節點選取正確的 VM 大小。

首先,了解虛擬機器的屬性,例如 CPU 處理、RAM 大小和網路延遲如何影響工作負載的處理。 接下來,請思考您的應用程式,以及其如何與已最佳化的不同 VM 系列相符。 請確定您想要使用的 VM 系列與您打算部署的叢集類型相容。 如需每個叢集類型所有支援和建議 VM 大小的清單,請參閱 Azure HDInsight 支援的節點設定。 最後,您可以使用基準測試流程來測試一些範例工作負載,並檢查該系列內哪個 SKU 適合您。

如需規劃叢集的其他層面的詳細資訊,例如選取儲存體類型或叢集大小,請參閱 HDInsight 叢集的容量規劃

VM 屬性和巨量資料工作負載

VM 大小與類型是由 CPU 處理能力、RAM 大小和網路延遲所決定:

  • CPU:VM 大小會規定核心的數目。 核心越多,每個節點可達到的平行計算程度就越大。 此外,某些 VM 類型具有更快的核心。

  • RAM:VM 大小也會決定 VM 可用的 RAM 數量。 針對將資料儲存在記憶體以進行處理的工作負載,並非從磁碟讀取,請確保背景工作節點有足夠的記憶體來容納資料。

  • 網路:對於大部分的叢集類型而言,由叢集處理的資料不是在本機磁碟上,而是在如 Data Lake Store 或 Azure 儲存體等外部儲存體服務中。 請考慮節點 VM 與儲存體服務之間的網路頻寬和輸送量。 可供 VM 使用的網路頻寬通常會隨著較大的大小而增加。 如需詳細資訊,請參閱 VM 大小概觀

了解 VM 最佳化

Azure 中的虛擬機器系列已最佳化,以符合不同的使用案例。 在下表中,您可以找到一些最熱門的使用案例,以及與其相符的 VM 系列。

類型 大小 描述
入門層級 Av2 擁有的 CPU 其效能及記憶體設定最適合初階的工作負載,例如開發及測試。 其可節約成本,並提供低成本選項以開始使用 Azure。
一般用途 D、DSv2、Dv2 CPU 與記憶體的比例平均。 適用於測試和開發、小型至中型資料庫,以及低至中流量 Web 伺服器。
計算最佳化 F CPU 與記憶體的比例高。 適用於中流量 Web 伺服器、網路設備、批次處理,以及應用程式伺服器。
記憶體最佳化 Esv3、Ev3 記憶體與 CPU 的比例高。 適用於關聯式資料庫伺服器、中型至大型快取,以及記憶體內部分析。
  • 如需跨 HDInsight 支援區域可用 VM 執行個體定價的資訊,請參閱 HDInsight 定價

針對輕量工作負載的節約成本 VM 類型

如果您有輕量處理需求,F 系列可能是開始使用 HDInsight 的好選擇。 F 系列的每小時訂價較低,在 Azure 產品組合中,就每一 vCPU 的「Azure 計算單位」(ACU) 而言,具有最佳的價格/性能比表現。

下表描述可使用 Fsv2 系列 VM 建立的叢集類型和節點類型。

叢集類型 版本 背景工作節點 前端節點 ZooKeeper 節點
Spark 全部 F4 和更新版本
Hadoop 全部 F4 和更新版本
Kafka 全部 F4 和更新版本
hbase 全部 F4 和更新版本
LLAP disabled

若要查看每個 F 系列 SKU 的規格,請參閱 F 系列 VM 大小

效能評定

基準測試是在不同 VM 上執行模擬工作負載的程式,以測量其執行您生產工作負載的效能。

如需 VM SKU 和叢集大小基準測試的詳細資訊,請參閱 Azure HDInsight 中的叢集容量規劃

下一步