Azure HDInsight 虛擬網路架構

本文說明將 HDInsight 叢集部署至自定義 Azure 虛擬網絡 時所存在的資源。 此資訊可協助您將內部部署資源連線到 Azure 中的 HDInsight 叢集。 如需 Azure 虛擬網絡 的詳細資訊,請參閱什麼是 Azure 虛擬網絡?

Azure HDInsight 叢集中的資源類型

Azure HDInsight 叢集具有不同類型的虛擬機或節點。 每個節點類型都會在系統的作業中扮演角色。 下表摘要說明這些節點類型及其在叢集中的角色。

類型 描述
ZooKeeper 節點 Zookeeper 會協調執行數據處理之節點之間的工作。 它也會執行前端節點的領導者選舉,並追蹤哪個前端節點正在執行特定的主要服務。 ZooKeeper 節點的數目固定在三個。
背景工作節點 表示支援數據處理功能的節點。 背景工作節點可以從叢集新增或移除,以調整運算功能及管理成本。
區域節點 針對 HBase 叢集類型,區域節點(也稱為數據節點)會執行區域伺服器。 區域伺服器會提供和管理 HBase 所管理的部分數據。 區域節點可以從叢集新增或移除,以調整運算功能及管理成本。

資源命名慣例

在尋址叢集中的節點時,請使用完整功能變數名稱 (FQDN)。 您可以使用Ambari API,取得叢集中各種節點類型的 FQDN。

這些 FQDN 格式為 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net

<node-type-prefix>適用於hn前端節點、wn背景工作節點和 zn Zookeeper 節點。

如果您只需要主機名,請只使用 FQDN 的第一個部分: <node-type-prefix><instance-number>-<abbreviated-clustername>

基本虛擬網路資源

下圖顯示 AZURE 中 HDInsight 節點和網路資源的位置。

Diagram of HDInsight entities created in Azure custom VNET.

Azure 虛擬網絡 中的預設資源包含上表所述的叢集節點類型。 以及支援虛擬網路與外部網路之間通訊的網路裝置。

下表摘要說明 HDInsight 部署至自定義 Azure 虛擬網絡 時所建立的九個叢集節點。

資源類型 顯示數位 詳細資料
前端節點 2
Zookeeper 節點 3
背景工作節點 2 此數目可能會根據叢集組態和調整而有所不同。 Apache Kafka 至少需要三個背景工作節點。
閘道節點 2 網關節點是在 Azure 上建立的 Azure 虛擬機,但在您的訂用帳戶中看不到。 如果您需要重新啟動這些節點,請連絡支持人員。

下列網路資源會在與 HDInsight 搭配使用的虛擬網路內自動建立:

網路資源 顯示數位 詳細資料
負載平衡器 3
網路介面 此值是以一般叢集為基礎,其中每個節點都有自己的網路介面。 這九個介面適用於:兩個前端節點、三個 zookeeper 節點、兩個背景工作節點,以及上表所述的兩個網關節點。
公用 IP 位址 2

連線到 HDInsight 的端點

您可以透過三種方式存取 HDInsight 叢集:

  • 位於 CLUSTERNAME.azurehdinsight.net虛擬網路外部的 HTTPS 端點。
  • SSH 端點,用於直接連線到 位於 CLUSTERNAME-ssh.azurehdinsight.net的前端節點。
  • 虛擬網路 CLUSTERNAME-int.azurehdinsight.net內的 HTTPS 端點。 請注意此 URL 中的 “-int 。 此端點會解析為該虛擬網路中的私人IP,且無法從公用因特網存取。

這三個端點會分別指派負載平衡器。

公用IP位址也會提供給允許從虛擬網路外部連線的兩個端點。

  1. 一個公用IP會指派給負載平衡器,以便從因特網 CLUSTERNAME.azurehdinsight.net連線到叢集時使用的完整功能變數名稱(FQDN)。
  2. 第二個公用 IP 位址用於只限 SSH 的功能變數名稱 CLUSTERNAME-ssh.azurehdinsight.net

下一步