Azure HDInsight 虛擬網路架構
本文說明將 HDInsight 叢集部署至自定義 Azure 虛擬網絡 時所存在的資源。 此資訊可協助您將內部部署資源連線到 Azure 中的 HDInsight 叢集。 如需 Azure 虛擬網絡 的詳細資訊,請參閱什麼是 Azure 虛擬網絡?。
Azure HDInsight 叢集中的資源類型
Azure HDInsight 叢集具有不同類型的虛擬機或節點。 每個節點類型都會在系統的作業中扮演角色。 下表摘要說明這些節點類型及其在叢集中的角色。
類型 | 描述 |
---|---|
ZooKeeper 節點 | Zookeeper 會協調執行數據處理之節點之間的工作。 它也會執行前端節點的領導者選舉,並追蹤哪個前端節點正在執行特定的主要服務。 ZooKeeper 節點的數目固定在三個。 |
背景工作節點 | 表示支援數據處理功能的節點。 背景工作節點可以從叢集新增或移除,以調整運算功能及管理成本。 |
區域節點 | 針對 HBase 叢集類型,區域節點(也稱為數據節點)會執行區域伺服器。 區域伺服器會提供和管理 HBase 所管理的部分數據。 區域節點可以從叢集新增或移除,以調整運算功能及管理成本。 |
資源命名慣例
在尋址叢集中的節點時,請使用完整功能變數名稱 (FQDN)。 您可以使用Ambari API,取得叢集中各種節點類型的 FQDN。
這些 FQDN 格式為 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net
。
<node-type-prefix>
適用於hn
前端節點、wn
背景工作節點和 zn
Zookeeper 節點。
如果您只需要主機名,請只使用 FQDN 的第一個部分: <node-type-prefix><instance-number>-<abbreviated-clustername>
基本虛擬網路資源
下圖顯示 AZURE 中 HDInsight 節點和網路資源的位置。
Azure 虛擬網絡 中的預設資源包含上表所述的叢集節點類型。 以及支援虛擬網路與外部網路之間通訊的網路裝置。
下表摘要說明 HDInsight 部署至自定義 Azure 虛擬網絡 時所建立的九個叢集節點。
資源類型 | 顯示數位 | 詳細資料 |
---|---|---|
前端節點 | 2 | |
Zookeeper 節點 | 3 | |
背景工作節點 | 2 | 此數目可能會根據叢集組態和調整而有所不同。 Apache Kafka 至少需要三個背景工作節點。 |
閘道節點 | 2 | 網關節點是在 Azure 上建立的 Azure 虛擬機,但在您的訂用帳戶中看不到。 如果您需要重新啟動這些節點,請連絡支持人員。 |
下列網路資源會在與 HDInsight 搭配使用的虛擬網路內自動建立:
網路資源 | 顯示數位 | 詳細資料 |
---|---|---|
負載平衡器 | 3 | |
網路介面 | 九 | 此值是以一般叢集為基礎,其中每個節點都有自己的網路介面。 這九個介面適用於:兩個前端節點、三個 zookeeper 節點、兩個背景工作節點,以及上表所述的兩個網關節點。 |
公用 IP 位址 | 2 |
連線到 HDInsight 的端點
您可以透過三種方式存取 HDInsight 叢集:
- 位於
CLUSTERNAME.azurehdinsight.net
虛擬網路外部的 HTTPS 端點。 - SSH 端點,用於直接連線到 位於
CLUSTERNAME-ssh.azurehdinsight.net
的前端節點。 - 虛擬網路
CLUSTERNAME-int.azurehdinsight.net
內的 HTTPS 端點。 請注意此 URL 中的 “-int
。 此端點會解析為該虛擬網路中的私人IP,且無法從公用因特網存取。
這三個端點會分別指派負載平衡器。
公用IP位址也會提供給允許從虛擬網路外部連線的兩個端點。
- 一個公用IP會指派給負載平衡器,以便從因特網
CLUSTERNAME.azurehdinsight.net
連線到叢集時使用的完整功能變數名稱(FQDN)。 - 第二個公用 IP 位址用於只限 SSH 的功能變數名稱
CLUSTERNAME-ssh.azurehdinsight.net
。