Azure HDInsight 가상 네트워크 아키텍처
이 문서에서는 사용자 지정 Azure Virtual Network에 HDInsight 클러스터를 배포할 때 존재하는 리소스에 대해 설명합니다. 이 정보의 도움을 통해 사용자는 온-프레미스 리소스를 Azure의 HDInsight 클러스터에 연결합니다. Azure Virtual Network에 대한 자세한 내용은 Azure Virtual Network란?을 참조하세요.
Azure HDInsight 클러스터의 리소스 종류
Azure HDInsight 클러스터에는 서로 다른 유형의 가상 머신 또는 노드가 있습니다. 각 노드 유형은 시스템에 대한 작업에서 역할을 수행합니다. 다음 표에는 클러스터의 이러한 노드 유형과 그 역할에 대한 설명이 요약되어 있습니다.
Type | 설명 |
---|---|
Zookeeper 노드 | ZooKeeper가 데이터 처리를 수행하는 노드들 간의 작업을 조정합니다. 또한 이것은 헤드 노드의 선행부 선택을 수행하고, 특정 마스터 서비스를 실행 중인 헤드 노드를 추적합니다. ZooKeeper 노드 수는 3개로 고정됩니다. |
작업자 노드 | 데이터 처리 기능을 지원하는 노드를 나타냅니다. 작업자 노드를 클러스터에서 추가하거나 제거하여, 컴퓨팅 기능을 확장하고 비용을 관리할 수 있습니다. |
지역 노드 | HBase 클러스터 유형의 경우, 지역 노드(데이터 노드라고도 함)는 지역 서버를 실행합니다. 지역 서버는 HBase에서 관리하는 데이터의 일부를 제공하고 관리합니다. 지역 노드를 클러스터에서 추가하거나 제거하여, 컴퓨팅 기능을 확장하고 비용을 관리할 수 있습니다. |
리소스 명명 규칙
클러스터의 노드에 주소를 지정하는 경우 FQDN(정규화된 도메인 이름)을 사용합니다. Ambari API를 사용하여 클러스터의 다양한 노드 형식에 대한 FQDN을 가져올 수 있습니다.
이러한 FQDN은 형식 <node-type-prefix><instance-number>-<abbreviated-clustername>.<unique-identifier>.cx.internal.cloudapp.net
입니다.
hn
헤드 <node-type-prefix>
노드, wn
작업자 노드 및 zn
Zookeeper 노드용입니다.
호스트 이름만 필요한 경우 FQDN의 첫 번째 부분만 사용합니다(<node-type-prefix><instance-number>-<abbreviated-clustername>
).
기본 가상 네트워크 리소스
다음 다이어그램에서는 Azure의 HDInsight 노드 및 네트워크 리소스를 배치하는 방법을 보여 줍니다.
Azure Virtual Network의 기본 리소스에는 이전의 표에 언급된 클러스터 노드 형식이 포함되어 있습니다. 그리고 가상 네트워크와 외부 네트워크 간의 통신을 지원하는 네트워크 디바이스입니다.
다음 표에는 HDInsight가 사용자 지정 Azure Virtual Network에 배포될 때 생성된 9개의 클러스터 노드가 요약되어 있습니다.
리소스 종류 | 표시 번호 | 세부 정보 |
---|---|---|
헤드 노드 | two | |
Zookeeper 노드 | three | |
작업자 노드 | two | 이 수는 클러스터 구성 및 크기 조정에 따라 달라질 수 있습니다. Apache Kafka에는 최소 3개의 작업자 노드가 필요합니다. |
게이트웨이 노드 | two | 게이트웨이 노드는 Azure에서 생성되지만 구독에는 표시되지 않는 Azure 가상 컴퓨터입니다. 이러한 노드를 다시 부팅해야 하는 경우 고객 지원팀에 문의 하세요. |
다음 네트워크 리소스는 HDInsight와 함께 사용되는 가상 네트워크 내에 자동으로 만들어집니다.
네트워킹 리소스 | 표시 번호 | 세부 정보 |
---|---|---|
부하 분산 장치 | two | 부하 분산 장치는 노드에 대한 인바운드 네트워크 액세스를 제공합니다. 두 개의 부하 분산 장치는 헤드 노드 2개와 게이트웨이 노드 2개입니다. 부하 분산 장치는 표준 SKU입니다. |
네트워크 인터페이스 | nine | 이 값은 각 노드에 고유한 네트워크 인터페이스가 있는 일반 클러스터를 기반으로 합니다. 9개의 인터페이스에는 2개의 헤드 노드, 3개의 ZooKeeper 노드, 2개의 작업자 노드 및 이전의 표에 설명된 2개의 게이트웨이 노드가 있습니다. |
공용 IP 주소 | two | 두 개의 공용 IP 주소는 부하 분산 장치에 결합됩니다. |
아웃바운드 연결에 대한 SNAT(원본 네트워크 주소 변환)에 설명된 사용자 지정 가상 네트워크(Azure Load Balancer)와 함께 사용할 수 있는 몇 가지 아웃바운드 연결 방법이 있습니다.
참고 항목
가장 권장되는 방법은 서브넷을 NAT 게이트웨이와 연결하는 것입니다. HDInsight 클러스터를 만들기 전에 NAT 게이트웨이와 서브넷에서 만든 네트워크 보안 그룹이 필요합니다. 공용 IP 또는 공용 IP 접두사를 NAT 게이트웨이와 결합할 수 있습니다. 만들 NSG 규칙은 Azure HDInsight에서 네트워크 트래픽 제어를 참조 하세요.
HDInsight에 연결하기 위한 엔드포인트
HDInsight 클러스터에 다음 세 가지 방법으로 액세스할 수 있습니다.
CLUSTERNAME.azurehdinsight.net
의 가상 네트워크 외부에 있는 HTTPS 엔드포인트.CLUSTERNAME-ssh.azurehdinsight.net
의 헤드 노드에 직접 연결하기 위한 SSH 엔드포인트.- 가상 네트워크
CLUSTERNAME-int.azurehdinsight.net
내의 HTTPS 엔드포인트. 이 URL의 "-int
"에 주목하세요. 이 엔드포인트는 해당 가상 네트워크의 개인 IP로 확인되지만, 공용 인터넷에서 액세스할 수 없습니다.
이러한 3개의 엔드포인트는 각각 부하 분산 장치에 할당됩니다.
또한 공용 IP 주소는 가상 네트워크 외부에서 연결할 수 있도록 하는 2개의 엔드포인트에 제공됩니다.
- 인터넷
CLUSTERNAME.azurehdinsight.net
에서 클러스터에 연결할 때 사용할 FQDN(정규화된 도메인 이름)에 대해 하나의 공용 IP가 부하 분산 장치에 할당됩니다. - 두 번째 공용 IP 주소는 SSH 전용 도메인 이름
CLUSTERNAME-ssh.azurehdinsight.net
에 사용됩니다.