Portar som används av Apache Hadoop-tjänster i HDInsight

Det här dokumentet innehåller en lista över de portar som används av Apache Hadoop-tjänster som körs i HDInsight-kluster. Den innehåller också information om portar som används för att ansluta till klustret med hjälp av SSH.

Offentliga portar jämfört med icke-offentliga portar

Linux-baserade HDInsight-kluster exponerar bara tre portar offentligt på Internet: 22, 23 och 443. Dessa portar skyddar klusteråtkomst med hjälp av SSH och tjänster som exponeras via det säkra HTTPS-protokollet.

HDInsight implementeras av flera Azure-Virtual Machines (klusternoder) som körs på en Azure-Virtual Network. Inifrån det virtuella nätverket kan du komma åt portar som inte exponeras via Internet. Om du ansluter via SSH till huvudnoden kan du direkt komma åt tjänster som körs på klusternoderna.

Viktigt

Om du inte anger en Azure-Virtual Network som konfigurationsalternativ för HDInsight skapas en automatiskt. Du kan dock inte ansluta andra datorer (till exempel andra Azure-Virtual Machines eller din klientutvecklingsdator) till det här virtuella nätverket.

Om du vill ansluta ytterligare datorer till det virtuella nätverket måste du först skapa det virtuella nätverket och sedan ange det när du skapar ditt HDInsight-kluster. Mer information finns i Planera ett virtuellt nätverk för HDInsight.

Offentliga portar

Alla noder i ett HDInsight-kluster finns i en Azure-Virtual Network. Noderna kan inte nås direkt från Internet. En offentlig gateway ger Internetåtkomst till följande portar, som är vanliga för alla HDInsight-klustertyper.

Tjänst Port Protokoll Description
Sshd 22 SSH Ansluter klienter till sshd på den primära huvudnoden. Mer information finns i Använda SSH med HDInsight.
Sshd 22 SSH Ansluter klienter till sshd på gränsnoden. Mer information finns i Använda SSH med HDInsight.
Sshd 23 SSH Ansluter klienter till sshd på den sekundära huvudnoden. Mer information finns i Använda SSH med HDInsight.
Ambari 443 HTTPS Ambari-webbgränssnitt. Se Hantera HDInsight med apache Ambari-webbgränssnittet
Ambari 443 HTTPS Ambari REST API. Se Hantera HDInsight med Apache Ambari REST API
WebHCat 443 HTTPS HCatalog REST API. Se Använda MapReduce med Curl
HiveServer2 443 ODBC Ansluter till Hive med ODBC. Se Ansluta Excel till HDInsight med Microsoft ODBC-drivrutinen.
HiveServer2 443 JDBC Ansluter till ApacheHive med JDBC. Se Ansluta till Apache Hive på HDInsight med Hive JDBC-drivrutinen

Följande är tillgängliga för specifika klustertyper:

Tjänst Port Protokoll Klustertyp Description
Stargate 443 HTTPS HBase HBase REST API. Se Kom igång med Apache HBase
Livy 443 HTTPS Spark Spark REST API. Se Skicka Apache Spark-jobb via fjärranslutning med Apache Livy
Spark Thrift-server 443 HTTPS Spark Spark Thrift-server som används för att skicka Hive-frågor. Se Använda Beeline med Apache Hive i HDInsight
Kafka REST-proxy 443 HTTPS Kafka Kafka REST API. Se Interagera med Apache Kafka-kluster i Azure HDInsight med hjälp av en REST-proxy

Autentisering

Alla tjänster som exponeras offentligt på Internet måste autentiseras:

Port Autentiseringsuppgifter
22 eller 23 De autentiseringsuppgifter för SSH-användare som angavs när klustret skapades
443 Inloggningsnamnet (standard: administratör) och lösenordet som angavs när klustret skapades

Icke-offentliga portar

Anteckning

Vissa tjänster är endast tillgängliga för specifika klustertyper. HBase är till exempel bara tillgängligt på HBase-klustertyper.

Viktigt

Vissa tjänster körs bara på en huvudnod i taget. Om du försöker ansluta till tjänsten på den primära huvudnoden och får ett fel försöker du igen med den sekundära huvudnoden.

Ambari

Tjänst Noder Port URL-sökväg Protokoll
Ambari-webbgränssnitt Huvudnoder 8080 / HTTP
Ambari REST API Huvudnoder 8080 /api/v1 HTTP

Exempel:

  • Ambari REST API: curl -u admin "http://10.0.0.11:8080/api/v1/clusters"

HDFS-portar

Tjänst Noder Port Protokoll Description
NameNode-webbgränssnitt Huvudnoder 30070 HTTPS Webbgränssnitt för att visa status
NameNode-metadatatjänst huvudnoder 8020 IPC Metadata för filsystem
Datanod Alla arbetsnoder 30075 HTTPS Webbgränssnitt för att visa status, loggar och så vidare.
Datanod Alla arbetsnoder 30010   Dataöverföring
Datanod Alla arbetsnoder 30020 IPC Metadataåtgärder
Sekundär namnnod Huvudnoder 50090 HTTP Kontrollpunkt för NameNode-metadata

YARN-portar

Tjänst Noder Port Protokoll Description
Resource Manager webbgränssnitt Huvudnoder 8088 HTTP Webbgränssnitt för Resource Manager
Resource Manager webbgränssnitt Huvudnoder 8090 HTTPS Webbgränssnitt för Resource Manager
Resource Manager administratörsgränssnitt huvudnoder 8141 IPC För programöverföringar (Hive, Hive-server, Pig och så vidare.)
Resource Manager schemaläggaren huvudnoder 8030 HTTP Administrativt gränssnitt
Resource Manager programgränssnitt huvudnoder 8050 HTTP Adress för programhanterarens gränssnitt
NodeManager Alla arbetsnoder 30050   Adressen till containerhanteraren
NodeManager-webbgränssnitt Alla arbetsnoder 30060 HTTP Resource Manager-gränssnitt
Tidslinjeadress Huvudnoder 10200 RPC Tidslinjetjänstens RPC-tjänst.
Tidslinjens webbgränssnitt Huvudnoder 8188 HTTP Webbgränssnittet för tidslinjetjänsten

Hive-portar

Tjänst Noder Port Protokoll Description
HiveServer2 Huvudnoder 10001 Thrift Tjänst för att ansluta till Hive (Thrift/JDBC)
Hive-metaarkiv Huvudnoder 9083 Thrift Tjänst för att ansluta till Hive-metadata (Thrift/JDBC)

WebHCat-portar

Tjänst Noder Port Protokoll Description
WebHCat-server Huvudnoder 30111 HTTP Webb-API ovanpå HCatalog och andra Hadoop-tjänster

MapReduce-portar

Tjänst Noder Port Protokoll Description
JobHistory Huvudnoder 19888 HTTP MapReduce JobHistory-webbgränssnitt
JobHistory Huvudnoder 10020   MapReduce JobHistory-server
ShuffleHandler   13562   Överför mellanliggande map-utdata till begärande reducerare

Oozie

Tjänst Noder Port Protokoll Description
Oozie-server Huvudnoder 11000 HTTP URL för Oozie-tjänsten
Oozie-server Huvudnoder 11001 HTTP Port för Oozie-administratör

Ambari-mått

Tjänst Noder Port Protokoll Description
TimeLine (programhistorik) Huvudnoder 6188 HTTP Webbgränssnittet för TimeLine-tjänsten
TimeLine (programhistorik) Huvudnoder 30200 RPC Webbgränssnittet för TimeLine-tjänsten

HBase-portar

Tjänst Noder Port Protokoll Description
HMaster Huvudnoder 16000    
HMaster info Web UI Huvudnoder 16010 HTTP Porten för HBase Master-webbgränssnittet
Regionserver Alla arbetsnoder 16020  
Webbgränssnitt för regionserverinformation  Alla arbetsnoder 16030 HTTP Porten för webbgränssnittet för HBase-regionservern
2181 Porten som klienter använder för att ansluta till ZooKeeper

Kafka-portar

Tjänst Noder Port Protokoll Description
Broker Arbetsnoder 9092 Kafka Wire Protocol Används för klientkommunikation
  Zookeeper-noder 2181   Porten som klienter använder för att ansluta till Zookeeper
REST-proxy Kafka-hanteringsnoder 9400 HTTPS Kafka REST-specifikation

Spark-portar

Tjänst Noder Port Protokoll URL-sökväg Description
Spark Thrift-servrar Huvudnoder 10002 Thrift   Tjänst för att ansluta till Spark SQL (Thrift/JDBC)
Livy-server Huvudnoder 8998 HTTP   Tjänst för körning av instruktioner, jobb och program
Jupyter Notebook Huvudnoder 8001 HTTP   Jupyter Notebook webbplats

Exempel:

  • Livy: curl -u admin -G "http://10.0.0.11:8998/". I det här exemplet 10.0.0.11 är IP-adressen för huvudnoden som är värd för Livy-tjänsten.