Puertos utilizados por los servicios Apache Hadoop en HDInsight

En este documento se proporciona una lista de puertos que se usan con los servicios de Apache Hadoop que se ejecutan en clústeres de HDInsight. También se proporciona información sobre los puertos utilizados para conectarse al clúster mediante SSH.

Puertos públicos frente a puertos no públicos

Los clústeres de HDInsight basados en Linux solo exponen tres puertos públicamente en Internet: 22, 23 y 443. Estos puertos protegen el acceso al clúster mediante SSH y servicios expuestos mediante el protocolo HTTPS seguro.

HDInsight se implementa mediante varias instancias de Azure Virtual Machines (nodos del clúster) que se ejecutan en Azure Virtual Network. Desde dentro de la red virtual, puede acceder a los puertos no expuestos a través de Internet. Si se conecta mediante SSH al nodo principal, puede acceder directamente a los servicios que se ejecutan en los nodos de clúster.

Importante

Si no especifica una instancia de Azure Virtual Network como una opción de configuración de HDInsight, automáticamente se crea una. Sin embargo, no puede unir otras máquinas (por ejemplo, otras instancias de Azure Virtual Machines o su máquina de desarrollo de cliente) a esta red virtual.

Para unir equipos adicionales a la red virtual, debe crear primero la red virtual y luego especificarla al crear el clúster de HDInsight. Para más información, consulte Planeamiento de una red virtual para HDInsight.

Puertos públicos

Todos los nodos de un clúster de HDInsight se encuentran en una instancia de Azure Virtual Network. No se puede acceder a los nodos directamente desde Internet. Una puerta de enlace pública proporciona acceso desde Internet a los puertos siguientes, que son comunes a todos los tipos de clúster de HDInsight.

Servicio Port Protocolo Descripción
sshd 22 SSH Conecta los clientes a sshd en el nodo primario principal. Para más información, consulte Uso SSH con HDInsight.
sshd 22 SSH Conecta los clientes a sshd en el nodo perimetral. Para más información, consulte Uso SSH con HDInsight.
sshd 23 SSH Conecta los clientes a sshd en el nodo primario secundario. Para más información, consulte Uso SSH con HDInsight.
Ambari 443 HTTPS Interfaz de usuario web de Ambari. Consulte Administración de clústeres de HDInsight con la interfaz de usuario web de Apache Ambari
Ambari 443 HTTPS API de REST de Ambari. Consulte Administración de clústeres de HDInsight con la API REST de Apache Ambari
WebHCat 443 HTTPS API de REST HCatalog. Consulte Uso de MapReduce con Curl
HiveServer2 443 ODBC Conecta a Hive mediante ODBC. Consulte Conexión de Excel en HDInsight con el controlador ODBC de Microsoft.
HiveServer2 443 JDBC Conecta a Apache Hive mediante JDBC. Consulte Conexión a Apache Hive en HDInsight de Azure con el controlador JDBC de Hive.

Las siguientes opciones están disponibles para determinados tipos de clúster:

Servicio Port Protocolo Tipo de clúster Descripción
Stargate 443 HTTPS HBase API de REST de HBase. Consulte Introducción a Apache HBase.
Livy 443 HTTPS Spark API de REST de Spark. Consulte Envío de trabajos remotos de Apache Spark mediante Apache Livy.
Servidor Thrift de Spark 443 HTTPS Spark El servidor Thrift de Spark que se usa para enviar consultas de Hive. Consulte Beeline con Apache Hive en HDInsight.
Proxy de REST de Kafka 443 HTTPS Kafka API REST de Kafka. Consulte Interacción con clústeres de Apache Kafka en Azure HDInsight mediante un proxy de REST.

Authentication

Todos los servicios expuestos públicamente en Internet se deben autenticar:

Port Credenciales
22 o 23 Las credenciales de usuario de SSH especificadas durante la creación del clúster.
443 El nombre de inicio de sesión (predeterminado: admin) y la contraseña que se establecieron durante la creación del clúster.

Puertos no públicos

Nota

Algunos servicios solo están disponibles en determinados tipos de clúster. Por ejemplo, HBase solo está disponible en los tipos de clúster de HBase.

Importante

Algunos servicios solo se ejecutan en un nodo principal cada vez. Si intenta conectarse al servicio en el nodo principal primario y recibe un error, vuelva a intentarlo con el nodo principal secundario.

Ambari

Servicio Nodos Port Ruta de acceso URL Protocolo
Interfaz de usuario web de Ambari Nodos principales 8080 / HTTP
API de REST de Ambari Nodos principales 8080 /api/v1 HTTP

Ejemplos:

  • API de REST de Ambari: curl -u admin "http://10.0.0.11:8080/api/v1/clusters"

Puertos HDFS

Servicio Nodos Port Protocolo Descripción
Interfaz de usuario web de NameNode Nodos principales 30070 HTTPS Interfaz de usuario web para ver el estado
Servicio de metadatos de NameNode Nodos principales 8020 IPC Metadatos del sistema de archivos
DataNode Todos los nodos de trabajo 30075 HTTPS Interfaz de usuario web para ver el estado, los registros, etc.
DataNode Todos los nodos de trabajo 30010   Transferencia de datos
DataNode Todos los nodos de trabajo 30020 IPC Operaciones de metadatos
NameNode secundario Nodos principales 50090 HTTP Punto de control para metadatos de NameNode

Puertos de YARN

Servicio Nodos Port Protocolo Descripción
Interfaz de usuario web de Resource Manager Nodos principales 8088 HTTP Interfaz de usuario web para Resource Manager
Interfaz de usuario web de Resource Manager Nodos principales 8090 HTTPS Interfaz de usuario web para Resource Manager
Interfaz de administración de Resource Manager Nodos principales 8141 IPC Para envíos de aplicaciones (Hive, servidor de Hive, Pig, etc.)
Programador de Resource Manager Nodos principales 8030 HTTP Interfaz administrativa
Interfaz de aplicación de Resource Manager Nodos principales 8050 HTTP Dirección de la interfaz del administrador de aplicaciones
NodeManager Todos los nodos de trabajo 30050   La dirección del administrador de contenedores
Interfaz de usuario web de NodeManager Todos los nodos de trabajo 30060 HTTP Interfaz de Resource Manager
Dirección de escala de tiempo Nodos principales 10200 RPC El servicio RPC del servicio de escala de tiempo.
Interfaz de usuario web de escala de tiempo Nodos principales 8188 HTTP La interfaz de usuario web del servicio de escala de tiempo

Puertos de Hive

Servicio Nodos Port Protocolo Descripción
HiveServer2 Nodos principales 10001 Thrift Servicio para conectarse a Hive (Thrift/JDBC)
Tienda de metadatos Hive Nodos principales 9083 Thrift Servicio para conectarse a metadatos de Hive (Thrift/JDBC)

Puertos de WebHCat

Servicio Nodos Port Protocolo Descripción
Servidor de WebHCat Nodos principales 30111 HTTP API web encima de HCatalog y otros servicios de Hadoop

Puertos de MapReduce

Servicio Nodos Port Protocolo Descripción
Historial de trabajos Nodos principales 19888 HTTP Interfaz de usuario web del historial de trabajos de MapReduce
Historial de trabajos Nodos principales 10020   Servidor de historial de trabajos de MapReduce
ShuffleHandler   13562   Transfiere las salidas de mapa intermedias a los reductores solicitantes

Oozie

Servicio Nodos Port Protocolo Descripción
Servidor de Oozie Nodos principales 11000 HTTP Dirección URL del servicio de Oozie
Servidor de Oozie Nodos principales 11001 HTTP Puerto de administración de Oozie

Métricas de Ambari

Servicio Nodos Port Protocolo Descripción
Escala de tiempo (historial de aplicaciones) Nodos principales 6188 HTTP La interfaz de usuario web del servicio de escala de tiempo
Escala de tiempo (historial de aplicaciones) Nodos principales 30200 RPC La interfaz de usuario web del servicio de escala de tiempo

Puertos de HBase

Servicio Nodos Port Protocolo Descripción
HMaster Nodos principales 16000    
Interfaz de usuario web de información de HMaster Nodos principales 16010 HTTP El puerto de la interfaz de usuario web de HBase Master
Servidor de región Todos los nodos de trabajo 16020  
Interfaz de usuario web de información del servidor de región  Todos los nodos de trabajo 16030 HTTP Puerto de la interfaz de usuario web del servidor de región de HBase
2181 El puerto que los clientes utilizan para conectarse a ZooKeeper

Puertos Kafka

Servicio Nodos Port Protocolo Descripción
Agente Nodos de trabajo 9092 Protocolo Wire de Kafka Se utiliza para la comunicación del cliente
  Nodos Zookeeper 2181   El puerto que los clientes utilizan para conectarse a ZooKeeper
Proxy de REST Nodos de administración de Kafka 9400 HTTPS Especificación REST de Kafka

Puertos de Spark

Servicio Nodos Port Protocolo Ruta de acceso URL Descripción
Servidores Thrift de Spark Nodos principales 10002 Thrift   Servicio para conectarse a Spark SQL (Thrift/JDBC)
Servidor Livy Nodos principales 8998 HTTP   Servicio para ejecutar instrucciones, trabajos y aplicaciones
Jupyter Notebook Nodos principales 8001 HTTP   Sitio web de Jupyter Notebook

Ejemplos:

  • Livy: curl -u admin -G "http://10.0.0.11:8998/". En este ejemplo, 10.0.0.11 es la dirección IP del nodo principal que hospeda el servicio Livy.