Compartir a través de


Crear un clúster de Spark en HDInsight en AKS (versión preliminar)

Nota:

Retiraremos Azure HDInsight en AKS el 31 de enero de 2025. Antes del 31 de enero de 2025, deberá migrar las cargas de trabajo a Microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo. Los clústeres restantes de la suscripción se detendrán y quitarán del host.

Solo el soporte técnico básico estará disponible hasta la fecha de retirada.

Importante

Esta funcionalidad actualmente está en su versión preliminar. En Términos de uso complementarios para las versiones preliminares de Microsoft Azure encontrará más términos legales que se aplican a las características de Azure que están en versión beta, en versión preliminar, o que todavía no se han lanzado con disponibilidad general. Para más información sobre esta versión preliminar específica, consulte la Información de Azure HDInsight sobre la versión preliminar de AKS. Para plantear preguntas o sugerencias sobre la característica, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.

Tras completar los requisitos previos de la suscripción y los requisitos previos de los recursos, e implementar un grupo de clústeres, siga usando Azure Portal para crear un clúster de Spark. Puede usar Azure Portal para crear un clúster de Apache Spark en el grupo de clústeres. Luego puede crear un cuaderno de Jupyter Notebook y usarlo para ejecutar consultas de Spark SQL en tablas de Apache Hive.

  1. En Azure Portal, escriba grupos de clústeres y seleccione grupos de clústeres para ir a la página grupos de clústeres. En la página grupos de clústeres, seleccione el grupo de clústeres en el que puede agregar un nuevo clúster de Spark.

  2. En la página grupo de clústeres específico, haga clic en + Nuevo clúster.

    Captura de pantalla que muestra cómo crear un nuevo clúster de spark.

    Este paso abre la página de creación del clúster.

    Captura de pantalla que muestra la página Crear clúster básico.

    Propiedad Descripción
    Suscripción La suscripción de Azure que se registró para su uso con HDInsight en AKS en la sección Requisitos previos con se rellena previamente
    Grupo de recursos El mismo grupo de recursos que el grupo de clústeres se rellenará previamente
    Region La misma región que el grupo de clústeres y virtual se rellenarán previamente
    Grupo de clústeres El nombre del grupo de clústeres se rellenará previamente
    Versión del grupo de HDInsight La versión del grupo de clústeres se rellenará previamente a partir de la selección de creación del grupo
    HDInsight en la versión de AKS Especificación de HDI en la versión de AKS
    Tipo de clúster En la lista desplegable, seleccione Spark
    Versión del clúster Seleccione la versión de la versión de la imagen que se va a usar
    Nombre del clúster Escriba el nombre del nuevo clúster
    Identidad administrada asignada por el usuario Seleccione la identidad administrada asignada por el usuario que funcionará como una cadena de conexión con el almacenamiento
    Cuenta de almacenamiento Seleccione la cuenta de almacenamiento creada previamente que se usará como almacenamiento principal para el clúster
    Nombre del contenedor Seleccione el nombre del contenedor (único) si se creó previamente o cree un nuevo contenedor
    Catálogo de Hive (opcional) Seleccione la metastore de Hive creado previamente (Azure SQL DB)
    SQL Database para Hive En la lista desplegable, seleccione la instancia de SQL Database en la que se van a agregar tablas de hive-metastore.
    Nombre de usuario administrador de SQL Escriba el nombre de usuario del administrador de SQL
    Key Vault En la lista desplegable, seleccione Key Vault, que contiene un secreto con contraseña para el nombre de usuario de administrador de SQL
    Nombre secreto de contraseña de SQL Escriba el nombre del secreto de Key Vault donde se almacena la contraseña de SQL DB

    Nota:

    • Actualmente HDInsight solo admite bases de datos de MS SQL Server.
    • Debido a la limitación de Hive, no se admite el carácter "-" (guion) en el nombre de la base de datos de la metastore.
  3. Seleccione Siguiente: Configuración + precios para continuar.

    Captura de pantalla que muestra la pestaña de precios 1.

    Captura de pantalla que muestra la pestaña de precios 2.

    Captura de pantalla que muestra la pestaña ssh.

    Propiedad Descripción
    Tamaño del nodo Seleccione el tamaño del nodo que se va a usar para los nodos de Spark
    Número de nodos de trabajo Seleccione el número de nodos para el clúster de Spark. De ellos, tres nodos están reservados para los servicios del sistema y del coordinador, los nodos restantes están dedicados a los trabajadores de Spark, un trabajador por nodo. Por ejemplo, en un clúster de cinco nodos hay dos trabajos
    Escalado automático Haga clic en el botón de alternancia para habilitar la escalabilidad automática
    Tipo de escalado automático Seleccione entre escalabilidad automática basada en carga o en programación
    Tiempo de espera de retirada correcta Especificar tiempo de espera de retirada con gracia
    No del nodo de trabajo predeterminado Seleccione el número de nodos para el escalado automático
    Zona horaria Seleccione la zona horaria
    Reglas de autoescalado Seleccione el día, la hora de inicio, la hora de finalización, no. de nodos de trabajo
    Habilite SSH Si está habilitado, le permite definir prefijo y número de nodos SSH
  4. Haga clic en Siguiente: integraciones para habilitar y seleccionar Log Analytics para registro.

    Azure Prometheus para la supervisión y las métricas se pueden habilitar después de la creación del clúster.

    Captura de pantalla que muestra la pestaña de integración.

  5. Haga clic en Siguiente: Etiquetas para continuar con la página siguiente.

    Captura de pantalla que muestra la pestaña etiquetas.

  6. En la página Etiquetas, escriba las etiquetas que quiera agregar al recurso.

    Propiedad Descripción
    Nombre Opcional. Escriba un nombre como HDInsight en la versión preliminar privada de AKS para identificar fácilmente todos los recursos asociados a los recursos
    Value Déjelo en blanco
    Resource Seleccione Todos los recursos seleccionados
  7. Haga clic en Siguiente: Review + create (Revisar y crear).

  8. En el página Revisar y crear, busque el mensaje Validación correcta en la parte superior de la página y haga clic en Crear.

  9. Se muestra la página La implementación está en proceso en la que se crea el clúster. Se tarda entre 5 y 10 minutos en crear el clúster. Una vez creado el clúster, se muestra el mensaje La implementación está completa. Si se aleja de la página, puede comprobar el estado Notificaciones.

  10. Vaya a la página de descripción general del clúster, allí podrá ver los enlaces de los puntos finales.

    Captura de pantalla en la que se muestra la página de información general del clúster.