Creación de un clúster con Data Lake Storage Gen2 mediante Azure Portal
El Portal de Azure es una herramienta de administración basada en web para servicios y recursos hospedados en la nube de Microsoft Azure. En este artículo aprenderá a crear clústeres de Azure HDInsight basados en Linux mediante el portal. Puede encontrar más detalles en Creación de clústeres de HDInsight.
Advertencia
La facturación de los clústeres de HDInsight se prorratea por minuto, tanto si se usan como si no. Por consiguiente, asegúrese de eliminar el clúster cuando termine de usarlo. Consulte Eliminación de un clúster de HDInsight.
Si no tiene ninguna suscripción a Azure, cree una cuenta gratuita antes de empezar.
Para crear un clúster de HDInsight que use Data Lake Storage Gen2 para el almacenamiento, siga estos pasos para configurar una cuenta de almacenamiento que tenga un espacio de nombres jerárquico.
Crear una identidad administrada asignada por el usuario
Cree una identidad administrada asignada por el usuario si todavía no tiene una.
- Inicie sesión en Azure Portal.
- En la parte superior izquierda, haga clic en Crear un recurso.
- En el cuadro de búsqueda, escriba usuario asignado y haga clic en Identidad administrada asignada por el usuario.
- Haga clic en Crear.
- Escriba un nombre para la identidad administrada y seleccione la suscripción, el grupo de recursos y la ubicación correctos.
- Haga clic en Crear.
Para obtener más información sobre cómo funcionan las identidades administradas en Azure HDInsight, vea Identidades administradas en Azure HDInsight.
Creación de una cuenta de almacenamiento para su uso con Data Lake Storage Gen2
Creación de una cuenta de almacenamiento para su uso con Azure Data Lake Storage Gen2 habilitado.
- Inicie sesión en Azure Portal.
- En la parte superior izquierda, haga clic en Crear un recurso.
- En el cuadro de búsqueda, escriba almacenamiento y haga clic en Cuenta de almacenamiento.
- Haga clic en Crear.
- En la pantalla
Create storage account
:- Seleccione la suscripción y el grupo de recursos correctos.
- Escriba un nombre para la cuenta de almacenamiento con Data Lake Storage Gen2.
- Haga clic en la pestaña Avanzado.
- Haga clic en Habilitado junto a Espacio de nombres jerárquico en Data Lake Storage Gen2.
- Haga clic en Revisar + crear.
- Haga clic en Crear
Para obtener más información sobre otras opciones durante la creación de la cuenta de almacenamiento, consulte Inicio rápido: Creación de una cuenta de almacenamiento para Azure Data Lake Storage Gen2.
Configuración de permisos para la identidad administrada en Data Lake Storage Gen2
Asigne la identidad administrada al rol Propietario de datos de Storage Blob en la cuenta de almacenamiento.
En Azure Portal, vaya a la cuenta de almacenamiento.
Seleccione Access Control (IAM) .
Seleccione Agregar > Agregar asignación de roles.
En la pestaña Rol, seleccione Propietario de datos de Storage Blob.
En la pestaña Miembros, seleccione Identidad administrada y, a continuación, seleccione Seleccionar miembros.
Seleccione la suscripción, seleccione Identidad administrada asignada por el usuario y, por último, seleccione la identidad que desee.
En la pestaña Revisión y asignación, seleccione Revisión y asignación para asignar el rol.
La identidad asignada por el usuario que seleccionó ahora aparece en el rol seleccionado.
Para más información sobre las asignaciones de roles, consulte Asignación de roles de Azure mediante Azure Portal.
Una vez completada la configuración inicial, puede crear un clúster a través del portal. El clúster debe estar en la misma región de Azure que la cuenta de almacenamiento. En la pestaña Almacenamiento del menú de creación del clúster, seleccione las siguientes opciones:
En Tipo de almacenamiento principal, haga clic en Azure Data Lake Storage Gen2.
En Cuenta de almacenamiento principal, busque y seleccione la cuenta de almacenamiento recién creada con Data Lake Storage Gen2.
En Identidad, seleccione la identidad administrada asignada por el usuario recién creada.
Nota:
- Para agregar una cuenta secundaria con Data Lake Storage Gen2 en el nivel de cuenta de almacenamiento, basta con asignar la identidad administrada que ha creado anteriormente a la nueva de Data Lake Storage Gen2 que quiere agregar. Tenga en cuenta que no se admite la adición de una cuenta de almacenamiento secundaria de Data Lake Storage Gen2 mediante la hoja "Cuentas de almacenamiento adicionales" en HDInsight.
- Puede habilitar RA-GRS o RA-ZRS en la cuenta de Azure Blob Storage que usa HDInsight. Sin embargo, no se admite la creación de un clúster en el punto de conexión secundario RA-GRS o RA-ZRS.
- HDInsight no admite la configuración de Data Lake Storage Gen2 como almacenamiento con redundancia de zona geográfica con acceso de lectura (RA-GZRS) o almacenamiento con redundancia de zona geográfica (GZRS).
Eliminación del clúster
Consulte Eliminación de un clúster de HDInsight con el explorador, PowerShell o la CLI de Azure.
Solución de problemas
Si experimenta problemas con la creación de clústeres de HDInsight, consulte los requisitos de control de acceso.
Pasos siguientes
Ha creado correctamente un clúster de HDInsight. Ahora puede aprender a trabajar con el clúster.
Clústeres de Apache Spark
- Personalización de clústeres de HDInsight basados en Linux mediante acciones de script
- Crear una aplicación independiente con Scala
- Ejecución de trabajos de forma remota en un clúster de Apache Spark mediante Apache Livy
- Apache Spark con BI: Análisis de datos interactivos con Spark en HDInsight con las herramientas de BI
- Apache Spark con Machine Learning: uso de Spark en HDInsight para predecir los resultados de la inspección de alimentos