Crear clústeres de HDInsight con Data Lake Storage Gen1 mediante Azure Portal
Aprenda a usar Azure Portal para crear un clúster de HDInsight con Azure Data Lake Storage Gen1 como almacenamiento predeterminado o adicional. Aunque el almacenamiento adicional es opcional en el caso de los clústeres de HDInsight, se recomienda almacenar los datos empresariales en las cuentas de almacenamiento adicional.
Prerequisites
Antes de comenzar, asegúrese de que ha cumplido los requisitos siguientes:
- Una suscripción de Azure. Vaya a Obtener evaluación gratuita de Azure.
- Una cuenta de Azure Data Lake Storage Gen1. Siga las instrucciones que se describen en Get started with Azure Data Lake Storage Gen1 by using the Azure portal (Introducción a Azure Data Lake Storage Gen1 mediante Azure Portal). También debe crear una carpeta raíz en la cuenta. En este artículo se usa una carpeta raíz llamada /clusters.
- una entidad de servicio Microsoft Entra. En esta guía paso a paso se proporcionan instrucciones sobre cómo crear una entidad de servicio en Microsoft Entra ID. Sin embargo, para crear una entidad de servicio, debe ser administrador de Microsoft Entra. Si ya lo es, puede hacer caso omiso a este requisito previo y continuar.
Nota
Solo puede crear una entidad de servicio si es administrador de Microsoft Entra. El administrador de Microsoft Entra debe crear una entidad de servicio para poder crear un clúster de HDInsight con Data Lake Storage Gen1. Además, la entidad de servicio debe crearse con un certificado, tal y como se describe en Creación de entidad de servicio con certificado.
Creación de un clúster de HDInsight
En esta sección creará un clúster de HDInsight con Data Lake Storage Gen1 como almacenamiento predeterminado o adicional. Este artículo se centra únicamente en la configuración de Data Lake Storage Gen1. Para obtener información general sobre la creación de clústeres y sobre los procedimientos, consulte Creación de clústeres de Hadoop en HDInsight.
Crear un clúster con Data Lake Storage Gen1 como almacenamiento predeterminado
Para crear un clúster de HDInsight con Data Lake Storage Gen1 como cuenta de almacenamiento predeterminada:
Inicie sesión en Azure Portal.
Siga Creación de clústeres para obtener información general sobre cómo crear clústeres de HDInsight.
En la hoja Almacenamiento, en Tipo de almacenamiento principal, seleccione Azure Data Lake Storage Gen1 y escriba la siguiente información:
- Seleccione la cuenta de Data Lake Store: seleccione una cuenta existente de Data Lake Storage Gen1. Se necesita una cuenta existente de Data Lake Storage Gen1. Consulte Requisitos previos.
- Ruta de acceso raíz: escriba una ruta de acceso en la que se almacenarán los archivos específicos del clúster. En la captura de pantalla, es /clusters/myhdiadlcluster/ , donde la carpeta /clusters debe existir y el portal crea la carpeta myhdicluster. myhdicluster es el nombre del clúster.
- Acceso a Data Lake Store: configure el acceso entre la cuenta de Data Lake Storage Gen1 y el clúster de HDInsight. Para obtener instrucciones, consulte Configure Data Lake Storage Gen1 access (Configuración del acceso a Data Lake Storage Gen1).
- Cuentas de almacenamiento adicionales: agregue cuentas de Azure Storage como cuentas de almacenamiento adicionales para el clúster. Para agregar más cuentas de Data Lake Storage Gen1, asigne al clúster permisos de datos en más cuentas de Data Lake Storage Gen1 al configurar una cuenta de Data Lake Storage Gen1 como tipo de almacenamiento principal. Consulte Configuración del acceso a Data Lake Storage Gen1.
En Acceso a Data Lake Store, haga clic en Seleccionar y continúe con la creación del clúster, tal y como se describe en Creación de clústeres de Hadoop en HDInsight.
Crear un clúster con Data Lake Storage Gen1 como almacenamiento adicional
En las siguientes instrucciones se describe cómo crear un clúster de HDInsight con una cuenta de Azure Blob Storage como almacenamiento predeterminado y una cuenta de almacenamiento con Data Lake Storage Gen1 como almacenamiento adicional.
Para crear un clúster de HDInsight con Data Lake Storage Gen1 como cuenta de almacenamiento adicional:
Inicie sesión en Azure Portal.
Siga Creación de clústeres para obtener información general sobre cómo crear clústeres de HDInsight.
En la hoja Almacenamiento, en Tipo de almacenamiento principal, seleccione Azure Storage y escriba la siguiente información:
Método de selección: para especificar una cuenta de almacenamiento que forma parte de la suscripción de Azure, seleccione Mis suscripciones y después seleccione la cuenta de almacenamiento. Para especificar una cuenta de almacenamiento que está fuera de su suscripción de Azure, seleccione Clave de acceso y luego proporcione la información de la cuenta de almacenamiento externa.
Contenedor predeterminado: use el valor predeterminado o especifique su propio nombre.
Cuentas de almacenamiento adicionales: agregue más cuentas de Azure Storage como almacenamiento adicional.
Acceso a Data Lake Store: configure el acceso entre la cuenta de Data Lake Storage Gen1 y el clúster de HDInsight. Para obtener instrucciones, consulte Configuración del acceso a Data Lake Storage Gen1.
Configuración del acceso a Data Lake Storage Gen1.
En esta sección, configurará Data Lake Storage Gen1 acceso desde clústeres de HDInsight mediante una entidad de servicio Microsoft Entra.
Especificar una entidad de servicio
En Azure Portal puede usar una entidad de servicio existente o crear una.
Para crear una entidad de servicio desde Azure Portal:
- Consulte Creación de entidades de servicio y certificados mediante Microsoft Entra ID.
Para usar una entidad de servicio existente en Azure Portal:
La entidad de servicio debe tener permisos de propietario en la cuenta de almacenamiento. Consulte Configuración de permisos para que la entidad de servicio sea propietaria en la cuenta de almacenamiento.
Seleccione Acceso a Data Lake Store.
En la hoja Acceso a Data Lake Storage Gen1, seleccione Usar existente.
Seleccione Entidad de servicio y luego elija una entidad de servicio.
Cargue el certificado (archivo .pfx) asociado a la entidad de servicio seleccionada y especifique la contraseña del certificado.
Seleccione Acceso para configurar el acceso a la carpeta. Consulte Configurar los permisos de los archivos.
Configuración de permisos para que la entidad de servicio sea propietaria en la cuenta de almacenamiento
- En la hoja Access Control (IAM) de la cuenta de almacenamiento, haga clic en Agregar una asignación de roles.
- En la hoja Agregar una asignación de roles, seleccione un rol como "propietario", seleccione el SPN y haga clic en Guardar.
Configurar los permisos de los archivos
La configuración varía en función de si la cuenta se usa como almacenamiento predeterminado o como cuenta de almacenamiento adicional:
Uso como almacenamiento predeterminado
- Permiso en el nivel raíz de la cuenta de Data Lake Storage Gen1
- Permiso en el nivel raíz del almacenamiento de clúster de HDInsight. Por ejemplo, la carpeta /clusters que se ha usado antes en el tutorial.
Uso como almacenamiento adicional
- Permiso en las carpetas en las que necesita acceso de archivo.
Para asignar permisos en la cuenta de almacenamiento con Data Lake Storage Gen1 en el nivel raíz:
En la hoja Acceso a Data Lake Storage Gen1, seleccione Acceso. Se abrirá la hoja Seleccionar permisos de archivo. En ella se muestran todas las cuentas de almacenamiento de su suscripción.
Pase el mouse (sin hacer clic) sobre el nombre de la cuenta con Data Lake Storage Gen1 para que aparezca la casilla y, luego, actívela.
De forma predeterminada, los permisos LECTURA, ESCRITURA Y EJECUCIÓN están seleccionados.
Haga clic en Seleccionar en la parte inferior de la página.
Seleccione Ejecutar para asignar el permiso.
Seleccione Listo.
Para asignar permisos en el nivel raíz del clúster de HDInsight:
- En la hoja Acceso a Data Lake Storage Gen1, seleccione Acceso. Se abrirá la hoja Seleccionar permisos de archivo. En ella se muestran todas las cuentas de almacenamiento con Data Lake Storage Gen1 en la suscripción.
- En la hoja Seleccionar permisos de archivo, seleccione la cuenta de almacenamiento con el nombre Data Lake Storage Gen1 para mostrar su contenido.
- Seleccione la raíz del almacenamiento de clúster de HDInsight activando la casilla situada a la izquierda de la carpeta. Según la captura de pantalla anterior, la raíz de almacenamiento del clúster es la carpeta /clusters que especificó al seleccionar Data Lake Storage Gen1 como almacenamiento predeterminado.
- Establezca los permisos en la carpeta. De forma predeterminada, los permisos LECTURA, ESCRITURA Y EJECUCIÓN están seleccionados.
- Haga clic en Seleccionar en la parte inferior de la página.
- Seleccione Run (Ejecutar).
- Seleccione Listo.
Si usa Data Lake Storage Gen1 como almacenamiento adicional, debe asignar permisos solo para las carpetas a las que quiere obtener acceso desde el clúster de HDInsight. Por ejemplo, en la siguiente captura de pantalla, se proporciona acceso únicamente a la carpeta mynewfolder en una cuenta de almacenamiento con Data Lake Storage Gen1.
Comprobación de la configuración del clúster
Una vez concluida la configuración del clúster, en la hoja del clúster, compruebe los resultados siguiendo uno de los siguientes pasos o ambos:
Para comprobar que el almacenamiento asociado para el clúster es la cuenta con Data Lake Storage Gen1 que ha especificado, seleccione Cuentas de almacenamiento en el panel izquierdo.
Para comprobar que la entidad de servicio está correctamente asociada al clúster de HDInsight, seleccione Acceso a Data Lake Storage Gen1 en el panel izquierdo.
Ejemplos
Después de configurar el clúster con Data Lake Storage Gen1 como almacenamiento, consulte estos ejemplos sobre cómo usar el clúster de HDInsight para analizar los datos que están almacenados en Data Lake Storage Gen1.
Ejecución de una consulta de Hive en datos de Data Lake Storage Gen1 (como almacenamiento principal)
Para ejecutar una consulta de Hive, use la interfaz de vistas de Hive en el portal de Ambari. Para instrucciones sobre cómo usar las vistas de Hive de Ambari, consulte Uso de Vista de Hive con Hadoop en HDInsight.
Cuando se trabaja con datos en Data Lake Storage Gen1, hay algunas cadenas que se deben cambiar.
Si usa, por ejemplo, el clúster que ha creado con Data Lake Storage Gen1 como almacenamiento principal, la ruta de acceso a los datos es: adl://<nombre_de_la_cuenta_de_data_lake_storage_gen1>/ruta/al/archivo/azuredatalakestore.net. Las consultas de Hive para crear una tabla a partir de los datos de ejemplo almacenados en Data Lake Storage Gen1 tienen un aspecto similar a la siguiente instrucción:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Descripciones:
-
adl://hdiadlsg1storage.azuredatalakestore.net/
es la raíz de la cuenta con Data Lake Storage Gen1. -
/clusters/myhdiadlcluster
es la raíz de los datos de clúster que especificó al crear el clúster. -
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
es la ubicación del archivo de ejemplo que usó en la consulta.
Ejecución de una consulta de Hive en datos de Data Lake Storage Gen1 (como almacenamiento adicional)
Si el clúster que creó usa Blob Storage como almacenamiento predeterminado, los datos de ejemplo no están contenidos en la cuenta de almacenamiento con Data Lake Storage Gen1 que se usa como almacenamiento adicional. En tal caso, transfiera primero los datos de Blob Storage a la cuenta de almacenamiento con Data Lake Storage Gen1 y, luego, ejecute las consultas tal y como se muestra en el ejemplo anterior.
Para obtener información sobre cómo copiar datos de Blob Storage a una cuenta de almacenamiento con Data Lake Storage Gen1, consulte los siguientes artículos:
- Uso de Distcp para copiar datos entre Azure Blob Storage y Data Lake Storage Gen1
- Uso de AdlCopy para copiar datos de Azure Blob Storage a Data Lake Storage Gen1
Usar Data Lake Storage Gen1 con un clúster de Spark
Puede usar un clúster de Spark para ejecutar trabajos de Spark en los datos que se almacenan en Data Lake Storage Gen1. Para obtener más información, consulte Usar un clúster de HDInsight Spark para analizar los datos en Data Lake Storage Gen1
Usar el Data Lake Storage Gen1 en una topología de Storm
Consulte también
- Usar Data Lake Storage Gen1 con clústeres de Azure HDInsight
- PowerShell: Create an HDInsight cluster to use Data Lake Storage Gen1 (PowerShell: crear un clúster de HDInsight para usar Data Lake Storage Gen1)