Integración de OneLake con Azure HDInsight

Artículo
06/18/2024

Azure HDInsight es un servicio administrado basado en la nube para el análisis de macrodatos que ayuda a las organizaciones a procesar grandes cantidades de datos. En este tutorial se muestra cómo conectarse a OneLake con un cuaderno de Jupyter desde un clúster de Azure HDInsight.

Uso de Azure HDInsight

Para conectarse a OneLake con un cuaderno de Jupyter desde un clúster de HDInsight:

Creación de un clúster de Apache Spark en HDInsight (HDI). Siga estas instrucciones: Configuración de clústeres en HDInsight.
1. Al proporcionar información del clúster, recuerde el nombre de usuario y la contraseña de inicio de sesión del clúster, ya que los necesitará más adelante para acceder al clúster.
2. Cree una identidad administrada asignada al usuario (UAMI): Crear para Azure HDInsight - UAMI y elíjala como identidad en la pantalla Almacenamiento.
Conceda a esta UAMI acceso al área de trabajo de Fabric que contiene los elementos. Para obtener ayuda para decidir qué rol es mejor, consulte roles del área de trabajo.
Vaya a Lakehouse y busque el nombre del área de trabajo y Lakehouse. Puede encontrarlos en la dirección URL de Lakehouse o en el panel Propiedades de un archivo.
En Azure Portal, busque el clúster y seleccione el cuaderno.
Escriba la información de credenciales que proporcionó al crear el clúster.
Cree un nuevo cuaderno de Apache Spark.

Copie el área de trabajo y los nombres de Lakehouse en el cuaderno y compile la dirección URL de OneLake para Lakehouse. Ahora puede leer cualquier archivo de esta ruta de acceso de archivo.

fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
df.show()

Intente escribir algunos datos en Lakehouse.

writecsvdf = df.write.format("csv").save(fp + "out.csv")

Compruebe que sus datos se han escrito correctamente verificando su Lakehouse o leyendo su archivo recién cargado.

Ahora puede leer y escribir datos en OneLake mediante el cuaderno de Jupyter en un clúster de HDI Spark.

Seguridad de OneLake

Compartir vía

Integración de OneLake con Azure HDInsight

Uso de Azure HDInsight

Comentarios

Recursos adicionales

Compartir vía

Integración de OneLake con Azure HDInsight

Uso de Azure HDInsight

Contenido relacionado

Comentarios

Recursos adicionales