Integración de OneLake con Azure Databricks

En este escenario se muestra cómo conectarse a OneLake a través de Azure Databricks. Después de completar este tutorial, podrá leer y escribir en una instancia de Microsoft Fabric Lakehouse desde el área de trabajo de Azure Databricks.

Requisitos previos

Antes de conectarse, debe tener:

  • Un área de trabajo de Fabric y un almacén de lago.
  • Un área de trabajo premium de Azure Databricks. Solo las áreas de trabajo premium de Azure Databricks admiten el acceso directo a credenciales de Microsoft Entra, que es necesario para este escenario.

Configuración del área de trabajo de Databricks

  1. Abra el área de trabajo de Azure Databricks y seleccione Crear>Clúster.

  2. Para autenticarse en OneLake con la identidad de Microsoft Entra, debe habilitar el acceso directo a las credenciales de Azure Data Lake Storage (ADLS) en el clúster en Opciones avanzadas.

    Screenshot showing where to select Create cluster in the Advanced options screen.

    Nota:

    También puede conectar Databricks a OneLake mediante una entidad de servicio. Para obtener más información sobre la autenticación de Azure Databricks mediante una entidad de servicio, consulta Administrar entidades de servicio.

  3. Cree el clúster con sus parámetros preferidos. Para obtener más información sobre cómo crear un clúster de Databricks, consulte Configuración de clústeres: Azure Databricks.

  4. Abra un cuaderno y conéctelo al clúster recién creado.

Creación del cuaderno

  1. Vaya al almacén de lago de Fabric y copie la ruta de acceso de Azure Blob Filesystem (ABFS) en el almacén de lago. Puede encontrarlo en el panel Propiedades.

    Nota:

    Azure Databricks solo admite el controlador Azure Blob Filesystem (ABFS) al leer y escribir en ADLS Gen2 y OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.

  2. Guarde la ruta de acceso al almacén de lago en el cuaderno de Databricks. Este almacén de lago es donde escribirá los datos procesados más adelante:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Cargue datos de un conjunto de datos público de Databricks en un dataframe. También puede leer un archivo de otra parte de Fabric o elegir un archivo de otra cuenta de ADLS Gen2 que ya posee.

    yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Filtre, transforme o prepare los datos. En este escenario, puede reducir el conjunto de datos para una carga más rápida, unirse a otros conjuntos de datos o filtrar por resultados específicos.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Escriba el dataframe filtrado en el almacén de lago de Fabric mediante la ruta de acceso de OneLake.

    filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
    
  6. Pruebe que los datos se escribieron correctamente leyendo el archivo recién cargado.

    lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
    display(lakehouseRead.limit(10))
    

¡Enhorabuena! Ahora puede leer y escribir datos en Fabric mediante Azure Databricks.