Integración de OneLake con Azure Databricks

Importante

Microsoft Fabric está actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.

En este escenario se muestra cómo conectarse a OneLake mediante Azure Databricks. Después de completar este tutorial, podrá leer y escribir en una instancia de Microsoft Fabric Lakehouse desde el área de trabajo de Azure Databricks.

Requisitos previos

Antes de conectarse, complete estos pasos:

  • Un área de trabajo de Fabric y lakehouse.
  • Un área de trabajo premium de Azure Databricks. Solo las áreas de trabajo premium de Azure Databricks admiten Microsoft Azure Active Directory paso a través de credenciales, que es necesario para este escenario.

Configuración del área de trabajo de Databricks

  1. Abra el área de trabajo de Azure Databricks y seleccione Crear>clúster.

  2. Para autenticarse en OneLake con la identidad de Azure AD, debe habilitar Azure Data Lake Storage paso a través de credenciales en el clúster en opciones avanzadas.

    Captura de pantalla que muestra dónde seleccionar Crear clúster en la pantalla Opciones avanzadas.

    Nota:

    También puede conectar Databricks a OneLake mediante una entidad de servicio. Para más información sobre cómo autenticar Azure Databricks mediante una entidad de servicio, consulte Entidades de servicio para la automatización de Azure Databricks.

  3. Cree el clúster con los parámetros preferidos. Para más información sobre cómo crear un clúster de Databricks, consulte Configuración de clústeres: Azure Databricks.

  4. Abra un cuaderno y conéctelo al clúster recién creado.

Creación del cuaderno

  1. Vaya a fabric lakehouse y copie la ruta de acceso de ABFS a su lago. Puede encontrarlo en el panel Propiedades .

    Nota:

    Azure Databricks solo admite el controlador azure Blob Filesystem (ABFS) al leer y escribir en Azure Data Lake Storage (ADLS) Gen2 y OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/

  2. Guarde la ruta de acceso a lakehouse en el cuaderno de Databricks. Esta instancia de Lakehouse es donde escribirá los datos procesados más adelante:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Cargue datos de un conjunto de datos público de Databricks en un dataframe. También puede leer un archivo de otra parte de Fabric o elegir un archivo de otra cuenta de ADLS Gen2 que ya posee.

    yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Filtre, transforme o prepare los datos. En este escenario, puede reducir el conjunto de datos para una carga más rápida, unirse a otros conjuntos de datos o filtrar por resultados específicos.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Escriba la trama de datos filtrada en Fabric Lakehouse mediante la ruta de acceso de OneLake.

    filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
    
  6. Pruebe que los datos se escribieron correctamente leyendo el archivo recién cargado.

    lakehouseRead = spark.read.format('csv').load(oneLakePath)
    display(lakehouseRead.limit(10))
    

¡Enhorabuena! Ahora puede leer y escribir datos en Fabric mediante Azure Databricks.

Pasos siguientes