Compartir vía


Integración de OneLake con Azure Synapse Analytics

Azure Synapse es un servicio de análisis ilimitado que reúne el almacenamiento de datos empresariales y el análisis de macrodatos. En este tutorial se muestra cómo conectarse a OneLake mediante Azure Synapse Analytics.

Prerrequisitos

Antes de comenzar, asegúrese de que tiene los siguientes elementos:

  • Acceso a un área de trabajo de Synapse donde puede crear o usar un grupo de Apache Spark y ejecutar scripts SQL.
  • Acceso a una casa de lago en Fabric.
  • Ruta de acceso de ABFS para la carpeta Lakehouse Tables o la tabla que desea consultar.

Escritura de datos desde Synapse mediante Apache Spark

Siga estos pasos para usar Apache Spark para escribir datos de ejemplo en OneLake desde Azure Synapse Analytics.

  1. Abra el área de trabajo de Synapse y cree un grupo de Apache Spark con los parámetros preferidos.

    Captura de pantalla que muestra dónde seleccionar la opción

  2. Cree un nuevo cuaderno de Apache Spark.

  3. Abra el cuaderno, establezca el idioma en PySpark (Python) y conéctelo al grupo de Spark recién creado.

  4. En una pestaña independiente, vaya a la Microsoft Fabric lakehouse y busque la carpeta de nivel superior Tables.

  5. Haga clic con el botón derecho en la carpeta Tablas y seleccione Propiedades.

    Captura de pantalla que muestra dónde abrir el explorador lakehouse del panel Propiedades.

  6. Copie la ruta de acceso de ABFS desde el panel de propiedades.

    Captura de pantalla que muestra dónde copiar la ruta de acceso de ABFS.

  7. De nuevo en el cuaderno Azure Synapse, en la primera celda de código nueva, proporcione la ruta de acceso de lakehouse. Esta ruta de acceso apunta a la carpeta Tables de lakehouse donde se escriben los datos de ejemplo más adelante. Ejecute la celda.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. En una nueva celda de código, cargue datos de un conjunto de datos abierto de Azure en un dataframe. Este conjunto de datos es el que se carga en lakehouse. Ejecute la celda.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. En una nueva celda de código, filtre, transforme o prepare los datos. En este escenario, puede reducir el conjunto de datos para una carga más rápida, unirse a otros conjuntos de datos o filtrar por resultados específicos. Ejecute la celda.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. En una nueva celda de código, usando la ruta de OneLake, escriba el DataFrame filtrado en una nueva tabla Delta-Parquet en su Fabric lakehouse. Ejecute la celda.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Por último, en una nueva celda de código, pruebe que los datos se escribieron correctamente leyendo la nueva tabla Delta de OneLake. Ejecute la celda.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Felicidades. Ahora puede leer y escribir datos en OneLake mediante Apache Spark en Azure Synapse Analytics.

Lectura de datos de Synapse mediante SQL

Siga estos pasos para usar SQL sin servidor para leer datos de OneLake desde Azure Synapse Analytics.

  1. Abra un Fabric lakehouse e identifique una tabla que le gustaría consultar desde Synapse.

  2. Haga clic con el botón derecho en la tabla y seleccione Propiedades.

  3. Copie la ruta de acceso de ABFS para la tabla.

    Captura de pantalla que muestra dónde copiar la ruta de acceso de ABFS.

  4. Abra el área de trabajo de Synapse en Synapse Studio.

  5. Se creará un nuevo script de SQL.

  6. En el editor de consultas SQL, escriba la siguiente consulta y reemplace por ABFS_PATH_HERE la ruta de acceso que copió anteriormente.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Ejecute la consulta para ver las 10 primeras filas de la tabla.

Felicidades. Ahora puede leer datos de OneLake mediante SQL sin servidor en Azure Synapse Analytics.