Integrar OneLake con Azure Synapse Analytics

Azure Synapse es un servicio de análisis ilimitado que reúne el almacenamiento de datos empresariales y el análisis de macrodatos. En este tutorial se muestra cómo conectarse a OneLake mediante Azure Synapse Analytics.

Escritura de datos desde Synapse mediante Apache Spark

Siga estos pasos para usar Apache Spark para escribir datos de ejemplo en OneLake desde Azure Synapse Analytics.

  1. Abra su área de trabajo Synapse y cree un pool Apache Spark con sus parámetros preferidos.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Cree un nuevo cuaderno de Apache Spark.

  3. Abra el cuaderno, establezca el lenguaje en PySpark (Python) y conéctelo al grupo de Spark recién creado.

  4. En una pestaña independiente, vaya a la instancia de Lakehouse de Microsoft Fabric y busque la carpeta Tablas de nivel superior.

  5. Haga clic con el botón derecho en la carpeta Tablas y seleccione Propiedades.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Copie la ruta ABFS del panel de propiedades.

    Screenshot showing where to copy the ABFS path.

  7. De nuevo en el cuaderno Azure Synapse, en la primera celda de código nueva, proporcione la ruta de acceso de lakehouse. Este lago es donde se escriben los datos más adelante. Ejecute la celda.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. En una nueva celda de código, cargue datos de un conjunto de datos abierto de Azure en una trama de datos. Este conjunto de datos es el que se carga en el lago. Ejecute la celda.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. En una nueva celda de código, filtre, transforme o prepare los datos. En este escenario, puede reducir el conjunto de datos para una carga más rápida, unirse a otros conjuntos de datos o filtrar por resultados específicos. Ejecute la celda.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. En una nueva celda de código, con la ruta de acceso de OneLake, escriba la trama de datos filtrada en una nueva tabla de Delta-Parquet en fabric lakehouse. Ejecute la celda.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Por último, en una nueva celda de código, pruebe que los datos se escribieron correctamente leyendo el archivo recién cargado desde OneLake. Ejecute la celda.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

¡Enhorabuena! Ahora puede leer y escribir datos en OneLake mediante Apache Spark en Azure Synapse Analytics.

Lectura de datos de Synapse mediante SQL

Siga estos pasos para usar SQL sin servidor para leer datos de OneLake desde Azure Synapse Analytics.

  1. Abra una instancia de Fabric Lakehouse e identifique una tabla que le gustaría consultar desde Synapse.

  2. Haga clic con el botón derecho en la tabla y seleccione Propiedades.

  3. Copie la ruta de acceso de ABFS de la tabla.

    Screenshot showing where to copy the ABFS path.

  4. Abra el área de trabajo en Synapse Studio.

  5. Se creará un nuevo script de SQL.

  6. En el editor de consultas SQL, escriba la siguiente consulta, reemplazando por ABFS_PATH_HERE la ruta de acceso que copió anteriormente.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Ejecute la consulta para ver las 10 primeras filas de la tabla.

¡Enhorabuena! Ahora puede leer datos de OneLake utilizando SQL sin servidor en Azure Synapse Analytics.