Integración de OneLake con Azure Synapse Analytics

Azure Synapse es un servicio de análisis ilimitado que reúne el almacenamiento de datos empresariales y el análisis de macrodatos. En este tutorial se muestra cómo conectarse a OneLake mediante Azure Synapse Analytics.

Importante

Microsoft Fabric está actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.

Escritura de datos desde Synapse mediante Apache Spark

Siga estos pasos para usar Apache Spark para escribir datos de ejemplo en OneLake desde Azure Synapse Analytics.

  1. Abra el área de trabajo de Synapse y cree un grupo de Apache Spark con los parámetros preferidos.

    Captura de pantalla que muestra dónde seleccionar Nuevo en la pantalla del grupo de Apache Spark.

  2. Cree un nuevo cuaderno de Apache Spark.

  3. Abra el cuaderno, establezca el lenguaje en PySpark (Python) y conéctelo al grupo de Spark recién creado.

  4. En una pestaña independiente, vaya a su instancia de Lakehouse de Microsoft Fabric y busque la carpeta Tablas de nivel superior.

  5. Haga clic con el botón derecho en la carpeta Tablas y haga clic en Propiedades.

    Captura de pantalla que muestra dónde abrir el explorador de lakehouse del panel Propiedades.

  6. Copie la ruta de acceso de ABFS desde el panel de propiedades.

    Captura de pantalla que muestra dónde copiar la ruta de acceso de ABFS.

  7. De nuevo en el cuaderno Azure Synapse, en la primera celda de código nueva, proporcione la ruta de acceso de lakehouse. Aquí es donde se escribirán los datos más adelante. Ejecute la celda.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. En una nueva celda de código, cargue datos de un conjunto de datos abierto de Azure en una trama de datos. Este es el conjunto de datos que cargará en el lago. Ejecute la celda.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. En una nueva celda de código, filtre, transforme o prepare los datos. En este escenario, puede reducir el conjunto de datos para una carga más rápida, unirse a otros conjuntos de datos o filtrar por resultados específicos. Ejecute la celda.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. En una nueva celda de código, mediante la ruta de acceso de OneLake, escriba la trama de datos filtrada en una nueva tabla de Delta-Parquet en fabric lakehouse. Ejecute la celda.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Por último, en una nueva celda de código, pruebe que los datos se escribieron correctamente leyendo el archivo recién cargado desde OneLake. Ejecute la celda.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

¡Enhorabuena! Ahora puede leer y escribir datos en OneLake mediante Apache Spark en Azure Synapse Analytics.

Escritura de datos desde Synapse mediante SQL

Siga estos pasos para usar SQL sin servidor para leer datos de OneLake desde Azure Synapse Analytics.

  1. Abra una instancia de Fabric Lakehouse e identifique una tabla que le gustaría consultar desde Synapse.

  2. Haga clic con el botón derecho en la tabla y haga clic en Propiedades.

  3. Copie la ruta de acceso de ABFS para la tabla.

    Captura de pantalla que muestra dónde copiar la ruta de acceso de ABFS.

  4. Abra el área de trabajo de Synapse en Synapse Studio.

  5. Se creará un nuevo script de SQL.

  6. En el editor de consultas SQL, escriba la consulta siguiente y reemplace ABFS_PATH_HERE por la ruta de acceso que copió anteriormente.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Ejecute la consulta para ver las 10 primeras filas de la tabla.

¡Enhorabuena! Ahora puede leer datos de OneLake mediante SQL sin servidor en Azure Synapse Analytics.

Pasos siguientes