Integrare OneLake con Azure Synapse Analytics

Azure Synapse è un servizio di analisi senza limiti che riunisce funzionalità aziendali di data warehousing e analisi di Big Data. Questa esercitazione illustra come connettersi a OneLake usando Azure Synapse Analytics.

Importante

Microsoft Fabric è attualmente disponibile in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto in versione preliminare che può essere modificato in modo sostanziale prima del rilascio. Microsoft non fornisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

Scrivere dati da Synapse con Apache Spark

Seguire questa procedura per usare Apache Spark per scrivere dati di esempio in OneLake da Azure Synapse Analytics.

  1. Aprire l'area di lavoro di Synapse e creare un pool di Apache Spark con i parametri preferiti.

    Screenshot che mostra dove selezionare Nuovo nella schermata del pool di Apache Spark.

  2. Creare un nuovo notebook apache Spark.

  3. Aprire il notebook, impostare il linguaggio su PySpark (Python) e connetterlo al pool di Spark appena creato.

  4. In una scheda separata passare alla lakehouse di Microsoft Fabric e trovare la cartella Tabelle di primo livello.

  5. Fare clic con il pulsante destro del mouse sulla cartella Tabelle e scegliere Proprietà.

    Screenshot che mostra dove aprire il riquadro Proprietà lakehouse Explorer.

  6. Copiare il percorso ABFS dal riquadro delle proprietà.

    Screenshot che mostra dove copiare il percorso ABFS.

  7. Tornare al notebook Azure Synapse, nella prima nuova cella di codice, specificare il percorso lakehouse. Qui verranno scritti i dati in un secondo momento. Eseguire la cella.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. In una nuova cella di codice caricare i dati da un set di dati aperto di Azure in un dataframe. Si tratta del set di dati che verrà caricato nella casa del lago. Eseguire la cella.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. In una nuova cella di codice, filtrare, trasformare o preparare i dati. Per questo scenario, è possibile ridurre il set di dati per un caricamento più rapido, creare un join con altri set di dati o filtrare in base a risultati specifici. Eseguire la cella.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. In una nuova cella di codice, usando il percorso di OneLake, scrivere il dataframe filtrato in una nuova tabella Delta-Parquet nella lakehouse di Fabric. Eseguire la cella.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Infine, in una nuova cella di codice, verificare che i dati siano stati scritti correttamente leggendo il file appena caricato da OneLake. Eseguire la cella.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Congratulazioni! È ora possibile leggere e scrivere dati in OneLake usando Apache Spark in Azure Synapse Analytics.

Scrivere dati da Synapse usando SQL

Seguire questa procedura per usare SQL serverless per leggere i dati da OneLake da Azure Synapse Analytics.

  1. Aprire un lakehouse fabric e identificare una tabella su cui si vuole eseguire una query da Synapse.

  2. Fare clic con il pulsante destro del mouse sulla tabella e scegliere Proprietà.

  3. Copiare il percorso ABFS per la tabella.

    Screenshot che mostra dove copiare il percorso ABFS.

  4. Aprire l'area di lavoro di Synapse in Synapse Studio.

  5. Creare un nuovo script SQL.

  6. Nell'editor di query SQL immettere la query seguente, sostituendo ABFS_PATH_HERE con il percorso copiato in precedenza.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Eseguire la query per visualizzare le prime 10 righe della tabella.

Congratulazioni! È ora possibile leggere i dati da OneLake usando SQL serverless in Azure Synapse Analytics.

Passaggi successivi