Integrer OneLake med Azure Synapse Analytics

Azure Synapse er en grænseløs analysetjeneste, der samler virksomhedsdatawarehousing og Big Data-analyser. I dette selvstudium kan du se, hvordan du opretter forbindelse til OneLake ved hjælp af Azure Synapse Analytics.

Vigtigt

Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.

Skriv data fra Synapse ved hjælp af Apache Spark

Følg disse trin for at bruge Apache Spark til at skrive eksempeldata til OneLake fra Azure Synapse Analytics.

  1. Åbn dit Synapse-arbejdsområde, og opret en Apache Spark-pulje med dine foretrukne parametre.

    Skærmbillede, der viser, hvor du skal vælge Ny på skærmen Med Apache Spark-puljen.

  2. Opret en ny Apache Spark-notesbog.

  3. Åbn notesbogen, angiv sproget til PySpark (Python), og opret forbindelse til din nyoprettede Spark-pool.

  4. Gå til dit Microsoft Fabric Lakehouse under en separat fane, og find mappen Tabeller på øverste niveau.

  5. Højreklik på mappen Tabeller, og klik på Egenskaber.

    Skærmbillede, der viser, hvor du kan åbne ruden Egenskaber lakehouse explorer.

  6. Kopiér ABFS-stien fra ruden med egenskaber.

    Skærmbillede, der viser, hvor ABFS-stien skal kopieres.

  7. Tilbage i den Azure Synapse notesbog i den første nye kodecelle skal du angive lakehouse-stien. Det er her, dine data skrives senere. Kør cellen.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Indlæs data fra et åbent Azure-datasæt i en dataramme i en ny kodecelle. Dette er det datasæt, du indlæser i dit lakehouse. Kør cellen.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. I en ny kodecelle skal du filtrere, transformere eller forberede dine data. I dette scenarie kan du trimme dit datasæt til hurtigere indlæsning, joinforbinde med andre datasæt eller filtrere ned til bestemte resultater. Kør cellen.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. I en ny kodecelle skal du ved hjælp af din OneLake-sti skrive din filtrerede dataramme til en ny Delta-Parquet tabel i fabric lakehouse. Kør cellen.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Til sidst skal du i en ny kodecelle teste, at dine data blev skrevet ved at læse din nyligt indlæste fil fra OneLake. Kør cellen.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Tillykke! Du kan nu læse og skrive data i OneLake ved hjælp af Apache Spark i Azure Synapse Analytics.

Skriv data fra Synapse ved hjælp af SQL

Følg disse trin for at bruge SQL Serverless til at læse data fra OneLake fra Azure Synapse Analytics.

  1. Åbn et Fabric Lakehouse, og identificer en tabel, som du vil forespørge fra Synapse.

  2. Højreklik på tabellen, og klik på Egenskaber.

  3. Kopiér ABFS-stien til tabellen.

    Skærmbillede, der viser, hvor ABFS-stien skal kopieres.

  4. Åbn dit Synapse-arbejdsområde i Synapse Studio.

  5. Opret et nyt SQL-script.

  6. I SQL-forespørgselseditoren skal du angive følgende forespørgsel og erstatte ABFS_PATH_HERE den sti, du kopierede tidligere.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Kør forespørgslen for at få vist de 10 øverste rækker i tabellen.

Tillykke! Du kan nu læse data fra OneLake ved hjælp af SQL Serverless i Azure Synapse Analytics.

Næste trin