Integrer OneLake med Azure Synapse Analytics

Azure Synapse er en ubegrenset analysetjeneste som samler virksomhetsdatalagring og analyse av store data. Denne opplæringen viser hvordan du kobler til OneLake ved hjelp av Azure Synapse Analytics.

Viktig

Microsoft Fabric er for øyeblikket i FORHÅNDSVERSJON. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.

Skrive data fra Synapse ved hjelp av Apache Spark

Følg disse trinnene for å bruke Apache Spark til å skrive eksempeldata til OneLake fra Azure Synapse Analytics.

  1. Åpne Synapse-arbeidsområdet, og opprett et Apache Spark-utvalg med dine foretrukne parametere.

    Skjermbilde som viser hvor du velger Ny i Apache Spark-utvalgsskjermen.

  2. Opprett en ny Apache Spark-notatblokk.

  3. Åpne notatblokken, angi språket til PySpark (Python) og koble det til det nyopprettede Spark-utvalget.

  4. Naviger til Microsoft Fabric Lakehouse i en egen fane, og finn tabellmappen på øverste nivå.

  5. Høyreklikk tabellmappen , og klikk Egenskaper.

    Skjermbilde som viser hvor du åpner Egenskaper-ruten i Lakehouse Explorer.

  6. Kopier ABFS-banen fra egenskapsruten.

    Skjermbilde som viser hvor du kopierer ABFS-banen.

  7. Tilbake i Azure Synapse notatblokk, i den første nye kodecellen, gir du lakehouse banen. Det er her dataene blir skrevet senere. Kjør cellen.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Last inn data fra et Azure-åpent datasett i en dataramme i en ny kodecelle. Dette er datasettet du laster inn i lakehouse. Kjør cellen.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Filtrer, transformer eller klargjør dataene i en ny kodecelle. I dette scenarioet kan du trimme ned datasettet for raskere innlasting, sammenføye med andre datasett eller filtrere ned til bestemte resultater. Kjør cellen.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. I en ny kodecelle, ved hjelp av OneLake-banen, skriver du den filtrerte datarammen til en ny Delta-Parquet tabell i Fabric Lakehouse. Kjør cellen.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Til slutt, i en ny kodecelle, kan du teste at dataene ble skrevet ved å lese den nylig innlastede filen fra OneLake. Kjør cellen.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Gratulerer! Nå kan du lese og skrive data i OneLake ved hjelp av Apache Spark i Azure Synapse Analytics.

Skrive data fra Synapse ved hjelp av SQL

Følg disse trinnene for å bruke SQL serverless til å lese data fra OneLake fra Azure Synapse Analytics.

  1. Åpne et Fabric Lakehouse og identifiser en tabell som du vil spørre fra Synapse.

  2. Høyreklikk på tabellen, og klikk Egenskaper.

  3. Kopier ABFS-banen for tabellen.

    Skjermbilde som viser hvor du kopierer ABFS-banen.

  4. Åpne Synapse-arbeidsområdet i Synapse Studio.

  5. Opprett et nytt SQL-skript.

  6. Skriv inn følgende spørring i redigeringsprogrammet for SQL-spørring, og erstatt ABFS_PATH_HERE med banen du kopierte tidligere.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Kjør spørringen for å vise de ti øverste radene i tabellen.

Gratulerer! Nå kan du lese data fra OneLake ved hjelp av SQL serverløs i Azure Synapse Analytics.

Neste trinn