Bruke en notatblokk til å laste inn data i Lakehouse
I denne opplæringen kan du lære hvordan du leser/skriver data inn i lakehouse med en notatblokk. Spark API og Pandas API støttes for å nå dette målet.
Laste inn data med en Apache Spark-API
Bruk følgende kodeeksempel i kodecellen i notatblokken til å lese data fra kilden og laste dem inn i Filer, Tabeller eller begge delene av lakehouse.
Hvis du vil angi plasseringen du vil lese fra, kan du bruke den relative banen hvis dataene er fra standard lakehouse for gjeldende notatblokk, eller du kan bruke den absolutte ABFS-banen hvis dataene er fra et annet lakehouse. du kan kopiere denne banen fra hurtigmenyen for dataene
Kopier ABFS-bane : Dette returnerer den absolutte banen til filen
Kopier relativ bane for Spark : Dette returnerer den relative banen til filen i standard lakehouse
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Laste inn data med en Pandas-API
Hvis du vil støtte Pandas API, monteres standard Lakehouse automatisk i notatblokken. Monteringspunktet er /lakehouse/default/. Du kan bruke dette monteringspunktet til å lese/skrive data fra/til standard lakehouse. Alternativet Kopier fil-API-bane fra hurtigmenyen returnerer Fil-API-banen fra dette monteringspunktet. Banen som returneres fra alternativet Kopier ABFS-bane fungerer også for Pandas API.
Kopier fil-API-bane :Dette returnerer banen under monteringspunktet for standard lakehouse
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Tips
For Spark API kan du bruke alternativet Kopier ABFS-bane eller Kopier relativ bane for Spark for å få banen til filen. For Pandas API kan du bruke alternativet Kopier ABFS-bane eller Kopier fil-API-bane for å hente banen til filen.
Den raskeste måten å få koden til å fungere med Spark API eller Pandas API på, er å bruke alternativet Last inn data og velge API-en du vil bruke. Koden genereres automatisk i en ny kodecelle i notatblokken.
Relatert innhold
Tilbakemeldinger
https://aka.ms/ContentUserFeedback.
Kommer snart: Gjennom 2024 faser vi ut GitHub Issues som tilbakemeldingsmekanisme for innhold, og erstatter det med et nytt system for tilbakemeldinger. Hvis du vil ha mer informasjon, kan du se:Send inn og vis tilbakemelding for