Adatok betöltése a lakehouse-ba jegyzetfüzet használatával

Cikk
05/25/2024

Ebben az oktatóanyagban megtudhatja, hogyan olvashat és írhat adatokat a Fabric lakehouse-ba egy jegyzetfüzettel. A Fabric támogatja a Spark API-t, és a Pandas API célja ennek elérése.

Adatok betöltése Apache Spark API-val

A jegyzetfüzet kódcellájában az alábbi példakód használatával olvassa be az adatokat a forrásból, és töltse be őket a Fájlok, táblázatok vagy a tóház mindkét szakaszába.

Az olvasás helyének megadásához használhatja a relatív elérési utat, ha az adatok az aktuális jegyzetfüzet alapértelmezett lakehouse-jából származnak. Vagy ha az adatok egy másik lakehouse-ból származnak, használhatja az abszolút Azure Blob Fájlrendszer (ABFS) elérési utat. Másolja ezt az elérési utat az adatok helyi menüjéből.

ABFS-elérési út másolása: Ez a beállítás a fájl abszolút elérési útját adja vissza.

A Spark relatív elérési útjának másolása: Ez a beállítás a fájl relatív elérési útját adja vissza az alapértelmezett lakehouse-ban.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Adatok betöltése a Pandas API-val

A Pandas API támogatásához a rendszer automatikusan csatlakoztatja az alapértelmezett lakehouse-t a jegyzetfüzethez. A csatlakoztatási pont a következő: "/lakehouse/default/". Ezzel a csatlakoztatási ponttal adatokat olvashat/írhat az alapértelmezett lakehouse-ból vagy onnan az alapértelmezett tóházba. A helyi menü "Fájl API-elérési útjának másolása" lehetőség a Fájl API elérési útját adja vissza a csatlakoztatási pontról. Az ABFS-elérési út másolása lehetőségből visszaadott elérési út a Pandas API-hoz is működik.

Fájl API elérési útjának másolása: Ez a beállítás az alapértelmezett lakehouse csatlakoztatási pontja alatti elérési utat adja vissza.

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Tipp.

A Spark API-hoz használja az ABFS-elérési út másolása vagy a Spark relatív elérési útjának másolása lehetőséget a fájl elérési útjának lekéréséhez. Pandas API esetén használja az ABFS-elérési út másolása vagy a Fájl másolása API-elérési út beállítását a fájl elérési útjának lekéréséhez.

A Spark API-val vagy a Pandas API-val való együttműködés leggyorsabb módja az adatok betöltése és a használni kívánt API kiválasztása. A kód automatikusan létrejön a jegyzetfüzet új kódcellájában.

A lakehouse adatainak felfedezése jegyzetfüzettel

Megosztás a következőn keresztül:

Adatok betöltése a lakehouse-ba jegyzetfüzet használatával

Adatok betöltése Apache Spark API-val

Adatok betöltése a Pandas API-val

Visszajelzés

További források

Megosztás a következőn keresztül:

Adatok betöltése a lakehouse-ba jegyzetfüzet használatával

Adatok betöltése Apache Spark API-val

Adatok betöltése a Pandas API-val

Kapcsolódó tartalom

Visszajelzés

További források