Adatok betöltése a Lakehouse-ba jegyzetfüzet használatával

Ebben az oktatóanyagban megtudhatja, hogyan olvashat és írhat adatokat a lakehouse-ba egy jegyzetfüzettel. A Spark API és a Pandas API támogatott a cél elérése érdekében.

Adatok betöltése Apache Spark API-val

A jegyzetfüzet kódcellájában az alábbi példakód használatával olvassa be az adatokat a forrásból, és töltse be őket a Fájlok, táblázatok vagy a tóház mindkét szakaszába.

Az olvasás helyének megadásához használhatja a relatív elérési utat, ha az adatok az aktuális jegyzetfüzet alapértelmezett lakehouse-jából származnak, vagy használhatja az abszolút ABFS-útvonalat, ha az adatok más lakehouse-ból származnak. ezt az elérési utat az adatok helyi menüjéből másolhatja

Screenshot showing menu option of copy action.

ABFS-elérési út másolása: ez a fájl abszolút elérési útját adja vissza

A Spark relatív elérési útjának másolása: ez a fájl relatív elérési útját adja vissza az alapértelmezett lakehouse-ban

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Adatok betöltése Pandas API-val

A Pandas API támogatásához a rendszer automatikusan csatlakoztatja az alapértelmezett Lakehouse-t a jegyzetfüzethez. A csatlakoztatási pont a következő: "/lakehouse/default/". Ezzel a csatlakoztatási ponttal adatokat olvashat/írhat az alapértelmezett lakehouse-ból vagy onnan az alapértelmezett tóházba. A helyi menü "Fájl API-elérési útjának másolása" lehetőség a Fájl API elérési útját adja vissza a csatlakoztatási pontról. Az ABFS-elérési út másolása lehetőségből visszaadott elérési út a Pandas API-hoz is működik.

Screenshot showing menu option of copy File API path.

Fájl API elérési útjának másolása:Ez az alapértelmezett lakehouse csatlakoztatási pontja alatti elérési utat adja vissza

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Tipp.

A Spark API-hoz használja az ABFS-elérési út másolása vagy a Spark relatív elérési útjának másolása lehetőséget a fájl elérési útjának lekéréséhez. Pandas API esetén használja az ABFS-elérési út másolása vagy a Fájl másolása API-elérési út beállítását a fájl elérési útjának lekéréséhez.

A Spark API-val vagy a Pandas API-val való együttműködés leggyorsabb módja az adatok betöltése és a használni kívánt API kiválasztása. A program automatikusan létrehozza a kódot a jegyzetfüzet új kódcellájában.

Screenshot showing where to select load data option.