Načtení dat do jezera pomocí poznámkového bloku
V tomto kurzu se dozvíte, jak číst a zapisovat data do fabric lakehouse pomocí poznámkového bloku. K dosažení tohoto cíle slouží prostředky infrastruktury, které podporují rozhraní Spark API a Pandas API.
Načtení dat pomocí rozhraní Apache Spark API
V buňce kódu poznámkového bloku pomocí následujícího příkladu kódu načtěte data ze zdroje a načtěte je do souborů, tabulek nebo obou částí jezera.
Pokud chcete určit umístění, ze které se má číst, můžete použít relativní cestu, pokud jsou data z výchozího jezera aktuálního poznámkového bloku. Nebo pokud jsou data z jiného jezera, můžete použít absolutní cestu k systému souborů Azure Blob File System (ABFS). Zkopírujte tuto cestu z místní nabídky dat.
Kopírovat cestu ABFS: Tato možnost vrátí absolutní cestu k souboru.
Kopírovat relativní cestu pro Spark: Tato možnost vrátí relativní cestu k souboru ve výchozím jezeře.
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Načtení dat pomocí rozhraní Pandas API
Pro podporu rozhraní Pandas API se k poznámkovému bloku automaticky připojí výchozí jezero. Přípojný bod je /lakehouse/default/. Tento přípojný bod můžete použít ke čtení a zápisu dat z/do výchozího jezera. Možnost Kopírovat cestu k rozhraní API souboru z místní nabídky vrátí cestu k rozhraní File API z tohoto přípojného bodu. Cesta vrácená z možnosti Kopírovat cestu ABFS funguje také pro rozhraní PANDAS API.
Kopírovat cestu k rozhraní FILE API: Tato možnost vrátí cestu pod přípojným bodem výchozího jezera.
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Tip
V případě rozhraní Spark API použijte možnost Kopírovat cestu ABFS nebo relativní cestu ke Sparku , abyste získali cestu k souboru. V případě rozhraní Pandas API použijte možnost Kopírovat cestu ABFS nebo cestu ke kopírování cesty k rozhraní FILE API a získejte cestu k souboru.
Nejrychlejší způsob, jak mít kód pro práci s rozhraním Spark API nebo rozhraním Pandas API, je použít možnost Načíst data a vybrat rozhraní API, které chcete použít. Kód se automaticky vygeneruje v nové buňce kódu poznámkového bloku.