Sdílet prostřednictvím


Načtení dat do jezera pomocí poznámkového bloku

V tomto kurzu se dozvíte, jak číst a zapisovat data do fabric lakehouse pomocí poznámkového bloku. K dosažení tohoto cíle slouží prostředky infrastruktury, které podporují rozhraní Spark API a Pandas API.

Načtení dat pomocí rozhraní Apache Spark API

V buňce kódu poznámkového bloku pomocí následujícího příkladu kódu načtěte data ze zdroje a načtěte je do souborů, tabulek nebo obou částí jezera.

Pokud chcete určit umístění, ze které se má číst, můžete použít relativní cestu, pokud jsou data z výchozího jezera aktuálního poznámkového bloku. Nebo pokud jsou data z jiného jezera, můžete použít absolutní cestu k systému souborů Azure Blob File System (ABFS). Zkopírujte tuto cestu z místní nabídky dat.

Snímek obrazovky s možností nabídky akce kopírování

Kopírovat cestu ABFS: Tato možnost vrátí absolutní cestu k souboru.

Kopírovat relativní cestu pro Spark: Tato možnost vrátí relativní cestu k souboru ve výchozím jezeře.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Načtení dat pomocí rozhraní Pandas API

Pro podporu rozhraní Pandas API se k poznámkovému bloku automaticky připojí výchozí jezero. Přípojný bod je /lakehouse/default/. Tento přípojný bod můžete použít ke čtení a zápisu dat z/do výchozího jezera. Možnost Kopírovat cestu k rozhraní API souboru z místní nabídky vrátí cestu k rozhraní File API z tohoto přípojného bodu. Cesta vrácená z možnosti Kopírovat cestu ABFS funguje také pro rozhraní PANDAS API.

Snímek obrazovky s možností nabídky kopírovat cestu k rozhraní File API

Kopírovat cestu k rozhraní FILE API: Tato možnost vrátí cestu pod přípojným bodem výchozího jezera.

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Tip

V případě rozhraní Spark API použijte možnost Kopírovat cestu ABFS nebo relativní cestu ke Sparku , abyste získali cestu k souboru. V případě rozhraní Pandas API použijte možnost Kopírovat cestu ABFS nebo cestu ke kopírování cesty k rozhraní FILE API a získejte cestu k souboru.

Nejrychlejší způsob, jak mít kód pro práci s rozhraním Spark API nebo rozhraním Pandas API, je použít možnost Načíst data a vybrat rozhraní API, které chcete použít. Kód se automaticky vygeneruje v nové buňce kódu poznámkového bloku.

Snímek obrazovky znázorňující, kde vybrat možnost načtení dat