Usare un notebook per caricare i dati in Lakehouse

Questa esercitazione illustra come leggere/scrivere dati in lakehouse con un notebook. L'API Spark e l'API Pandas sono supportate per raggiungere questo obiettivo.

Caricare dati con un'API Apache Spark

Nella cella di codice del notebook usare l'esempio di codice seguente per leggere i dati dall'origine e caricarli in File, Tabelle o entrambe le sezioni del lakehouse.

Per specificare la posizione da cui leggere, è possibile usare il percorso relativo se i dati provengono dal lakehouse predefinito del notebook corrente oppure è possibile usare il percorso ABFS assoluto se i dati provengono da un altro lakehouse. è possibile copiare questo percorso dal menu di scelta rapida dei dati

Screenshot showing menu option of copy action.

Copiare il percorso ABFS: restituisce il percorso assoluto del file

Copiare il percorso relativo per Spark : restituisce il percorso relativo del file nella lakehouse predefinita

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Caricare dati con un'API Pandas

Per supportare l'API Pandas, il lakehouse predefinito verrà montato automaticamente nel notebook. Il punto di montaggio è '/lakehouse/default/'. È possibile usare questo punto di montaggio per leggere/scrivere dati da/verso il lakehouse predefinito. L'opzione "Copia percorso API file" dal menu di scelta rapida restituirà il percorso dell'API File da tale punto di montaggio. Il percorso restituito dall'opzione Copia percorso ABFS funziona anche per l'API Pandas.

Screenshot showing menu option of copy File API path.

Copy File API Path (Copia percorso API file): restituisce il percorso nel punto di montaggio della lakehouse predefinita

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Suggerimento

Per l'API Spark, usare l'opzione Copia percorso ABFS o Copia percorso relativo per Spark per ottenere il percorso del file. Per l'API Pandas, usare l'opzione Copia percorso ABFS o Percorso DELL'API Copia file per ottenere il percorso del file.

Il modo più rapido per usare il codice con l'API Spark o l'API Pandas consiste nell'usare l'opzione Carica dati e selezionare l'API da usare. Il codice verrà generato automaticamente in una nuova cella di codice del notebook.

Screenshot showing where to select load data option.