Condividi tramite


Usare un notebook per caricare dati nel lakehouse

Questa esercitazione illustra come leggere/scrivere dati in un lakehouse Fabric con un notebook. A tale scopo, Fabric supporta l'API Spark e l'API Pandas.

Caricare dati con un'API Apache Spark

Nella cella di codice del notebook, usare l'esempio di codice seguente per leggere i dati dall'origine e caricarli in File, Tabelle o entrambe le sezioni del lakehouse.

Per specificare il percorso da cui leggere, è possibile usare il percorso relativo se i dati provengono dal lakehouse predefinito del notebook corrente. In alternativa, se i dati provengono da un altro lakehouse, è possibile usare il percorso ABFS (Azure Blob File System) assoluto. Copiare questo percorso dal menu contestuale dei dati.

Screenshot che mostra l’opzione del menu dell’azione di copia.

Copia percorso ABFS: questa opzione restituisce il percorso assoluto del file.

Copia percorso relativo per Spark: questa opzione restituisce il percorso relativo del file nel lakehouse predefinito.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Caricare dati con l'API Pandas

Per supportare l'API Pandas, il lakehouse predefinito viene montato automaticamente nel notebook. Il punto di montaggio è '/lakehouse/default/'. È possibile usare questo punto di montaggio per leggere/scrivere dati da/verso il lakehouse predefinito. L'opzione "Copia percorso API File" dal menu contestuale restituisce il percorso dell'API File da tale punto di montaggio. Il percorso restituito dall'opzione Copia percorso ABFSfunziona anche per l'API Pandas.

Screenshot che mostra l'opzione di menu Copia percorso API File.

Copia percorso API File: questa opzione restituisce il percorso sotto il punto di montaggio del lakehouse predefinito.

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Suggerimento

Per l'API Spark, usare l'opzione Copia percorso ABFS o Copia percorso relativo per Spark per ottenere il percorso del file. Per l'API Pandas, usare l'opzione Copia percorso ABFS o Copia percorso API File per ottenere il percorso del file.

Il modo più rapido per usare il codice con l'API Spark o l'API Pandas consiste nell'usare l’opzione Carica dati e selezionare l'API da usare. Il codice viene generato automaticamente in una nuova cella di codice del notebook.

Screenshot che mostra dove selezionare l'opzione Carica dati.