Usare un notebook per caricare dati nel lakehouse

Articolo
10/15/2024

Questa esercitazione illustra come leggere/scrivere dati in un lakehouse Fabric con un notebook. A tale scopo, Fabric supporta l'API Spark e l'API Pandas.

Caricare dati con un'API Apache Spark

Nella cella di codice del notebook, usare l'esempio di codice seguente per leggere i dati dall'origine e caricarli in File, Tabelle o entrambe le sezioni del lakehouse.

Per specificare il percorso da cui leggere, è possibile usare il percorso relativo se i dati provengono dal lakehouse predefinito del notebook corrente. In alternativa, se i dati provengono da un altro lakehouse, è possibile usare il percorso ABFS (Azure Blob File System) assoluto. Copiare questo percorso dal menu contestuale dei dati.

Copia percorso ABFS: questa opzione restituisce il percorso assoluto del file.

Copia percorso relativo per Spark: questa opzione restituisce il percorso relativo del file nel lakehouse predefinito.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Caricare dati con l'API Pandas

Per supportare l'API Pandas, il lakehouse predefinito viene montato automaticamente nel notebook. Il punto di montaggio è '/lakehouse/default/'. È possibile usare questo punto di montaggio per leggere/scrivere dati da/verso il lakehouse predefinito. L'opzione "Copia percorso API File" dal menu contestuale restituisce il percorso dell'API File da tale punto di montaggio. Il percorso restituito dall'opzione Copia percorso ABFSfunziona anche per l'API Pandas.

Copia percorso API File: questa opzione restituisce il percorso sotto il punto di montaggio del lakehouse predefinito.

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Suggerimento

Per l'API Spark, usare l'opzione Copia percorso ABFS o Copia percorso relativo per Spark per ottenere il percorso del file. Per l'API Pandas, usare l'opzione Copia percorso ABFS o Copia percorso API File per ottenere il percorso del file.

Il modo più rapido per usare il codice con l'API Spark o l'API Pandas consiste nell'usare l’opzione Carica dati e selezionare l'API da usare. Il codice viene generato automaticamente in una nuova cella di codice del notebook.

Esplorare i dati nel lakehouse con un notebook

Condividi tramite

Usare un notebook per caricare dati nel lakehouse

Caricare dati con un'API Apache Spark

Caricare dati con l'API Pandas

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Usare un notebook per caricare dati nel lakehouse

Caricare dati con un'API Apache Spark

Caricare dati con l'API Pandas

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive