Usare un notebook per caricare i dati in Lakehouse
Questa esercitazione illustra come leggere/scrivere dati in lakehouse con un notebook. L'API Spark e l'API Pandas sono supportate per raggiungere questo obiettivo.
Caricare dati con un'API Apache Spark
Nella cella di codice del notebook usare l'esempio di codice seguente per leggere i dati dall'origine e caricarli in File, Tabelle o entrambe le sezioni del lakehouse.
Per specificare la posizione da cui leggere, è possibile usare il percorso relativo se i dati provengono dal lakehouse predefinito del notebook corrente oppure è possibile usare il percorso ABFS assoluto se i dati provengono da un altro lakehouse. è possibile copiare questo percorso dal menu di scelta rapida dei dati
Copiare il percorso ABFS: restituisce il percorso assoluto del file
Copiare il percorso relativo per Spark : restituisce il percorso relativo del file nella lakehouse predefinita
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Caricare dati con un'API Pandas
Per supportare l'API Pandas, il lakehouse predefinito verrà montato automaticamente nel notebook. Il punto di montaggio è '/lakehouse/default/'. È possibile usare questo punto di montaggio per leggere/scrivere dati da/verso il lakehouse predefinito. L'opzione "Copia percorso API file" dal menu di scelta rapida restituirà il percorso dell'API File da tale punto di montaggio. Il percorso restituito dall'opzione Copia percorso ABFS funziona anche per l'API Pandas.
Copy File API Path (Copia percorso API file): restituisce il percorso nel punto di montaggio della lakehouse predefinita
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Suggerimento
Per l'API Spark, usare l'opzione Copia percorso ABFS o Copia percorso relativo per Spark per ottenere il percorso del file. Per l'API Pandas, usare l'opzione Copia percorso ABFS o Percorso DELL'API Copia file per ottenere il percorso del file.
Il modo più rapido per usare il codice con l'API Spark o l'API Pandas consiste nell'usare l'opzione Carica dati e selezionare l'API da usare. Il codice verrà generato automaticamente in una nuova cella di codice del notebook.
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: nel corso del 2024 verranno dismessi i problemi di GitHub come meccanismo di feedback per il contenuto e verranno sostituiti con un nuovo sistema di feedback. Per altre informazioni, vedere:Invia e visualizza il feedback per