Menggunakan notebook untuk memuat data ke Lakehouse Anda

Dalam tutorial ini, pelajari cara membaca/menulis data ke lakehouse Anda dengan notebook. Spark API dan Pandas API didukung untuk mencapai tujuan ini.

Memuat data dengan API Apache Spark

Di sel kode notebook, gunakan contoh kode berikut untuk membaca data dari sumber dan memuatnya ke dalam File, Tabel, atau kedua bagian lakehouse Anda.

Untuk menentukan lokasi yang akan dibaca, Anda dapat menggunakan jalur relatif jika data berasal dari lakehouse default notebook saat ini, atau Anda dapat menggunakan jalur ABFS absolut jika data berasal dari lakehouse lainnya. Anda dapat menyalin jalur ini dari menu konteks data

Screenshot showing menu option of copy action.

Salin jalur ABFS : ini mengembalikan jalur absolut file

Salin jalur relatif untuk Spark : ini mengembalikan jalur relatif file di lakehouse default

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Memuat data dengan API Pandas

Untuk mendukung PANDAS API, Lakehouse default akan dipasang secara otomatis ke notebook. Titik pemasangan adalah '/lakehouse/default/'. Anda dapat menggunakan titik pemasangan ini untuk membaca/menulis data dari/ke lakehouse default. Opsi "Salin Jalur API File" dari menu konteks akan mengembalikan jalur API File dari titik pemasangan tersebut. Jalur yang dikembalikan dari opsi Salin jalur ABFS juga berfungsi untuk PANDAS API.

Screenshot showing menu option of copy File API path.

Salin Jalur API File :Ini mengembalikan jalur di bawah titik pemasangan lakehouse default

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Tip

Untuk Spark API, gunakan opsi Salin jalur ABFS atau Salin jalur relatif untuk Spark untuk mendapatkan jalur file. Untuk API Pandas, silakan gunakan opsi jalur Salin ABFS atau salin jalur API File untuk mendapatkan jalur file.

Cara tercepat agar kode berfungsi dengan Spark API atau Pandas API adalah dengan menggunakan opsi Muat data dan pilih API yang ingin Anda gunakan. Kode akan dibuat secara otomatis di sel kode baru buku catatan.

Screenshot showing where to select load data option.