Lakehouse'unuza veri yüklemek için not defteri kullanma

Bu öğreticide, bir not defteriyle lakehouse'unuza veri okumayı/yazmayı öğrenin. Bu hedefe ulaşmak için Spark API ve Pandas API desteklenir.

Apache Spark API'siyle veri yükleme

Not defterinin kod hücresinde aşağıdaki kod örneğini kullanarak kaynaktaki verileri okuyun ve dosyalar, tablolar veya göl evinizdeki her iki bölüme yükleyin.

Okunacak konumu belirtmek için, veriler geçerli not defterinin varsayılan lakehouse'undan geliyorsa göreli yolu kullanabilir veya veriler başka bir göl evinden geliyorsa mutlak ABFS yolunu kullanabilirsiniz. bu yolu verilerin bağlam menüsünden kopyalayabilirsiniz

Screenshot showing menu option of copy action.

ABFS yolunu kopyala: Bu, dosyanın mutlak yolunu döndürür

Spark için göreli yolu kopyala: Bu, varsayılan göl evinde dosyanın göreli yolunu döndürür

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Pandas API'siyle veri yükleme

Pandas API'sini desteklemek için varsayılan Lakehouse otomatik olarak not defterine bağlanır. Bağlama noktası:'/lakehouse/default/'. Bu bağlama noktasını, varsayılan lakehouse'dan/bu göl evinden veri okumak/yazmak için kullanabilirsiniz. Bağlam menüsündeki "Dosya API Yolunu Kopyala" seçeneği, bu bağlama noktasından Dosya API'sinin yolunu döndürür. ABFS yolunu kopyala seçeneğinden döndürülen yol Pandas API'sinde de çalışır.

Screenshot showing menu option of copy File API path.

Dosya API'sinin Yolunu Kopyala :Bu, yolu varsayılan lakehouse'un bağlama noktası altında döndürür

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Bahşiş

Spark API'sinde, dosyanın yolunu almak için lütfen Spark için ABFS yolunu kopyala veya Göreli yolu kopyala seçeneğini kullanın. Pandas API'sinde , dosyanın yolunu almak için lütfen ABFS yolunu kopyala veya Dosya API'sini Kopyala yolunu kullanın.

Kodun Spark API veya Pandas API ile çalışmasını sağlamanın en hızlı yolu Verileri yükle seçeneğini kullanmak ve kullanmak istediğiniz API'yi seçmektir. Kod, not defterinin yeni bir kod hücresinde otomatik olarak oluşturulur.

Screenshot showing where to select load data option.