Lakehouse'unuza veri yüklemek için not defteri kullanma
Bu öğreticide, bir not defteriyle lakehouse'unuza veri okumayı/yazmayı öğrenin. Bu hedefe ulaşmak için Spark API ve Pandas API desteklenir.
Apache Spark API'siyle veri yükleme
Not defterinin kod hücresinde aşağıdaki kod örneğini kullanarak kaynaktaki verileri okuyun ve dosyalar, tablolar veya göl evinizdeki her iki bölüme yükleyin.
Okunacak konumu belirtmek için, veriler geçerli not defterinin varsayılan lakehouse'undan geliyorsa göreli yolu kullanabilir veya veriler başka bir göl evinden geliyorsa mutlak ABFS yolunu kullanabilirsiniz. bu yolu verilerin bağlam menüsünden kopyalayabilirsiniz
ABFS yolunu kopyala: Bu, dosyanın mutlak yolunu döndürür
Spark için göreli yolu kopyala: Bu, varsayılan göl evinde dosyanın göreli yolunu döndürür
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Pandas API'siyle veri yükleme
Pandas API'sini desteklemek için varsayılan Lakehouse otomatik olarak not defterine bağlanır. Bağlama noktası:'/lakehouse/default/'. Bu bağlama noktasını, varsayılan lakehouse'dan/bu göl evinden veri okumak/yazmak için kullanabilirsiniz. Bağlam menüsündeki "Dosya API Yolunu Kopyala" seçeneği, bu bağlama noktasından Dosya API'sinin yolunu döndürür. ABFS yolunu kopyala seçeneğinden döndürülen yol Pandas API'sinde de çalışır.
Dosya API'sinin Yolunu Kopyala :Bu, yolu varsayılan lakehouse'un bağlama noktası altında döndürür
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Bahşiş
Spark API'sinde, dosyanın yolunu almak için lütfen Spark için ABFS yolunu kopyala veya Göreli yolu kopyala seçeneğini kullanın. Pandas API'sinde , dosyanın yolunu almak için lütfen ABFS yolunu kopyala veya Dosya API'sini Kopyala yolunu kullanın.
Kodun Spark API veya Pandas API ile çalışmasını sağlamanın en hızlı yolu Verileri yükle seçeneğini kullanmak ve kullanmak istediğiniz API'yi seçmektir. Kod, not defterinin yeni bir kod hücresinde otomatik olarak oluşturulur.
İlgili içerik
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin