OneLake'i Azure Databricks ile tümleştirme
Önemli
Microsoft Fabric önizleme aşamasındadır.
Bu senaryo, Azure Databricks aracılığıyla OneLake'e bağlanmayı gösterir. Bu öğreticiyi tamamladıktan sonra, Azure Databricks çalışma alanınızdan bir Microsoft Fabric Lakehouse'u okuyabilecek ve yazabileceksiniz.
Önkoşullar
Bağlanmadan önce şu adımları tamamlayın:
- Doku çalışma alanı ve göl evi.
- Premium bir Azure Databricks çalışma alanı. Yalnızca premium Azure Databricks çalışma alanları, bu senaryo için gereken Microsoft Azure Active Directory kimlik bilgisi geçişlerini destekler.
Databricks çalışma alanınızı ayarlama
Azure Databricks çalışma alanınızı açın veKümeOluştur'u> seçin.
OneLake'te Azure AD kimliğinizle kimlik doğrulaması yapmak için Gelişmiş Seçenekler'de kümenizde Azure Data Lake Storage kimlik bilgisi geçişini etkinleştirmeniz gerekir.
Not
Hizmet sorumlusu kullanarak Databricks'i OneLake'e de bağlayabilirsiniz. Hizmet sorumlusu kullanarak Azure Databricks'in kimliğini doğrulama hakkında daha fazla bilgi için bkz. Azure Databricks otomasyonu için hizmet sorumluları.
Kümeyi tercih ettiğiniz parametrelerle oluşturun. Databricks kümesi oluşturma hakkında daha fazla bilgi için bkz. Kümeleri yapılandırma - Azure Databricks.
Bir not defteri açın ve yeni oluşturduğunuz kümeye bağlayın.
Not defterinizi yazma
Fabric lakehouse'unuza gidin ve ABFS yolunu gölevinize kopyalayın. Özellikler bölmesinde bulabilirsiniz .
Not
Azure Databricks, Azure Data Lake Storage (ADLS) 2. Nesil ve OneLake: myWorkspace@onelake.dfs.fabric.microsoft.comabfss:///
Databricks not defterinize lakehouse yolunu kaydedin. Bu göl evi, işlenen verilerinizi daha sonra yazabileceğiniz yerdir:
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
Databricks genel veri kümesindeki verileri bir veri çerçevesine yükleyin. Ayrıca Doku'da başka bir yerden dosya okuyabilir veya zaten sahip olduğunuz başka bir ADLS 2. Nesil hesabından dosya seçebilirsiniz.
yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
Verilerinizi filtreleyin, dönüştürün veya hazırlayın. Bu senaryo için daha hızlı yükleme için veri kümenizi kırpabilir, diğer veri kümelerine katılabilir veya belirli sonuçlara göre filtreleyebilirsiniz.
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4) display(filteredTaxiDF)
Filtrelenmiş veri çerçevenizi OneLake yolunuzu kullanarak Fabric Lakehouse'unuza yazın.
filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
Yeni yüklenen dosyanızı okuyarak verilerinizin başarıyla yazıldığını test edin.
lakehouseRead = spark.read.format('csv').load(oneLakePath) display(lakehouseRead.limit(10))
Tebrikler! Artık Azure Databricks'i kullanarak Doku'da verileri okuyabilir ve yazabilirsiniz.