Azure Databricks etkinliği çalıştırarak verileri dönüştürme

Microsoft Fabric için Data Factory'deki Azure Databricks etkinliği, aşağıdaki Azure Databricks işlerini düzenlemenizi sağlar:

  • Not Defteri
  • Kavanoz
  • Python

Bu makalede, Data Factory arabirimini kullanarak Azure Databricks etkinliğinin nasıl oluşturulacağını açıklayan adım adım bir izlenecek yol sağlanır.

Önkoşullar

Başlamak için aşağıdaki önkoşulları tamamlamanız gerekir:

Azure Databricks etkinliğini yapılandırma

İşlem hattında Azure Databricks etkinliğini kullanmak için aşağıdaki adımları tamamlayın:

Bağlantıyı yapılandırma

  1. Çalışma alanınızda yeni bir işlem hattı oluşturun.

  2. İşlem hattı etkinliği ekle'ye tıklayın ve Azure Databricks'i arayın.

    Screenshot of the Fabric Data pipelines landing page and Azure Databricks activity highlighted.

  3. Alternatif olarak, işlem hattı Etkinlikleri bölmesinde Azure Databricks'i arayabilir ve bunu seçerek işlem hattı tuvaline ekleyebilirsiniz.

    Screenshot of the Fabric UI with the Activities pane and Azure Databricks activity highlighted.

  4. Henüz seçili değilse tuvaldeki yeni Azure Databricks etkinliğini seçin.

    Screenshot showing the General settings tab of the Azure Databricks activity.

Genel ayarlar sekmesini yapılandırmak için Genel ayarlar kılavuzuna bakın.

Kümeleri yapılandırma

  1. Küme sekmesini seçin. Ardından var olan bir azure databricks bağlantısını seçebilir veya yeni bir azure databricks bağlantısı oluşturabilir ve ardından yeni bir iş kümesi, var olan bir etkileşimli küme veya mevcut bir örnek havuzu seçebilirsiniz.

  2. Küme için ne seçtiğinize bağlı olarak, ilgili alanları gösterildiği gibi doldurun.

    • Yeni iş kümesi ve mevcut örnek havuzu altında, çalışan sayısını yapılandırma ve spot örnekleri etkinleştirme olanağına da sahip olursunuz.
  3. Ayrıca, bağlandığınız küme için gerekli olan Küme ilkesi, Spark yapılandırması, Spark ortam değişkenleri ve özel etiketler gibi ek küme ayarlarını belirtebilirsiniz. Databricks init betikleri ve Küme Günlüğü hedef yolu , ek küme ayarları altına da eklenebilir.

    Not

    Azure Data Factory Azure Databricks bağlı hizmetinde desteklenen tüm gelişmiş küme özellikleri ve dinamik ifadeler artık kullanıcı arabirimindeki 'Ek küme yapılandırması' bölümünde Microsoft Fabric'teki Azure Databricks etkinliğinde de desteklenmektedir. Bu özellikler artık etkinlik kullanıcı arabirimine eklendiğinden; Azure Data Factory Azure Databricks bağlı hizmetinde Gelişmiş JSON belirtimine gerek kalmadan bir ifade (dinamik içerik) ile kolayca kullanılabilir.

    Screenshot showing the Cluster settings tab of the Azure Databricks activity.

  4. Azure Databricks Etkinliği artık Küme İlkesi ve Unity Kataloğu desteğini de destekliyor.

    • Gelişmiş ayarlar'ın altında, hangi küme yapılandırmalarına izin verilebileceğini belirtebilmeniz için Küme İlkesi'ni seçme seçeneğiniz vardır.
    • Ayrıca gelişmiş ayarlar altında, unity kataloğu erişim modunu ek güvenlik için yapılandırma seçeneğiniz vardır.

    Screenshot showing the policy ID and Unity Catalog support under Cluster settings tab of the Azure Databricks activity.

Ayarları yapılandırma

Ayarlar sekmesini seçerek, düzenlemesini istediğiniz Azure Databricks türünde 3 seçenek arasından seçim yapabilirsiniz.

Screenshot showing the Settings tab of the Azure Databricks activity.

Azure Databricks etkinliğinde Not Defteri türünü düzenleme:

  1. Ayarlar sekmesinin altında Not Defteri radyo düğmesini seçerek Not Defteri'ni çalıştırabilirsiniz. Azure Databricks'te yürütülecek not defteri yolunu, not defterine geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.

    Screenshot showing the Notebooks type of the Azure Databricks activity.

Azure Databricks etkinliğinde Jar türünü düzenleme:

  1. Ayarlar sekmesinin altında Jar radyo düğmesini seçerek Jar komutunu çalıştırabilirsiniz. Azure Databricks'te yürütülecek sınıf adını, Jar'a geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.

    Screenshot showing the Jar type of the Azure Databricks activity.

Azure Databricks etkinliğinde Python türünü düzenleme:

  1. Ayarlar sekmesinin altında Python radyo düğmesini seçerek python dosyasını çalıştırabilirsiniz. Azure Databricks'in içindeki yürütülecek Python dosyasının yolunu, geçirilecek isteğe bağlı temel parametreleri ve işi yürütmek için kümeye yüklenecek ek kitaplıkları belirtmeniz gerekir.

    Screenshot showing the Python type of the Azure Databricks activity.

Azure Databricks etkinliği için desteklenen Kitaplıklar

Yukarıdaki Databricks etkinlik tanımında şu kitaplık türlerini belirtebilirsiniz: jar, egg, whl, maven, pypi, cran.

Daha fazla bilgi için kitaplık türleri için Databricks belgelerine bakın.

Azure Databricks etkinliği ile işlem hatları arasında parametre geçirme

Databricks etkinliğindeki baseParameters özelliğini kullanarak not defterlerine parametre geçirebilirsiniz.

Bazı durumlarda, hizmetteki denetim akışı (koşullu denetimler) için kullanılabilen veya aşağı akış etkinlikleri tarafından kullanılabilen (boyut sınırı 2 MB'tır) belirli değerleri not defterinden hizmete geri geçirmeniz gerekebilir.

  1. Örneğin, not defterinizde dbutils.notebook.exit("returnValue") çağrısı yapabilir ve hizmete karşılık gelen "returnValue" döndürülür.

  2. gibi @{activity('databricks activity name').output.runOutput}bir ifade kullanarak hizmetteki çıktıyı kullanabilirsiniz.

Screenshot showing how to pass base parameters in the Azure Databricks activity.

İşlem hattını kaydetme ve çalıştırma veya zamanlama

İşlem hattınız için gereken diğer etkinlikleri yapılandırdıktan sonra işlem hattı düzenleyicisinin üst kısmındaki Giriş sekmesine geçin ve işlem hattınızı kaydetmek için kaydet düğmesini seçin. Doğrudan çalıştırmak için Çalıştır'ı veya zamanlamak için Zamanla'yı seçin. Burada çalıştırma geçmişini görüntüleyebilir veya diğer ayarları yapılandırabilirsiniz.

Screenshot showing how to save and run the pipeline.

İşlem hattı çalıştırmalarını izleme