Aracılığıyla paylaş


Databricks Varlık Paketleri ile Delta Live Tables işlem hatları geliştirme

Yalnızca paket olarak da bilinen Databricks Varlık Paketleri, Delta Live Tables işlem hatları gibi Azure Databricks kaynaklarını program aracılığıyla doğrulamanıza, dağıtmanıza ve çalıştırmanıza olanak tanır. Azure Databricks işlerini program aracılığıyla yönetmek ve MLOps Yığınları ile çalışmak için paketleri de kullanabilirsiniz. Bkz . Databricks Varlık Paketleri nedir?.

Bu makalede, Delta Live Tables işlem hattını program aracılığıyla yöneten bir paket kullanmak için yerel geliştirme makinenizden tamamlayabileceğiniz bir dizi adım açıklanmaktadır.

Gereksinimler

  • Databricks CLI sürüm 0.218 veya üzeri. Yüklü Databricks CLI sürümünüzü denetlemek için komutunu databricks -vçalıştırın. Databricks CLI'yı yüklemek için bkz . Databricks CLI'yı yükleme veya güncelleştirme.
  • Uzak çalışma alanında çalışma alanı dosyaları etkinleştirilmelidir. Bkz . Çalışma alanı dosyaları nedir?.

(İsteğe bağlı) Yerel işlem hattı geliştirmeyi desteklemek için Python modülü yükleme

Databricks, IDE'nizde kod yazarken söz dizimi denetimi, otomatik tamamlama ve veri türü denetimi sağlayarak Delta Live Tables işlem hattı kodunu yerel geliştirmenize yardımcı olacak bir Python modülü sağlar.

Yerel geliştirme için Python modülü PyPi'de kullanılabilir. Modülü yüklemek için bkz . Delta Live Tabloları için Python saplaması.

Karar: Şablonu kullanarak veya el ile paket oluşturma

Paketi şablon kullanarak mı yoksa el ile mi oluşturmak istediğinize karar verin:

Şablon kullanarak paket oluşturma

Bu adımlarda, Python için Azure Databricks varsayılan paket şablonunu kullanarak paketi oluşturursunuz. Bu adımlar, özgün veri kümesindeki verileri filtreleyen Delta Live Tables işlem hattını tanımlayan bir not defterinden oluşan bir paket oluşturmanıza yardımcı olur. Ardından dağıtılan işlem hattını Azure Databricks çalışma alanınızda doğrular, dağıtır ve çalıştırırsınız.

1. Adım: Kimlik doğrulamayı ayarlama

Bu adımda, geliştirme makinenizdeki Databricks CLI ile Azure Databricks çalışma alanınız arasında kimlik doğrulamasını ayarlarsınız. Bu makalede, OAuth kullanıcıdan makineye (U2M) kimlik doğrulamasını ve kimlik doğrulaması için adlı DEFAULT ilgili Azure Databricks yapılandırma profilini kullanmak istediğiniz varsayılır.

Not

U2M kimlik doğrulaması, bu adımları gerçek zamanlı olarak denemek için uygundur. Tam otomatik iş akışları için Databricks bunun yerine OAuth makineden makineye (M2M) kimlik doğrulamasını kullanmanızı önerir. Kimlik doğrulaması'nda M2M kimlik doğrulaması kurulum yönergelerine bakın.

  1. Her hedef çalışma alanı için aşağıdaki komutu çalıştırarak yerel olarak OAuth belirteci yönetimini başlatmak için Databricks CLI'sini kullanın.

    Aşağıdaki komutta değerini çalışma alanı başına Azure Databricks URL'nizle değiştirin<workspace-url>, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --host <workspace-url>
    
  2. Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın Enter veya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip mevcut tüm profillerin üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.

    Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yi kullanarak komutunu databricks auth profilesçalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunu databricks auth env --profile <profile-name>çalıştırın.

  3. Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.

  4. Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Aynı --host değere sahip birden çok profiliniz varsa Databricks CLI'sının --host doğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve -p seçeneklerini birlikte belirtmeniz gerekebilir.

2. Adım: Paketi oluşturma

Paket, dağıtmak istediğiniz yapıtları ve çalıştırmak istediğiniz iş akışları için ayarları içerir.

  1. Yerel geliştirme makinenizde şablonun oluşturulan paketini içerecek bir dizine geçmek için terminalinizi veya komut isteminizi kullanın.

  2. Komutunu çalıştırmak için Dataricks CLI'yi bundle init kullanın:

    databricks bundle init
    
  3. içinTemplate to use, tuşuna basarak Entervarsayılan değerini default-python bırakın.

  4. için Unique name for this projectvarsayılan değerini my_projectbırakın veya farklı bir değer yazın ve tuşuna basın Enter. Bu, bu paket için kök dizinin adını belirler. Bu kök dizin, geçerli çalışma dizininiz içinde oluşturulur.

  5. için Include a stub (sample) notebooköğesini seçin no ve tuşuna basın Enter. Bu seçenekle ilişkilendirilmiş örnek not defterinin içinde Delta Live Tables kodu olmadığından Bu, Databricks CLI'ya bu noktada örnek not defteri eklememesi talimatını vermektedir.

  6. içinInclude a stub (sample) DLT pipeline, tuşuna basarak Entervarsayılan değerini yes bırakın. Bu, Databricks CLI'ya Içinde Delta Live Tables kodu bulunan bir örnek not defteri eklemesini sağlar.

  7. için Include a stub (sample) Python packageöğesini seçin no ve tuşuna basın Enter. Bu, Databricks CLI'ya paketinize örnek Python tekerlek paketi dosyaları veya ilgili derleme yönergeleri eklememesi talimatını vermektedir.

3. Adım: Paketi keşfetme

Şablonun oluşturduğu dosyaları görüntülemek için yeni oluşturduğunuz paketin kök dizinine geçin ve bu dizini tercih ettiğiniz IDE ile (örneğin Visual Studio Code) açın. Belirli bir ilgi alanı olan dosyalar şunlardır:

  • databricks.yml: Bu dosya paketin programlı adını belirtir, işlem hattı tanımına bir başvuru içerir ve hedef çalışma alanıyla ilgili ayarları belirtir.
  • resources/<project-name>_job.yml ve resources/<project-name>_pipeline.yml: Bu dosya işlem hattının ayarlarını belirtir.
  • src/dlt_pipeline.ipynb: Bu dosya çalıştırıldığında işlem hattını yürüten bir not defteridir.

İşlem hatlarını özelleştirmek için işlem hattı bildirimi içindeki eşlemeler, REST API başvurusunda POST /api/2.0/pipelines içinde tanımlanan ve YAML biçiminde ifade edilen işlem hattı oluşturma işleminin istek yüküne karşılık gelir.

4. Adım: Projenin paket yapılandırma dosyasını doğrulama

Bu adımda paket yapılandırmasının geçerli olup olmadığını denetlersiniz.

  1. Kök dizinden Databricks CLI'sini bundle validate kullanarak komutu aşağıdaki gibi çalıştırın:

    databricks bundle validate
    
  2. Paket yapılandırmasının özeti döndürülürse doğrulama başarılı olur. Herhangi bir hata döndürülürse, hataları düzeltin ve bu adımı yineleyin.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek için bu adımı yinelemelisiniz.

5. Adım: Yerel projeyi uzak çalışma alanına dağıtma

Bu adımda, yerel not defterini uzak Azure Databricks çalışma alanınıza dağıtacak ve çalışma alanınızda Delta Live Tables işlem hattını oluşturacaksınız.

  1. Komutu aşağıdaki gibi çalıştırmak bundle validate için Databricks CLI'yi kullanın:

    databricks bundle deploy -t dev
    
  2. Yerel not defterinin dağıtılıp dağıtılmadığını denetleyin: Azure Databricks çalışma alanınızın kenar çubuğunda Çalışma Alanı'na tıklayın.

  3. Users><your-username>> .bundle ><project-name>> dev > files > src klasörüne tıklayın. Not defteri bu klasörde olmalıdır.

  4. İşlem hattının oluşturulup oluşturulmadığını denetleyin: Azure Databricks çalışma alanınızın kenar çubuğunda Delta Live Tables'a tıklayın.

  5. Delta Live Tables sekmesinde [dev <your-username>] <project-name>_pipeline öğesine tıklayın.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek için 4-5 arası adımları yineleyip projeyi yeniden dağıtmanız gerekir.

6. Adım: Dağıtılan projeyi çalıştırma

Bu adımda, Delta Live Tables işlem hattını çalışma alanınızda çalıştırırsınız.

  1. Kök dizinden databricks CLI'sini bundle run kullanarak komutunu aşağıdaki gibi çalıştırın ve değerini 2. Adımdaki projenizin adıyla değiştirin <project-name> :

    databricks bundle run -t dev <project-name>_pipeline
    
  2. Terminalinizde görünen değerini Update URL kopyalayın ve bu değeri web tarayıcınıza yapıştırarak Azure Databricks çalışma alanınızı açın.

  3. Azure Databricks çalışma alanınızda işlem hattı başarıyla tamamlandıktan sonra ayrıntıları görmek için taxi_raw görünümüne ve filtered_taxis gerçekleştirilmiş görünüme tıklayın.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek, projeyi yeniden dağıtmak ve yeniden dağıtılan projeyi çalıştırmak için 4-6 arası adımları yinelemelisiniz.

7. Adım: Temizleme

Bu adımda, dağıtılan not defterini ve işlem hattını çalışma alanınızdan silersiniz.

  1. Kök dizinden Databricks CLI'sini bundle destroy kullanarak komutu aşağıdaki gibi çalıştırın:

    databricks bundle destroy -t dev
    
  2. İşlem hattı silme isteğini onaylayın: Kaynakları kalıcı olarak yok etmek isteyip istemediğiniz sorulduğunda yazın y ve tuşuna basın Enter.

  3. Not defteri silme isteğini onaylayın: Önceden dağıtılan klasörü ve tüm dosyalarını kalıcı olarak yok etmek isteyip istemediğiniz sorulduğunda yazın y ve tuşuna basın Enter.

  4. Paketi geliştirme makinenizden de silmek istiyorsanız, artık 2. Adım'dan yerel dizini silebilirsiniz.

Şablon kullanarak paket oluşturma adımlarının sonuna ulaştınız.

Paketi el ile oluşturma

Bu adımlarda paketi baştan oluşturursunuz. Bu adımlar, bu not defterini çalıştırmak için eklenmiş Delta Live Tables yönergelerine ve Delta Live Tables işlem hattının tanımına sahip bir not defterinden oluşan bir paket oluşturmanıza yardımcı olur. Ardından dağıtılan not defterini Azure Databricks çalışma alanınızdaki işlem hattından doğrular, dağıtır ve çalıştırırsınız.

1. Adım: Paketi oluşturma

Paket, dağıtmak istediğiniz yapıtları ve çalıştırmak istediğiniz iş akışları için ayarları içerir.

  1. Geliştirme makinenizde boş bir dizin oluşturun veya tanımlayın.
  2. Terminalinizde boş dizine geçin veya IDE'nizde boş dizini açın.

İpucu

Boş dizininiz, Git sağlayıcısı tarafından yönetilen kopyalanmış bir depoyla ilişkilendirilebilir. Bu sayede paketinizi dış sürüm denetimiyle yönetebilir ve projenizde diğer geliştiriciler ve BT uzmanlarıyla daha kolay işbirliği yapabilirsiniz. Ancak, bu gösterimi basitleştirmeye yardımcı olmak için burada kopyalanmış bir depo kullanılmaz.

Bu tanıtım için bir depoyu kopyalamayı seçerseniz Databricks deponun boş olmasını veya içinde ve .gitignoregibi README yalnızca temel dosyaları olmasını önerir. Aksi takdirde, depodaki önceden var olan dosyalar Gereksiz yere Azure Databricks çalışma alanınızla eşitlenebilir.

2. Adım: Projeye not defteri ekleme

Bu adımda, projenize bir not defteri eklersiniz. Bu not defteri aşağıdakileri yapar:

  • Databricks veri kümelerindeki ham JSON tıklama akışı verilerini Azure Databricks çalışma alanınızın DBFS kök klasörünün içindeki klasördeki ham Delta tablosuna pipelines okur.
  • Ham Delta tablosundaki kayıtları okur ve temizlenmiş ve hazırlanmış verilerle yeni bir Delta tablosu oluşturmak için Delta Live Tables sorgusunu ve beklentilerini kullanır.
  • Delta Live Tables sorgusuyla yeni Delta tablosundaki hazırlanan verilerin analizini gerçekleştirir.
  1. Dizinin kökünden adlı dlt-wikipedia-python.pybir dosya oluşturun.

  2. dlt-wikipedia-python.py dosyasına aşağıdaki kodu ekleyin:

    # Databricks notebook source
    import dlt
    from pyspark.sql.functions import *
    
    # COMMAND ----------
    json_path = "/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json"
    
    # COMMAND ----------
    @dlt.table(
      comment="The raw wikipedia clickstream dataset, ingested from /databricks-datasets."
    )
    def clickstream_raw():
      return (spark.read.format("json").load(json_path))
    
    # COMMAND ----------
    @dlt.table(
      comment="Wikipedia clickstream data cleaned and prepared for analysis."
    )
    @dlt.expect("valid_current_page_title", "current_page_title IS NOT NULL")
    @dlt.expect_or_fail("valid_count", "click_count > 0")
    def clickstream_prepared():
      return (
        dlt.read("clickstream_raw")
          .withColumn("click_count", expr("CAST(n AS INT)"))
          .withColumnRenamed("curr_title", "current_page_title")
          .withColumnRenamed("prev_title", "previous_page_title")
          .select("current_page_title", "click_count", "previous_page_title")
      )
    
    # COMMAND ----------
    @dlt.table(
      comment="A table containing the top pages linking to the Apache Spark page."
    )
    def top_spark_referrers():
      return (
        dlt.read("clickstream_prepared")
          .filter(expr("current_page_title == 'Apache_Spark'"))
          .withColumnRenamed("previous_page_title", "referrer")
          .sort(desc("click_count"))
          .select("referrer", "click_count")
          .limit(10)
      )
    

3. Adım: Projeye paket yapılandırma şeması dosyası ekleme

YAML dosyaları ve JSON şema dosyaları için destek sağlayan Visual Studio Code, PyCharm Professional veya IntelliJ IDEA Ultimate gibi bir IDE kullanıyorsanız, IDE'nizi yalnızca paket yapılandırma şeması dosyasını oluşturmakla kalmaz, projenizin paket yapılandırma dosyası söz dizimini ve biçimlendirmesini denetlemek ve kod tamamlama ipuçları sağlamak için kullanabilirsiniz. aşağıda gösterildiği gibi. 5. Adımda daha sonra oluşturacağınız paket yapılandırma dosyası YAML tabanlı olsa da, bu adımda paket yapılandırma şeması dosyasının JSON tabanlı olduğunu unutmayın.

Visual Studio Code

  1. Örneğin Visual Studio Code Market'ten YAML uzantısını yükleyerek Visual Studio Code'a YAML dil sunucusu desteği ekleyin.

  2. Databricks CLI kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  3. 5. Adımda, paket yapılandırma dosyanızı belirtilen JSON şema dosyasıyla ilişkilendiren paket yapılandırma dosyanızın başına aşağıdaki açıklamayı ekleyebileceğinizi unutmayın:

    # yaml-language-server: $schema=bundle_config_schema.json
    

    Not

    Önceki açıklamadaki Databricks Varlık Paketi yapılandırma JSON şema dosyanız farklı bir yoldaysa değerini şema dosyanızın tam yoluyla değiştirin bundle_config_schema.json .

Pycharm professsional

  1. Databricks CLI kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  2. PyCharm'ı paket yapılandırması JSON şema dosyasını tanıyacak şekilde yapılandırın ve ardından Özel JSON şeması yapılandırma başlığındaki yönergeleri izleyerek JSON şema eşlemesini tamamlayın.

  3. 5. Adım'ın devamında, paket yapılandırma dosyası oluşturmak veya açmak için PyCharm kullanacağınızı unutmayın. Kural gereği, bu dosya olarak adlandırılır databricks.yml.

Intellij idea ultimate

  1. Databricks CLI kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  2. IntelliJ IDEA'yı paket yapılandırması JSON şema dosyasını tanıyacak şekilde yapılandırın ve ardından Özel JSON şeması yapılandırma başlığındaki yönergeleri izleyerek JSON şema eşlemesini tamamlayın.

  3. 5. Adım'ın ilerleyen bölümlerinde paket yapılandırma dosyası oluşturmak veya açmak için IntelliJ IDEA kullanacaksınız. Kural gereği, bu dosya olarak adlandırılır databricks.yml.

4. Adım: Kimlik doğrulamayı ayarlama

Bu adımda, geliştirme makinenizdeki Databricks CLI ile Azure Databricks çalışma alanınız arasında kimlik doğrulamasını ayarlarsınız. Bu makalede, OAuth kullanıcıdan makineye (U2M) kimlik doğrulamasını ve kimlik doğrulaması için adlı DEFAULT ilgili Azure Databricks yapılandırma profilini kullanmak istediğiniz varsayılır.

Not

U2M kimlik doğrulaması, bu adımları gerçek zamanlı olarak denemek için uygundur. Tam otomatik iş akışları için Databricks bunun yerine OAuth makineden makineye (M2M) kimlik doğrulamasını kullanmanızı önerir. Kimlik doğrulaması'nda M2M kimlik doğrulaması kurulum yönergelerine bakın.

  1. Her hedef çalışma alanı için aşağıdaki komutu çalıştırarak yerel olarak OAuth belirteci yönetimini başlatmak için Databricks CLI'sini kullanın.

    Aşağıdaki komutta değerini çalışma alanı başına Azure Databricks URL'nizle değiştirin<workspace-url>, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --host <workspace-url>
    
  2. Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın Enter veya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip mevcut tüm profillerin üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.

    Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yi kullanarak komutunu databricks auth profilesçalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunu databricks auth env --profile <profile-name>çalıştırın.

  3. Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.

  4. Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Aynı --host değere sahip birden çok profiliniz varsa Databricks CLI'sının --host doğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve -p seçeneklerini birlikte belirtmeniz gerekebilir.

5. Adım: Projeye paket yapılandırma dosyası ekleme

Bu adımda, bu not defterini nasıl dağıtmak ve çalıştırmak istediğinizi tanımlarsınız. Bu tanıtımda, not defterini çalıştırmak için Delta Live Tables işlem hattı kullanmak istiyorsunuz. Bu hedefi projenizdeki bir paket yapılandırma dosyası içinde modelleyebilirsiniz.

  1. Paketi yapılandırma dosyasını oluşturmak için dizinin kökünden sık kullandığınız metin düzenleyiciyi veya IDE'nizi kullanın. Kural gereği, bu dosya olarak adlandırılır databricks.yml.
  2. Aşağıdaki kodu dosyaya databricks.yml ekleyin ve yerine <workspace-url> çalışma alanı başına URL'nizi ekleyin; örneğinhttps://adb-1234567890123456.7.azuredatabricks.net. Bu URL, dosyanızdaki .databrickscfg url ile eşleşmelidir:

İpucu

ile başlayan # yaml-language-serverilk satır, yalnızca IDE'niz destekliyorsa gereklidir. Ayrıntılar için bkz. Önceki 3. adım.

# yaml-language-server: $schema=bundle_config_schema.json
bundle:
  name: dlt-wikipedia

resources:
  pipelines:
    dlt-wikipedia-pipeline:
      name: dlt-wikipedia-pipeline
      development: true
      continuous: false
      channel: "CURRENT"
      photon: false
      libraries:
        - notebook:
            path: ./dlt-wikipedia-python.py
      edition: "ADVANCED"
      clusters:
        - label: "default"
          num_workers: 1

targets:
  development:
    workspace:
      host: <workspace-url>

İşlem hatlarını özelleştirmek için işlem hattı bildirimi içindeki eşlemeler, REST API başvurusunda POST /api/2.0/pipelines içinde tanımlanan ve YAML biçiminde ifade edilen işlem hattı oluşturma işleminin istek yüküne karşılık gelir.

6. Adım: Projenin paket yapılandırma dosyasını doğrulama

Bu adımda paket yapılandırmasının geçerli olup olmadığını denetlersiniz.

  1. Komutu çalıştırmak bundle validate için Databricks CLI'yi aşağıdaki gibi kullanın:

    databricks bundle validate
    
  2. Paket yapılandırmasının özeti döndürülürse doğrulama başarılı olur. Herhangi bir hata döndürülürse, hataları düzeltin ve bu adımı yineleyin.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek için bu adımı yinelemelisiniz.

7. Adım: Yerel projeyi uzak çalışma alanına dağıtma

Bu adımda, yerel not defterini uzak Azure Databricks çalışma alanınıza dağıtacak ve çalışma alanınızda Delta Live Tables işlem hattını oluşturacaksınız.

  1. Komutu aşağıdaki gibi çalıştırmak bundle validate için Databricks CLI'yi kullanın:

    databricks bundle deploy -t development
    
  2. Yerel not defterinin dağıtılıp dağıtılmadığını denetleyin: Azure Databricks çalışma alanınızın kenar çubuğunda Çalışma Alanı'na tıklayın.

  3. Users><your-username>> .bundle > dlt-wikipedia > geliştirme > dosyaları klasörüne tıklayın. Not defteri bu klasörde olmalıdır.

  4. Delta Live Tables işlem hattının oluşturulup oluşturulmadığını denetleyin: Azure Databricks çalışma alanınızın kenar çubuğunda İş Akışları'na tıklayın.

  5. Delta Live Tables sekmesinde dlt-wikipedia-pipeline öğesine tıklayın.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek için 6-7 arası adımları yineleyip projeyi yeniden dağıtmanız gerekir.

8. Adım: Dağıtılan projeyi çalıştırma

Bu adımda, çalışma alanınızda Azure Databricks işini çalıştırırsınız.

  1. Komutu çalıştırmak bundle run için Databricks CLI'yi aşağıdaki gibi kullanın:

    databricks bundle run -t development dlt-wikipedia-pipeline
    
  2. Terminalinizde görünen değerini Update URL kopyalayın ve bu değeri web tarayıcınıza yapıştırarak Azure Databricks çalışma alanınızı açın.

  3. Azure Databricks çalışma alanınızda Delta Live Tables işlem hattı başarıyla tamamlandıktan ve çeşitli gerçekleştirilmiş görünümlerde yeşil başlık çubukları gösterildikten sonra, daha fazla ayrıntı görmek için clickstream_raw, clickstream_prepared veya gerçekleştirilmiş görünümler top_spark_referrers tıklayın.

  4. Temizlemeye bir sonraki adıma başlamadan önce DBFS'de oluşturulan Delta tablolarının konumunu aşağıdaki gibi not edin. Bu Delta tablolarını daha sonra el ile temizlemek istiyorsanız bu bilgilere ihtiyacınız olacaktır:

    1. Delta Live Tables işlem hattı hala açık durumdayken, Ayarlar düğmesine (İzinler ve Zamanlama düğmelerinin yanında) tıklayın.
    2. Hedef alanında, Depolama konum alanının değerini not edin. Delta tablolarının DBFS'de oluşturulduğu yer burasıdır.

Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek, projeyi yeniden dağıtmak ve yeniden dağıtılan projeyi çalıştırmak için 6-8 arası adımları yinelemelisiniz.

9. Adım: Temizleme

Bu adımda, dağıtılan not defterini ve Delta Live Tables işlem hattını çalışma alanınızdan silersiniz.

  1. Komutu çalıştırmak bundle destroy için Databricks CLI'yi aşağıdaki gibi kullanın:

    databricks bundle destroy
    
  2. Delta Live Tables işlem hattı silme isteğini onaylayın: Kaynakları kalıcı olarak yok etmek isteyip istemediğiniz sorulduğunda yazın y ve tuşuna basın Enter.

  3. Not defteri silme isteğini onaylayın: Önceden dağıtılan klasörü ve tüm dosyalarını kalıcı olarak yok etmek isteyip istemediğiniz sorulduğunda yazın y ve tuşuna basın Enter.

komutu çalıştırıldığında bundle destroy yalnızca dağıtılan Delta Live Tables işlem hattı ve dağıtılan not defterini içeren klasör silinir. Bu komut, not defterinin DBFS'de oluşturduğu Delta tabloları gibi herhangi bir yan efekti silmez. Bu Delta tablolarını silmeniz gerekiyorsa, bunu el ile yapmanız gerekir.

Pakete mevcut işlem hattı tanımını ekleme

Paket yapılandırma dosyasında yeni bir işlem hattı tanımlamak için mevcut Delta Live Tables işlem hattı tanımını temel olarak kullanabilirsiniz. Bunu yapmak için aşağıdaki adımları tamamlayın.

Not

Aşağıdaki adımlar, mevcut işlem hattıyla aynı ayarlara sahip yeni bir işlem hattı oluşturur. Ancak, yeni işlem hattının mevcut işlem hattından farklı bir işlem hattı kimliği vardır. Mevcut işlem hattı kimliğini otomatik olarak bir pakete aktaramazsınız.

1. Adım: Mevcut işlem hattı tanımını JSON biçiminde alma

Bu adımda, mevcut işlem hattı tanımının JSON gösterimini almak için Azure Databricks çalışma alanı kullanıcı arabirimini kullanırsınız.

  1. Azure Databricks çalışma alanınızın kenar çubuğunda İş Akışları'ne tıklayın.
  2. Delta Live Tables sekmesinde işlem hattınızın Ad bağlantısına tıklayın.
  3. İzinler ve Zamanlama düğmeleri arasında Ayarlar düğmesine tıklayın.
  4. JSON düğmesine tıklayın.
  5. İşlem hattı tanımının JSON değerini kopyalayın.

2. Adım: İşlem hattı tanımını JSON'dan YAML biçimine dönüştürme

Önceki adımdan kopyaladığınız işlem hattı tanımı JSON biçimindedir. Paket yapılandırmaları YAML biçimindedir. İşlem hattı tanımını JSON'dan YAML biçimine dönüştürmeniz gerekir. Databricks, JSON'ı YAML'ye dönüştürmek için aşağıdaki kaynakları önerir:

3. Adım: İşlem hattı tanımı YAML'sini bir paket yapılandırma dosyasına ekleme

Paket yapılandırma dosyanızda, önceki adımdan kopyaladığınız YAML'yi paket yapılandırma dosyalarınızda etiketlenmiş <pipeline-yaml-can-go-here> aşağıdaki konumlardan birine aşağıdaki gibi ekleyin:

resources:
  pipelines:
    <some-unique-programmatic-identifier-for-this-pipeline>:
      <pipeline-yaml-can-go-here>

targets:
  <some-unique-programmatic-identifier-for-this-target>:
    resources:
      pipelines:
        <some-unique-programmatic-identifier-for-this-pipeline>:
          <pipeline-yaml-can-go-here>

4. Adım: Pakete not defterleri, Python dosyaları ve diğer yapıtları ekleme

Mevcut işlem hattında başvuruda bulunılan tüm Python dosyaları ve not defterleri paketin kaynaklarına taşınmalıdır.

Paketlerle daha iyi uyumluluk için not defterleri IPython not defteri biçimini (.ipynb ) kullanmalıdır. Paketi yerel olarak geliştirirseniz, Azure Databricks not defteri kullanıcı arabiriminden Dosya > Dışarı Aktarma > IPython Not Defteri'ne tıklayarak mevcut bir not defterini Azure Databricks çalışma alanından .ipynb biçime aktarabilirsiniz. Kural gereği, indirilen not defterini paketinizdeki dizine src/ yerleştirmeniz gerekir.

Not defterlerinizi, Python dosyalarınızı ve diğer yapıtlarınızı pakete ekledikten sonra işlem hattı tanımınızın bunlara başvurduğunu doğrulayın. Örneğin, dosya adı hello.ipynb bir dizinde olan ve src/ dizini dizine başvuran src/ paket yapılandırma dosyasıyla aynı klasörde bulunan bir src/ not defteri için işlem hattı tanımı aşağıdaki gibi ifade edilebilir:

resources:
  pipelines:
    hello-pipeline:
      name: hello-pipeline
      libraries:
      -
        notebook:
          path: ./src/hello.ipynb

5. Adım: Yeni işlem hattını doğrulama, dağıtma ve çalıştırma

  1. Aşağıdaki komutu çalıştırarak paketin yapılandırma dosyalarının söz dizimsel olarak doğru olduğunu doğrulayın:

    databricks bundle validate
    
  2. Aşağıdaki komutu çalıştırarak paketi dağıtın. Bu komutta değerini paket yapılandırmasından hedef için benzersiz programlı tanımlayıcıyla değiştirin <target-identifier> :

    databricks bundle deploy -t <target-identifier>
    
  3. Aşağıdaki komutu çalıştırarak işlem hattını çalıştırın. Bu komutta aşağıdakileri değiştirin:

    • değerini paket yapılandırmasından hedef için benzersiz programlı tanımlayıcıyla değiştirin <target-identifier> .
    • değerini, paket yapılandırmasından işlem hattı için benzersiz programlı tanımlayıcıyla değiştirin <pipeline-identifier> .
    databricks bundle run -t <target-identifier> <pipeline-identifier>