Aracılığıyla paylaş


Databricks Varlık Paketleri geliştirme iş akışı

Bu makalede Databricks Varlık Paketi geliştirme için iş görevleri dizisi açıklanmaktadır. Bkz . Databricks Varlık Paketleri nedir?

Paket oluşturmak, doğrulamak, dağıtmak ve çalıştırmak için aşağıdaki adımları tamamlayın.

1. Adım: Paket oluşturma

Paket oluşturmaya başlamanın üç yolu vardır:

  1. Varsayılan paket şablonunu kullanın.
  2. Özel paket şablonu kullanın.
  3. El ile paket oluşturun.

Varsayılan paket şablonunu kullanma

Azure Databricks varsayılan paket şablonunu kullanarak daha sonra özelleştirebileceğiniz bir başlangıç paketi oluşturmak için Databricks CLI sürüm 0.205 veya üzerini bundle init kullanarak komutu çalıştırın ve kullanılabilir şablonlar listesinden seçim yapabilirsiniz:

databricks bundle init

Varsayılan paket şablonlarının kaynağını databricks/cli ve databricks/mlops-stacks Github genel depolarında görüntüleyebilirsiniz.

2. Adım: Paket yapılandırma dosyalarını doldurma bölümüne geçin.

Özel paket şablonu kullanma

Azure Databricks varsayılan paket şablonu dışında bir paket şablonu kullanmak için yerel yolu veya uzak paket şablonu konumunun URL'sini bilmeniz gerekir. Komutu aşağıdaki gibi çalıştırmak için Databricks CLI sürüm 0.205 veya üzerini bundle init kullanın:

databricks bundle init <project-template-local-path-or-url>

Bu komut hakkında daha fazla bilgi için bkz . Databricks Varlık Paketi şablonları. Belirli bir paket şablonu hakkında bilgi için paket şablonu sağlayıcısının belgelerine bakın.

2. Adım: Paket yapılandırma dosyalarını doldurma bölümüne geçin.

El ile paket oluşturma

Paket şablonu kullanmak yerine el ile paket oluşturmak için yerel makinenizde bir proje dizini veya üçüncü taraf Git sağlayıcısına sahip boş bir depo oluşturun.

Dizininizde veya deponuzda giriş olarak bir veya daha fazla paket yapılandırma dosyası oluşturun. Bu dosyalar YAML biçiminde ifade edilir. adlı databricks.ymlen az bir (ve yalnızca bir) paket yapılandırma dosyası olmalıdır. Ek paket yapılandırma dosyalarına dosyanın eşlemesinde includedatabricks.yml başvurulmalıdır.

Databricks Varlık Paketi yapılandırma söz dizimine uyan YAML dosyalarını daha kolay ve hızlı bir şekilde oluşturmak için Visual Studio Code, PyCharm Professional veya IntelliJ IDEA Ultimate gibi YAML dosyaları ve JSON şema dosyaları için destek sağlayan bir aracı aşağıdaki gibi kullanabilirsiniz:

Visual Studio Code

  1. Örneğin Visual Studio Code Market'ten YAML uzantısını yükleyerek Visual Studio Code'a YAML dil sunucusu desteği ekleyin.

  2. Databricks CLI sürüm 0.205 veya üzerini kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yeniden yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  3. Geçerli dizinde bir paket yapılandırma dosyası oluşturmak veya açmak için Visual Studio Code'u kullanın. Bu dosya olarak adlandırılmalıdır databricks.yml.

  4. Paket yapılandırma dosyanızın başına aşağıdaki açıklamayı ekleyin:

    # yaml-language-server: $schema=bundle_config_schema.json
    

    Not

    Önceki açıklamadaki Databricks Varlık Paketi yapılandırma JSON şema dosyanız farklı bir yoldaysa değerini şema dosyanızın tam yoluyla değiştirin bundle_config_schema.json .

  5. Daha önce eklediğiniz YAML dil sunucusu özelliklerini kullanın. Daha fazla bilgi için YAML dil sunucunuzun belgelerine bakın.

Pycharm professional

  1. Databricks CLI sürüm 0.205 veya üzerini kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yeniden yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  2. PyCharm'ı paket yapılandırması JSON şema dosyasını tanıyacak şekilde yapılandırın ve ardından Özel JSON şeması yapılandırma başlığındaki yönergeleri izleyerek JSON şema eşlemesini tamamlayın.

  3. Paket yapılandırma dosyası oluşturmak veya açmak için PyCharm kullanın. Bu dosya olarak adlandırılmalıdır databricks.yml. Siz yazarken, PyCharm JSON şeması söz dizim ve biçimlendirmesini denetler ve kod tamamlama ipuçları sağlar.

Intellij idea ultimate

  1. Databricks CLI sürüm 0.205 veya üzerini kullanarak Databricks Varlık Paketi yapılandırma JSON şema dosyasını oluşturarak komutu çalıştırın bundle schema ve çıkışı bir JSON dosyasına yeniden yönlendirin. Örneğin, aşağıdaki gibi geçerli dizinde adlı bundle_config_schema.json bir dosya oluşturun:

    databricks bundle schema > bundle_config_schema.json
    
  2. IntelliJ IDEA'yı paket yapılandırması JSON şema dosyasını tanıyacak şekilde yapılandırın ve ardından Özel JSON şeması yapılandırma başlığındaki yönergeleri izleyerek JSON şema eşlemesini tamamlayın.

  3. Paket yapılandırma dosyası oluşturmak veya açmak için IntelliJ IDEA kullanın. Bu dosya olarak adlandırılmalıdır databricks.yml. Siz yazarken IntelliJ IDEA, JSON şeması söz dizim ve biçimlendirmesini denetler ve kod tamamlama ipuçları sağlar.

2. Adım: Paket yapılandırma dosyalarını doldurma

Paket yapılandırma dosyaları çalışma alanı ayrıntıları, yapıt adları, konum adları, iş ayrıntıları ve işlem hattı ayrıntıları gibi ayarları belirterek Azure Databricks iş akışlarınızı tanımlar. Paket yapılandırma dosyaları hakkında ayrıntılı bilgi için bkz . Databricks Varlık Paketi yapılandırmaları.

İpucu

Komutunu kullanarak bundle generate mevcut bir kaynak için paket yapılandırmasını otomatik olarak oluşturabilir ve ardından paket yapılandırmasını çalışma alanında kaynağa bağlamak için komutunu kullanabilirsiniz bundle deployment bind . Bkz . Paket yapılandırma dosyası oluşturma ve Paket kaynaklarını bağlama.

3. Adım: Paket yapılandırma dosyalarını doğrulama

Yapıtları dağıtmadan veya bir iş veya işlem hattı çalıştırmadan önce, paket yapılandırma dosyalarınızın söz dizimsel olarak doğru olduğundan emin olmanız gerekir. Bunu yapmak için, komutunu paket yapılandırma dosyasıyla aynı dizinden çalıştırın bundle validate . Bu dizin, paket kökü olarak da bilinir.

databricks bundle validate

Yapılandırma doğrulaması başarılı olursa, bu komut paketinizi temsil eden bir JSON yükü verir.

4. Adım: Paketi dağıtma

Paketi dağıtmadan önce uzak çalışma alanında çalışma alanı dosyalarının etkinleştirildiğinden emin olun. Bkz . Çalışma alanı dosyaları nedir?.

Belirtilen yerel yapıtları uzak çalışma alanına dağıtmak için paket kökünden komutunu çalıştırın bundle deploy . Hiçbir komut seçeneği belirtilmezse, Databricks CLI paket yapılandırma dosyalarında bildirilen varsayılan hedefi kullanır:

databricks bundle deploy

İpucu

Ortam değişkenini ayarlayarak BUNDLE_ROOT komutları paket kökü dışında çalıştırabilirsinizdatabricks bundle. Bu ortam değişkeni ayarlanmadıysa, databricks bundle komutlar geçerli çalışma dizininde arama yaparak paket kökünü bulmaya çalışır.

Yapıtları belirli bir hedef bağlamında dağıtmak için( veya --target) seçeneğini, paket yapılandırma dosyalarında bildirilen hedefin adıyla birlikte belirtin -t . Örneğin, adıyla devbildirilen bir hedef için:

databricks bundle deploy -t dev

5. Adım: Paketi çalıştırma

Belirli bir işi veya işlem hattını çalıştırmak için, paket yapılandırması dosyalarında bildirilen işi veya işlem hattı anahtarını belirterek paket kökünden komutunu çalıştırın bundle run . Kaynak anahtarı, kaynağın YAML bloğunun en üst düzey öğesidir. bir iş veya işlem hattı anahtarı belirtmezseniz, kullanılabilir kaynaklar listesinden çalıştırılacak kaynağı seçmeniz istenir. -t Seçenek belirtilmezse, paket yapılandırma dosyalarında bildirilen varsayılan hedef kullanılır. Örneğin, varsayılan hedef bağlamında anahtarla hello_job bir iş çalıştırmak için:

databricks bundle run hello_job

adlı devbir hedef bağlamında anahtarla hello_job bir iş çalıştırmak için:

databricks bundle run -t dev hello_job

6. Adım: Paketi yok etme

Daha önce dağıtılan işleri, işlem hatlarını ve yapıtları silmek istiyorsanız, paket kökünden komutunu çalıştırın bundle destroy . Bu komut, paket yapılandırma dosyalarında tanımlanan önceden dağıtılan tüm işleri, işlem hatlarını ve yapıtları siler:

databricks bundle destroy

Varsayılan olarak, önceden dağıtılan işlerin, işlem hatlarının ve yapıtların kalıcı olarak silinmesini onaylamanız istenir. Bu istemleri atlamak ve otomatik kalıcı silme gerçekleştirmek için komutuna bundle destroy seçeneğini ekleyin--auto-approve.