Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bildirim temelli Otomasyon Paketleri (eski adıyla Databricks Varlık Paketleri), Lakeflow Spark Bildirimli İşlem Hatları gibi Azure Databricks kaynaklarını program aracılığıyla doğrulamanıza, dağıtmanıza ve çalıştırmanıza olanak tanır. Bkz. Bildirim temelli Otomasyon Paketleri nelerdir?.
Bu sayfada, işlem hattını program aracılığıyla yönetmek için nasıl paket oluşturulacağı açıklanır. Bkz . Lakeflow Spark Bildirimli İşlem Hatları. Paket, bir ETL işlem hattı ve çalıştırılacak işi tanımlayan Databricks CLI pipelines init komutu kullanılarak oluşturulur. Ardından dağıtılan işlem hattını sunucusuz işlem üzerinde Azure Databricks çalışma alanınızda doğrular, dağıtır ve çalıştırırsınız.
İpucu
Paketlere taşımak istediğiniz Azure Databricks kullanıcı arabirimi veya API kullanılarak oluşturulmuş mevcut işlem hatlarınız varsa, bunları bir paketin yapılandırma dosyalarında tanımlamanız gerekir. Databricks, önce aşağıdaki adımları kullanarak bir paket oluşturmanızı, ardından pakete yapılandırma ve diğer kaynaklar eklemenizi önerir. Bkz . Kullanıcı arabirimini kullanarak mevcut işlem hattı tanımını alma.
Gereksinimler
- Databricks CLI sürüm 0.283.0 veya üzeri. Yüklü Databricks CLI sürümünüzü denetlemek için komutunu
databricks -vçalıştırın. Databricks CLI'yı yüklemek için bkz. Databricks CLI'yı yükleme veya güncelleştirme. - uv , testleri çalıştırmak ve bu projenin bağımlılıklarını bir IDE'den yüklemek için gereklidir.
- Uzak çalışma alanında çalışma alanı dosyaları etkinleştirilmelidir. Bkz. Çalışma alanı dosyaları nedir?.
- İşlem hattındaki tablolar için mevcut bir katalog. Bkz. Kataloglar oluştur.
(İsteğe bağlı) Yerel işlem hattı geliştirmeyi desteklemek için Python modülü yükleme
Databricks, IDE'nizde kod yazarken söz dizimi denetimi, otomatik tamamlama ve veri türü denetimi sağlayarak Lakeflow Spark Bildirimli İşlem Hatları kodunu yerel olarak geliştirmenize yardımcı olacak bir Python modülü sağlar.
Yerel geliştirme için Python modülü PyPi'de kullanılabilir. Modülü yüklemek için bkz. DLT için Python saplaması.
1. Adım: Kimlik doğrulamayı ayarlama
İlk olarak, geliştirme makinenizdeki Databricks CLI ile Azure Databricks çalışma alanınız arasında kimlik doğrulamasını ayarlayın. Bu sayfada, OAuth kullanıcıdan makineye (U2M) kimlik doğrulamasını ve kimlik doğrulaması için adlı DEFAULT ilgili Azure Databricks yapılandırma profilini kullanmak istediğiniz varsayılır.
Not
U2M kimlik doğrulaması, bu adımları gerçek zamanlı olarak denemek için uygundur. Tam otomatik iş akışları için Databricks bunun yerine OAuth makineden makineye (M2M) kimlik doğrulamasını kullanmanızı önerir. OAuth ile Azure Databricks'e hizmet sorumlusu erişimi yetkilendirme başlığındaki M2M kimlik doğrulaması kurulum yönergelerine bakın.
Her hedef çalışma alanı için aşağıdaki komutu çalıştırarak yerel olarak OAuth belirteci yönetimini başlatmak için Databricks CLI'sini kullanın.
Aşağıdaki komutta
<workspace-url>değerini Azure Databricks çalışma alanı başına URL'nizle değiştirin, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --host <workspace-url>Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın
Enterveya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip herhangi bir mevcut profilin bilgileri üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yı kullanarak komutunu
databricks auth profilesçalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunudatabricks auth env --profile <profile-name>çalıştırın.Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.
Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Aynı
--hostdeğere sahip birden çok profiliniz varsa Databricks CLI'sının--hostdoğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve-pseçeneklerini birlikte belirtmeniz gerekebilir.
2. Adım: Paketi oluşturma
İşlem hattı ile bir paket başlatın:
Yerel geliştirme makinenizde şablonun oluşturulan paketini içerecek bir dizine geçmek için terminalinizi veya komut isteminizi kullanın.
Komutu çalıştırmak için Databricks CLI'yi
pipelines initkullanın:databricks pipelines initiçin
Unique name for this projectvarsayılan değerinimy_pipeline_projectbırakın veya farklı bir değer yazın ve tuşuna basınEnter. Bu, bu paket için kök dizinin adını belirler. Bu kök dizin, geçerli çalışma dizininiz içinde oluşturulur.Initial catalogiçin var olan bir Unity Katalog kataloğunun adını girin.Use a personal schema for each user working on this project?içinyesöğesini seçin.Initial language for this projectiçinpythonöğesini seçin.
3. Adım: Paketi keşfetme
Şablonun oluşturduğu dosyaları görüntülemek için yeni oluşturduğunuz paketin kök dizinine geçin. Varsayılan olarak aşağıdaki yapı oluşturulur:
my_pipeline_project
├── databricks.yml
├── pyproject.toml
├── README.md
├── resources
│ ├── my_pipeline_project_etl.pipeline.yml
│ └── sample_job.job.yml
└── src
└── my_pipeline_project_etl
├── explorations
│ └── sample_exploration.ipynb
├── README.md
└── transformations
├── sample_trips_my_pipeline_project.py
└── sample_zones_my_pipeline_project.py
Belirli bir ilgi alanı olan dosyalar şunlardır:
databricks.yml: Bu dosya paketin programlı adını belirtir, paketin dosyalarına başvurular içerir, katalog ve şema değişkenlerini tanımlar ve hedef çalışma alanlarının ayarlarını belirtir.resources/sample_job.job.ymlveresources/<project-name>_etl_pipeline.yml: Bu dosyalar, işlem hattı yenileme görevini içeren işi ve işlem hattının ayarlarını tanımlar. İşlem hattı ayarları hakkında bilgi için bkz. işlem hattı.src/: Bu klasör örnek işlem hattının kaynak dosyalarını, keşiflerini ve dönüşümlerini içerir.İpucu
Testler eklerseniz, bunları yerel olarak çalıştırmak için kullanın
pytest:uv run pytestREADME.md: Bu dosya, bu paket şablonunu kullanmaya başlama ve kullanma hakkında ek bilgiler içerir.
4. Adım: Paket yapılandırmasını doğrulama
Şimdi paket yapılandırmasının geçerli olup olmadığını denetleyin.
Kök dizinden Databricks CLI'sini
bundle validatekullanarak şu komutu çalıştırın:databricks bundle validatePaket yapılandırmasının özeti döndürülürse doğrulama başarılı olur. Herhangi bir hata döndürülürse, hataları düzeltin ve bu adımı yineleyin.
5. Adım: İşlem hattını uzak çalışma alanına dağıtma
Ardından paketi uzak Azure Databricks çalışma alanınıza dağıtın ve işlem hattını çalışma alanınızda doğrulayın.
Paket kökünden databricks CLI
deploykomutunu kullanın:databricks bundle deploy --target devVeya:
databricks pipelines deploy --target devNot
Varsayılan şablon, işlem hattını her gün çalıştıran bir iş içerir, ancak bu hedef
devdağıtım modu için duraklatılır. Bkz Deklaratif Otomasyon Paketleri dağıtım modları.Paketin dağıtıldığını onaylayın:
- Azure Databricks çalışma alanınızın kenar çubuğunda Çalışma Alanı'ya tıklayın.
-
Kullanıcılar >
<your-username>>.bundleklasörüne tıklayın ve paket projenizi bulun.
İşlem hattınızın oluşturulup oluşturulmadığını denetleyin:
- Azure Databricks çalışma alanınızın kenar çubuğunda İşler ve İşlem Hatları'na tıklayın.
- İsteğe bağlı olarak İşlem Hatları ve Bana ait filtrelerini seçin.
-
[dev
<your-username>]<project-name>_etl tıklayın.
Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek için 4-5 arası adımları yineleyip projeyi yeniden dağıtmanız gerekir.
6. Adım: Dağıtılan işlem hattını çalıştır
Şimdi komut satırından çalışma alanınızdaki işlem hattı çalışmasını başlatın.
Kök dizinden Databricks CLI
pipelines runkomutunu kullanın. Projede yalnızca bir işlem hattı varsa, işlem hattı adı belirtmeniz gerekmez.databricks pipelines run my_pipeline_project_etl --target devTerminalinizde görünen değerini
Update URLkopyalayın ve bu değeri web tarayıcınıza yapıştırarak Azure Databricks çalışma alanınızı açın.Azure Databricks çalışma alanında, pipeline çalışması başarıyla tamamlandıktan sonra, her görünümün ayrıntılarını incelemek için materyalize edilmiş görünümlere tıklayın.
Bu adımdan sonra paketinizde herhangi bir değişiklik yaparsanız, paket yapılandırmanızın hala geçerli olup olmadığını denetlemek, projeyi yeniden dağıtmak ve yeniden dağıtılan projeyi çalıştırmak için 4-6 arası adımları yinelemelisiniz.
7. Adım: Çıkış geçmişi ve olay günlükleri
pipelines history ve pipelines logs komutları tarafından sağlanan bilgiler hataları tanılamaya yardımcı olabilir.
İşlem hattı için geçmiş çalıştırmaları almak için:
databricks pipelines history my_pipeline_project_etl
Updates Summary for pipeline my_pipeline_project_etl:
Update ID: a62293ec-8a63-43b7-8629-b218d56dac7c
State: COMPLETED
Cause: API_CALL
Creation Time: 2026-01-29T23:16:14Z
Full Refresh: false
Validate Only: false
İşlem hattının en son güncellemesinin olaylarını JSON formatında çıktısını almak için:
databricks pipelines logs my_pipeline_project_etl
Sonuçları filtrelemek için kullanın jq . Bkz jq ile JSON çıkışını filtreleme.
8. Adım: Temizleme
Bu adımda, dağıtılan paketi ve işlem hattını çalışma alanınızdan silersiniz.
Kök dizinden Databricks CLI'sini
pipelines destroykullanarak şu komutu çalıştırın:databricks pipelines destroy --target devKaynakları, işlem hattını ve işlem hattı tarafından yönetilen tabloları ve görünümleri kalıcı olarak yok etmek isteyip istemediğiniz sorulduğunda yazın
yve tuşuna basınEnter.Paketi geliştirme makinenizden de silmek istiyorsanız, artık yerel proje dizinini silebilirsiniz.