Databricks Varlık Paketleri nedir?
Databricks Varlık Paketleri (DAB), Databricks platformu için karmaşık veri, analiz ve ML projelerinin geliştirilmesine yönelik yeni bir araçtır. Paketler, yazılım geliştirme iş akışınızda tek bir kısa ve bildirim temelli YAML söz dizimi ile CI/CD özellikleri sağlayarak etkin geliştirme sırasında karmaşık projeleri yönetmeyi kolaylaştırır. Projenizin testlerini, dağıtımlarını ve yapılandırma yönetimini otomatikleştirmek için paketleri kullanarak, kuruluşunuz genelinde şablonlu projeler olarak yazılım en iyi yöntemlerini tanıtırken hataları azaltabilirsiniz.
Paketler, projenizin kaynak dosyalarına meta verileri dahil etmek için bir yol sağlar. Paketleri kullanarak bir proje dağıttığınızda, bu meta veriler altyapıyı ve diğer kaynakları sağlamak için kullanılır. Projenizin kaynak dosya ve meta veri koleksiyonu, hedef ortamınıza tek bir paket olarak dağıtılır.
Paket aşağıdaki bölümleri içerir:
- Gerekli bulut altyapısı ve çalışma alanı yapılandırmaları
- İş mantığını içeren not defterleri ve Python dosyaları gibi kaynak dosyalar
- Azure Databricks işleri, Delta Live Tables işlem hatları, Model Sunma uç noktaları, MLflow Denemeleri ve MLflow kayıtlı modelleri gibi Databricks kaynakları için tanımlar ve ayarlar
- Birim testleri ve tümleştirme testleri
Databricks Varlık Paketlerini ne zaman kullanmalıyım?
Databricks Varlık Paketleri, Databricks projelerinizi yönetmeye yönelik bir kod olarak altyapı (IaC) yaklaşımıdır. Birden çok katkıda bulunan ve otomasyonun gerekli olduğu ve sürekli tümleştirme ve dağıtımın (CI/CD) bir gereksinim olduğu karmaşık projeleri yönetmek istediğinizde bunları kullanın. Paketler YAML şablonları ve kaynak koduyla birlikte oluşturup bakımını yaptığınız dosyalar aracılığıyla tanımlanıp yönetildiğinden, IaC'nin uygun bir yaklaşım olduğu senaryolarla iyi eşlenir.
Paketler için bazı ideal senaryolar şunlardır:
- Ekip tabanlı bir ortamda veri, analiz ve ML projeleri geliştirin. Paketler çeşitli kaynak dosyaları verimli bir şekilde düzenlemenize ve yönetmenize yardımcı olabilir. Bu, sorunsuz işbirliği ve kolaylaştırılmış süreçler sağlar.
- ML sorunlarını daha hızlı yineler. Başlangıçtan itibaren en iyi üretim yöntemlerini izleyen ML projelerini kullanarak ML işlem hattı kaynaklarını (eğitim ve toplu çıkarım işleri gibi) yönetin.
- Varsayılan izinleri, hizmet sorumlularını ve CI/CD yapılandırmalarını içeren özel paket şablonları yazarak yeni projeler için kuruluş standartlarını ayarlayın.
- Mevzuat uyumluluğu: Mevzuat uyumluluğunun önemli bir sorun olduğu sektörlerde paketler, kod ve altyapı çalışmalarının sürümleştirilmiş geçmişinin korunmasına yardımcı olabilir. Bu, idareye yardımcı olur ve gerekli uyumluluk standartlarının karşılanmasını sağlar.
Databricks Varlık Paketleri nasıl çalışır?
Paket meta verileri, Databricks projesinin yapıtlarını, kaynaklarını ve yapılandırmasını belirten YAML dosyaları kullanılarak tanımlanır. Bu YAML dosyasını el ile oluşturabilir veya paket şablonu kullanarak oluşturabilirsiniz. Databricks CLI daha sonra bu paket YAML dosyalarını kullanarak paketleri doğrulamak, dağıtmak ve çalıştırmak için kullanılabilir. Paket projelerini IDE'lerden, terminallerden veya Databricks'ten doğrudan çalıştırabilirsiniz. Bu makalede Databricks CLI'yi kullanmayı ele alacağız.
Paketler el ile veya şablon temelinde oluşturulabilir. Databricks CLI basit kullanım örnekleri için varsayılan şablonlar sağlar, ancak daha özel veya karmaşık işler için ekibinizin en iyi yöntemlerini uygulamak ve ortak yapılandırmaların tutarlı kalmasını sağlamak için özel paket şablonları oluşturabilirsiniz.
Databricks Varlık Paketlerini ifade etmek için kullanılan YAML yapılandırması hakkında daha fazla bilgi için bkz . Databricks Varlık Paketi yapılandırmaları.
Ortamınızı paketleri kullanacak şekilde yapılandırma
Komut satırından paketleri kolayca dağıtmak için Databricks CLI'yi kullanın. Aşağıdaki komutu çalıştırarak Databricks CLI'nın yüklenip yüklenmediğini ve kullandığınız geçerli sürümü de kontrol edebilirsiniz:
databricks --version
Not
Databricks CLI sürüm 0.218.0 veya üzeri gereklidir. Databricks CLI'yı yüklemek için bkz . Databricks CLI'yı yükleme veya güncelleştirme.
Databricks CLI'yı yükledikten sonra uzak Databricks çalışma alanlarınızın doğru yapılandırıldığını doğrulayın. Bu özellik ve .yml
dosyaları gibi .py
Databricks Not Defterleri dışındaki dosyalarla çalışmayı desteklediğinden paketlerde çalışma alanı dosyaları özelliğinin etkinleştirilmesi gerekir. Databricks Runtime sürüm 11.2 (veya üzeri) kullanıyorsanız bu özellik varsayılan olarak etkinleştirilmelidir.
Kimlik Doğrulaması
Azure Databricks çeşitli kimlik doğrulama yöntemleri sağlar. Databricks, kimlik doğrulaması için aşağıdaki yöntemlerden birini kullanmanızı önerir:
- Hedef Azure Databricks çalışma alanınızda oturum açmak için web tarayıcınızı kullandığınız el ile gerçekleştirilen iş akışları (Databricks CLI tarafından istendiğinde) gibi katılımlı kimlik doğrulama senaryoları için OAuth kullanıcıdan makineye (U2M) kimlik doğrulamasını kullanın. Bu yöntem, Databricks Varlık Paketleri için başlangıç öğreticilerini denemek veya paketlerin hızlı bir şekilde geliştirilmesi için idealdir.
- Hedef Azure Databricks çalışma alanınızda oturum açmak için web tarayıcınızı kullanma fırsatınızın olmadığı tam otomatik iş akışları gibi katılımsız kimlik doğrulama senaryoları için OAuth makineden makineye (M2M) kimlik doğrulamasını kullanın. Bu yöntem Azure Databricks hizmet sorumlularının kullanılmasını gerektirir ve Databricks Varlık Paketlerini GitHub gibi CI/CD sistemleriyle kullanmak için idealdir.
OAuth U2M kimlik doğrulaması için aşağıdakileri yapın:
-
Aşağıdaki komutta değerini çalışma alanı başına Azure Databricks URL'nizle değiştirin
<workspace-url>
, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --host <workspace-url>
Databricks CLI, Azure Databricks yapılandırma profili olarak girdiğiniz bilgileri kaydetmenizi ister. Önerilen profil adını kabul etmek için basın
Enter
veya yeni veya mevcut bir profilin adını girin. Girdiğiniz bilgilerle aynı ada sahip mevcut tüm profillerin üzerine yazılır. Birden çok çalışma alanında kimlik doğrulama bağlamınızı hızla değiştirmek için profilleri kullanabilirsiniz.Mevcut profillerin listesini almak için, ayrı bir terminalde veya komut isteminde Databricks CLI'yi kullanarak komutunu
databricks auth profiles
çalıştırın. Belirli bir profilin mevcut ayarlarını görüntülemek için komutunudatabricks auth env --profile <profile-name>
çalıştırın.Web tarayıcınızda, Azure Databricks çalışma alanınızda oturum açmak için ekrandaki yönergeleri tamamlayın.
Profilin geçerli OAuth belirteci değerini ve belirtecin yaklaşan süre sonu zaman damgasını görüntülemek için aşağıdaki komutlardan birini çalıştırın:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Aynı
--host
değere sahip birden çok profiliniz varsa Databricks CLI'sının--host
doğru eşleşen OAuth belirteci bilgilerini bulmasına yardımcı olmak için ve-p
seçeneklerini birlikte belirtmeniz gerekebilir.
Bu yapılandırma profilinin adını, paketleri doğruladığınızda, dağıttığınızda, çalıştırdığınızda veya yok ettiğiniz her durumda aşağıdaki yöntemlerden birinde veya birden fazlasında kullanabilirsiniz:
- komut satırı seçeneğiyle
-p <profile-name>
, ,databricks bundle deploy
databricks bundle run
veyadatabricks bundle destroy
komutlarınadatabricks bundle validate
eklenir. Bkz . Databricks Varlık Paketleri geliştirme iş akışı. - Paket yapılandırma dosyasının üst düzey eşlemesinde eşlemenin
profile
değeri olarak (Databricks eşleme kümesini eşleme yerineprofile
Azure Databricks çalışma alanının URL'sine kullanmanızıhost
önerir, çünkü paket yapılandırma dosyalarınızı daha taşınabilir hale getirir).workspace
Çalışma alanında eşlemenin kapsamınaprofile
bakın. - Yapılandırma profilinin adı ise
DEFAULT
, komut satırı seçeneği-p <profile-name>
veya (veyaprofile
host
) eşlemesi belirtilmediğinde varsayılan olarak kullanılır.
OAuth M2M kimlik doğrulaması için aşağıdakileri yapın:
OAuth M2M kimlik doğrulaması kurulum yönergelerini tamamlayın. Bkz . OAuth makineden makineye (M2M) kimlik doğrulaması.
Databricks CLI'sini aşağıdaki yollardan biriyle hedef işlem kaynağına yükleyin:
- Databricks CLI'sini işlem kaynağına gerçek zamanlı olarak el ile yüklemek için bkz . Databricks CLI'yi yükleme veya güncelleştirme.
- GitHub Actions'ı kullanarak Databricks CLI'yi bir GitHub sanal makinesine otomatik olarak yüklemek için bkz . GitHub'da setup-cli .
- Databricks CLI'yı bir sanal makineye otomatik olarak yüklemek üzere diğer CI/CD sistemlerini kullanmak için CI/CD sistem sağlayıcınızın belgelerine bakın ve Databricks CLI'yı yükleme veya güncelleştirme.
İşlem kaynağında aşağıdaki ortam değişkenlerini aşağıdaki gibi ayarlayın:
DATABRICKS_HOST
, çalışma alanı başına Azure Databricks URL'sine ayarlayın, örneğinhttps://adb-1234567890123456.7.azuredatabricks.net
.DATABRICKS_CLIENT_ID
değerini Azure Databricks hizmet sorumlusunun Uygulama Kimliği değerine ayarlayın.DATABRICKS_CLIENT_SECRET
değerini Azure Databricks hizmet sorumlusunun OAuth Gizli Anahtarı değerine ayarlayın.
Bu ortam değişkenlerini ayarlamak için hedef işlem kaynağınızın işletim sistemi veya CI/CD sistemi belgelerine bakın.
İlk Databricks Varlık Paketinizi geliştirme
Paket geliştirmeye başlamanın en hızlı yolu şablon kullanmaktır. Herhangi bir seçenek olmadan Databricks CLI bundle init
komutunu kullanarak ilk paket projenizi oluşturun. Bu, Databricks tarafından sağlanan varsayılan paket şablonlarının seçimini sunar ve proje değişkenlerini başlatmak için bir dizi soru sorar.
databricks bundle init
Kuruluşlar kendi standartlarını tanımlamak için özel paket şablonları da oluşturabilir. Bu standartlar varsayılan izinleri, hizmet sorumlularını ve özel CI/CD yapılandırmasını içerebilir. Bkz. Databricks Varlık Paketi şablonları.
Projenizi başlatdıktan sonra, paketinizi çalışma alanlarınıza dağıtmadan önce doğrulamak için komutunu kullanın bundle validate
.
databricks bundle validate
Genellikle IDE ve Databricks CLI sürüm 0.218.0 veya üzeri olan bir yerel geliştirme makinesinde paket oluşturursunuz. Bu araçlar bir paket oluşturmanızı, doğrulamanızı, dağıtmanızı ve çalıştırmanızı sağlar. Bkz . Databricks Varlık Paketleri geliştirme iş akışı.
Databricks Git klasör tümleştirmesini kullanarak paketi Git'e ekledikten sonra Azure Databricks çalışma alanında bir paketi düzenleyebilirsiniz. Ancak, bir çalışma alanından bir paketi test edemez veya dağıtamazsınız. Bunun yerine, test için yerel IDE'nizi ve dağıtım için CI/CD'yi kullanabilirsiniz.
Sonraki adımlar
- Azure Databricks çalışma alanına not defteri dağıtan ve dağıtılan not defterini Azure Databricks işi olarak çalıştıran bir paket oluşturun. Bkz . Databricks Varlık Paketlerini kullanarak Azure Databricks'te iş geliştirme.
- Azure Databricks çalışma alanına not defteri dağıtan ve ardından dağıtılan not defterini Delta Live Tables işlem hattı olarak çalıştıran bir paket oluşturun. Bkz . Databricks Varlık Paketleri ile Delta Live Tables işlem hatları geliştirme.
- MLOps Yığını dağıtan ve çalıştıran bir paket oluşturun. Bkz. MLOps Yığınları için Databricks Varlık Paketleri.
- GitHub'da CI/CD (sürekli tümleştirme/sürekli dağıtım) iş akışına paket ekleyin. Bkz . Databricks Varlık Paketi ve GitHub Actions ile CI/CD iş akışı çalıştırma.
- Python tekerlek dosyası oluşturan, dağıtan ve çağıran bir paket oluşturun. Bkz . Databricks Varlık Paketlerini kullanarak Python tekerlek dosyası geliştirme.
- Sizin ve başkalarının paket oluşturmak için kullanabileceğiniz özel bir şablon oluşturun. Bkz. Databricks Varlık Paketi şablonları.
Genel görevler
Databricks Varlık Paketleri için ortak görevleri tamamlamak için aşağıdaki makaleleri kullanın.
Makale | Bu makaleyi istediğiniz zaman kullanın... |
---|---|
Databricks Varlık Paketleri geliştirme iş akışı | Bir dosya yazarak databricks.yml ve Databricks CLI kullanarak , ve komutlarını databricks bundle validate databricks bundle deploy çalıştırarak paket oluşturma, doğrulama, dağıtma ve databricks bundle run çalıştırmaya yönelik çalışma hakkında bilgi edinin. |
Databricks Varlık Paketi yapılandırmaları | Paket yapılandırmaları databricks.yml için YAML söz dizimine uygun bir paket dosyasını ve diğer ilgili paket yapılandırma dosyalarını oluşturun. |
Databricks Varlık Paketleri için Kimlik Doğrulaması | Azure Databricks kimlik doğrulaması için bir paket projesi ayarlayın. |
Databricks Varlık Paketlerini kullanarak Azure Databricks'te iş geliştirme | Azure Databricks işi için paket oluşturun, dağıtın ve çalıştırın. |
Databricks Varlık Paketleri ile Delta Live Tables işlem hatları geliştirme | Delta Live Tables işlem hattı için paket oluşturun, dağıtın ve çalıştırın. |
MLOps Yığınları için Databricks Varlık Paketleri | MLOps Yığını için bir paket oluşturun, dağıtın ve çalıştırın. |
Databricks Varlık Paketleri kitaplık bağımlılıkları | Bir paketin ilgili Azure Databricks kümelerinde çalışması gereken kitaplıkları yükleyin. |
Databricks Varlık Paketi dağıtım modları | ve gibi development production paket dağıtım modlarını kullanarak ilgili zamanlamaları ve tetikleyicileri duraklatma veya duraklatma gibi yaygın dağıtım davranışlarını otomatik olarak etkinleştirin veya devre dışı bırakın. |
Databricks Varlık Paketi şablonları | Belirli paket türlerinin daha hızlı, daha kolay ve daha tutarlı ve yinelenebilir sonuçlarla oluşturulmasını sağlamak için bir şablon kullanın. |
Databricks Varlık Paketlerindeki kaynaklar için izinleri ayarlama | Belirli paket kaynakları için kullanıcılara, gruplara ve hizmet sorumlularına ayrıntılı erişim izinleri düzeyleri uygulayın. |
Databricks Varlık Paketlerinde yapıt ayarlarını dinamik olarak tanımlama | Bir paketteki yapıtlar için belirli ayarları birleştirin veya geçersiz kılın. |
Databricks Varlık Paketi ve GitHub Actions ile CI/CD iş akışı çalıştırma | Çekme isteği veya birleştirme gibi belirli bir GitHub iş akışı olayına yanıt olarak bir paket dağıtın veya çalıştırın. |
Databricks Varlık Paketlerinde küme ayarlarını geçersiz kılma | Bir paketteki kümeler için belirli ayarları birleştirin veya geçersiz kılın. |
Databricks Varlık Paketlerinde işlere görev ekleme | Paketteki bir işe görev ekleyin. |
Databricks Varlık Paketlerinde iş görevleri ayarlarını geçersiz kılma | Paketteki iş görevleri için belirli ayarları birleştirin veya geçersiz kılın. |
Databricks Varlık Paketlerini kullanarak Python tekerlek dosyası geliştirme | Python tekerlek dosyalarını bir pakette oluşturun, dağıtın ve çağırın. |
Diğer kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin