Aracılığıyla paylaş


Databricks Varlık Paketleri nedir?

Databricks Varlık Paketleri, veri ve yapay zeka projeleriniz için kaynak denetimi, kod gözden geçirme, test ve sürekli tümleştirme ve teslim (CI/CD) dahil olmak üzere yazılım mühendisliği en iyi uygulamalarının benimsenmesini kolaylaştıran bir araçtır. Paketler, projenizin kaynak dosyalarına meta veriler eklemek ve işler ve işlem hatları gibi Databricks kaynaklarını kaynak dosyalar olarak açıklamayı mümkün kılmak için bir yol sağlar. Sonuç olarak paket, projenin nasıl yapılandırılması, test edilmesi ve dağıtılması gerektiği de dahil olmak üzere projenin uçtan uca bir tanımıdır. Bu, etkin geliştirme sırasında projeler üzerinde işbirliği yapmanızı kolaylaştırır.

Paket projenizin kaynak dosya ve meta veri koleksiyonu, hedef ortamınıza tek bir paket olarak dağıtılır. Paket aşağıdaki bölümleri içerir:

  • Gerekli bulut altyapısı ve çalışma alanı yapılandırmaları
  • İş mantığını içeren not defterleri ve Python dosyaları gibi kaynak dosyalar
  • Lakeflow İşleri, Lakeflow Spark Bildirimli İşlem Hatları, Panolar, Model Sunma uç noktaları, MLflow Denemeleri ve MLflow kayıtlı modelleri gibi Databricks kaynakları için tanımlar ve ayarlar
  • Birim testleri ve tümleştirme testleri

Aşağıdaki diyagram, bir geliştirme ve CI/CD işlem hattının paketlerle üst düzey bir görünümünü sağlar:

Databricks Varlık Paketlerine genel bakış

Video rehberi

Bu videoda Databricks Varlık Paketleri (5 dakika) ile çalışma gösterilmektedir.

Paketleri ne zaman kullanmalıyım?

Databricks Varlık Paketleri, Databricks projelerinizi yönetmeye yönelik bir kod olarak altyapı (IaC) yaklaşımıdır. Birden çok katkıda bulunan ve otomasyonun gerekli olduğu ve sürekli tümleştirme ve dağıtımın (CI/CD) bir gereksinim olduğu karmaşık projeleri yönetmek istediğinizde bunları kullanın. Paketler YAML şablonları ve kaynak koduyla birlikte oluşturup bakımını yaptığınız dosyalar aracılığıyla tanımlanıp yönetildiğinden, IaC'nin uygun bir yaklaşım olduğu senaryolarla iyi eşlenir.

Paketler için bazı ideal senaryolar şunlardır:

  • Ekip tabanlı bir ortamda veri, analiz ve ML projeleri geliştirin. Paketler çeşitli kaynak dosyaları verimli bir şekilde düzenlemenize ve yönetmenize yardımcı olabilir. Bu, sorunsuz işbirliği ve kolaylaştırılmış süreçler sağlar.
  • Makine Öğrenimi problemlerini daha hızlı yineleyin. Başlangıçtan itibaren en iyi üretim yöntemlerini izleyen ML projelerini kullanarak ML işlem hattı kaynaklarını (eğitim ve toplu çıkarım işleri gibi) yönetin.
  • Varsayılan izinleri, hizmet sorumlularını ve CI/CD yapılandırmalarını içeren özel paket şablonları yazarak yeni projeler için kuruluş standartlarını ayarlayın.
  • Mevzuat uyumluluğu: Mevzuat uyumluluğunun önemli bir sorun olduğu sektörlerde paketler, kod ve altyapı çalışmalarının sürümleştirilmiş geçmişinin korunmasına yardımcı olabilir. Bu, idareye yardımcı olur ve gerekli uyumluluk standartlarının karşılanmasını sağlar.

Paketler nasıl çalışır?

Paket meta verileri, Databricks projesinin yapıtlarını, kaynaklarını ve yapılandırmasını belirten YAML dosyaları kullanılarak tanımlanır. Databricks CLI daha sonra bu paket YAML dosyalarını kullanarak paketleri doğrulamak, dağıtmak ve çalıştırmak için kullanılabilir. Paket projelerini IDE'lerden, terminallerden veya Databricks'ten doğrudan çalıştırabilirsiniz.

Paketler el ile veya şablon temelinde oluşturulabilir. Databricks CLI basit kullanım örnekleri için varsayılan şablonlar sağlar, ancak daha özel veya karmaşık işler için ekibinizin en iyi yöntemlerini uygulamak ve ortak yapılandırmaların tutarlı kalmasını sağlamak için özel paket şablonları oluşturabilirsiniz.

Databricks Varlık Paketlerini ifade etmek için kullanılan YAML yapılandırması hakkında daha fazla bilgi için bkz. Databricks Varlık Paketi yapılandırması.

Paketleri kullanmak için ne yüklemem gerekiyor?

Databricks Varlık Paketleri, Databricks CLI'nın bir özelliğidir. Paketleri yerel olarak derleyip databricks CLI kullanarak uzak Databricks çalışma alanlarını hedeflemek ve bu çalışma alanlarında paket iş akışlarını komut satırından çalıştırmak için paketlerinizi dağıtabilirsiniz.

Uyarı

Yalnızca çalışma alanında paket kullanmak istiyorsanız Databricks CLI'yı yüklemeniz gerekmez. Bkz. Çalışma alanında paketler üzerinde işbirliği yapma.

Azure Databricks çalışma alanlarınızda paket oluşturmak, dağıtmak ve çalıştırmak için:

  • Uzak Databricks çalışma alanlarınızda çalışma alanı dosyaları etkinleştirilmelidir. Databricks Runtime sürüm 11.3 LTS veya üzerini kullanıyorsanız, bu özellik varsayılan olarak etkindir.

  • Databricks CLI, sürüm v0.218.0 veya üzerini yüklemeniz gerekir. Databricks CLI'yı yüklemek veya güncelleştirmek için bkz. Databricks CLI'yı yükleme veya güncelleştirme.

    Databricks, yeni paket özelliklerinden yararlanmak için CLI'nın en son sürümüne düzenli olarak güncelleştirmenizi önerir. Databricks CLI'nın yüklü sürümünü bulmak için aşağıdaki komutu çalıştırın:

    databricks --version
    
  • Databricks CLI'yi Databricks çalışma alanlarınıza erişecek şekilde yapılandırmışsınız. Databricks, çalışma alanınıza erişimi yapılandırma bölümünde açıklanan OAuth kullanıcıdan makineye (U2M) kimlik doğrulamasını kullanarak erişimi yapılandırmanızı önerir. Diğer kimlik doğrulama yöntemleri Databricks Varlık Paketleri için Kimlik Doğrulaması bölümünde açıklanmıştır.

Paketleri kullanmaya nasıl başlarım?

Yerel paket geliştirmeye başlamanın en hızlı yolu paket proje şablonu kullanmaktır. Databricks CLI bundle init komutunu kullanarak ilk paket projenizi oluşturun. Bu komut, Databricks tarafından sağlanan varsayılan paket şablonlarının seçimini sunar ve proje değişkenlerini başlatmak için bir dizi soru sorar.

databricks bundle init

Paketinizi oluşturmak, bir paketin yaşam döngüsünün ilk adımıdır. Ardından, databricks.yml ve kaynak yapılandırma dosyalarında paket ayarlarını ve kaynaklarını tanımlayarak paketinizi geliştirin. Son olarak paketinizi doğrulayın ve dağıtın , ardından iş akışlarınızı çalıştırın.

İpucu

Paket yapılandırma örnekleri , Paket yapılandırma örnekleri ve GitHub'daki Paket örnekleri deposunda bulunabilir.

Sonraki adımlar