Aracılığıyla paylaş


Kaynak denetimli bir işlem hattı oluşturun

Önemli

Lakeflow Pipelines Düzenleyicisi Genel Önizleme aşamasındadır.

Azure Databricks'te bir işlem hattını ve onunla ilişkili tüm kodu kaynak denetimi yapabilirsiniz. İşlem hattınızla ilişkili tüm dosyaları denetleyerek dönüştürme kodunuz, keşif kodunuz ve işlem hattı yapılandırmanızdaki değişikliklerin tümü Git'te sürümlenir ve geliştirme aşamasında test edilebilir ve güvenle üretime dağıtılabilir.

Kaynak denetimli işlem hattı aşağıdaki avantajları sunar:

  • İzlenebilirlik: Git geçmişindeki her değişikliği yakalayın.
  • Test: Paylaşılan bir üretim çalışma alanına yükseltmeden önce geliştirme çalışma alanındaki işlem hattı değişikliklerini doğrulayın. Her geliştiricinin git klasöründe ve kendi şemasında kendi kod dalında kendi geliştirme işlem hattı vardır.
  • İşbirliği: Bireysel geliştirme ve test tamamlandığında kod değişiklikleri ana üretim işlem hattına iletilir.
  • İdare: Kurumsal CI/CD ve dağıtım standartlarıyla uyumlu hale getirme.

Azure Databricks, işlem hatlarının ve kaynak dosyalarının Databricks Varlık Paketleri kullanılarak birlikte kaynak denetimine alınmasına olanak tanır. Paketlerde işlem hattı yapılandırması, bir işlem hattının Python veya SQL kaynak dosyalarıyla birlikte YAML yapılandırma dosyaları biçiminde denetlenür. Bir pakette bir veya birden çok işlem hattının yanı sıra işler gibi diğer kaynak türleri de olabilir.

Bu sayfada Databricks Varlık Paketleri kullanılarak kaynak denetimli işlem hattının nasıl ayarlanacağı gösterilmektedir. Paketler hakkında daha fazla bilgi için bkz. Databricks Varlık Paketleri nedir?.

Gereksinimler

Kaynak denetimli bir işlem hattı oluşturmak için şu kaynaklara sahip olmanız gerekir:

Pakette yeni bir işlem hattı oluştur

Uyarı

Databricks, başlangıçtan itibaren kaynak tarafından denetlenen bir işlem hattı oluşturulmasını önerir. Alternatif olarak, zaten kaynak denetiminde olan bir pakete mevcut bir işlem hattı ekleyebilirsiniz. Bkz . Mevcut kaynakları bir pakete geçirme.

Yeni bir kaynak denetimli işlem hattı oluşturmak için:

  1. Çalışma alanında Artı simgesine gidin.Yeni>İşlem hattı simgesi.ETL işlem hattı.

  2. Dosya küpü simgesi'ne tıklayın. Kaynak denetimli proje olarak kurulum:

    Yeni kaynak denetimli işlem hattı

  3. Yeni proje oluştur'a tıklayın, ardından kodunuzu ve yapılandırmanızı yerleştirmek istediğiniz git klasörünü seçin:

    Yeni proje

  4. Nextöğesine tıklayın.

  5. Varlık paketi oluştur iletişim kutusuna aşağıdakileri girin:

    • Paket adı: Paketin adı.
    • İlk katalog: Kullanılacak şemayı içeren kataloğun adı.
    • Kişisel şema kullanma: Düzenlemeleri kişisel bir şemada yalıtmak istiyorsanız bu kutuyu işaretli bırakın; böylece kuruluşunuzdaki kullanıcılar aynı proje üzerinde işbirliği yaparken, geliştirmede birbirlerinin değişikliklerinin üzerine yazmazsınız.
    • başlangıç dili: Python veya SQL gibi projenin örnek işlem hattı dosyaları için kullanılacak ilk dil.

    Yeni paket

  6. Oluştur ve dağıt'a tıklayın. Git klasöründe işlem hattı içeren bir paket oluşturulur.

İşlem hattı paketini keşfetme

Ardından, oluşturulan pipeline paketini inceleyin.

Git klasöründeki paket, paket sistem dosyalarını ve databricks.yml değişkenleri, hedef çalışma alanı URL'lerini ve izinlerini ve paket için diğer ayarları tanımlayan dosyayı içerir. Bir resources paketin klasörü, işlem hatları gibi kaynakların tanımlarının bulunduğu yerdir.

Git klasöründe paket

resources Klasörü açın, ardından kaynak denetimli işlem hattını görüntülemek için işlem hattı düzenleyicisi düğmesine tıklayın:

İşlem hattı düzenleyicisini açma

İşlem hattı ağacı ile paketle

Örnek işlem hattı paketi aşağıdaki dosyaları içerir:

  • Örnek keşif defteri

  • Tablolarda dönüşümler gerçekleştiren iki örnek kod dosyası

  • Yardımcı program işlevi içeren örnek kod dosyası

  • İşlem hattını çalıştıran paketteki işi tanımlayan bir iş yapılandırma YAML dosyası

  • İşlem hattını tanımlayan bir işlem hattı yapılandırma YAML dosyası

    Önemli

    İşlem hattındaki yapılandırma değişikliklerini, kullanıcı arabirimi aracılığıyla yapılan değişiklikler de dahil olmak üzere kalıcı olarak kalıcı hale getirmek için bu dosyayı düzenlemeniz gerekir, aksi takdirde paket yeniden dağıtıldığında kullanıcı arabirimi değişiklikleri geçersiz kılınabilir. Örneğin, işlem hattı için farklı bir varsayılan katalog ayarlamak için bu yapılandırma dosyasındaki alanı düzenleyin catalog .

  • Örnek işlem hattı paketi ve işlem hattını çalıştırma yönergeleri hakkında ek ayrıntılar içeren bir README dosyası

İşlem hattı dosyaları hakkında bilgi için bkz . İşlem hattı varlıkları tarayıcısı.

İşlem hattı paketinde değişiklik yazma ve dağıtma hakkında daha fazla bilgi için bkz. Çalışma alanında paket yazma ve Çalışma alanındanpaket dağıtma ve iş akışlarını çalıştırma.

İşlem hattını çalıştırma

Tek tek dönüştürmeleri veya kaynak denetimindeki işlem hattının tamamını çalıştırabilirsiniz:

  • İşlem hattında tek bir dönüşümü çalıştırmak ve önizlemek için, çalışma alanı tarayıcı ağacındaki dönüştürme dosyasını seçerek dosya düzenleyicisinde açın. Dosya düzenleyicide dosyanın üst kısmında, Dosya çalıştırma düğmesine tıklayın.
  • İşlem hattındaki tüm dönüştürmeleri çalıştırmak için Databricks çalışma alanının sağ üst kısmındaki İşlem hattını çalıştır düğmesine tıklayın.

İşlem hatlarını çalıştırma hakkında daha fazla bilgi için bkz. İşlem hattı kodunu çalıştırma.

İşlem hattını güncelleştirme

İşlem hattınızdaki yapıtları güncelleştirebilir veya ek keşifler ve dönüştürmeler ekleyebilirsiniz, ancak daha sonra bu değişiklikleri GitHub'a göndermek istersiniz. Çatal simgesine tıklayın. İşlem hattı paketiyle ilişkilendirilmiş Git simgesine tıklayın veya klasörün kebabına tıklayın, sonra Git... seçeneğine tıklayarak gönderilecek değişiklikleri seçin. Bkz. Değişiklikleri uzak Git deposuna işleme ve gönderme.

Değişiklikleri Git'e gönderme

Ayrıca, işlem hattı yapılandırma dosyalarını güncelleştirdiğinizde veya pakete dosya eklediğinizde veya paketten dosya kaldırdığınızda, siz paketi açıkça dağıtana kadar bu değişiklikler hedef çalışma alanına yayılmaz. Bkz . Çalışma alanından paket dağıtma ve iş akışlarını çalıştırma.

Uyarı

Databricks, kaynak denetimindeki işlem hatları için varsayılan kurulumu korumanızı önerir. Varsayılan kurulum, kullanıcı arabirimi aracılığıyla ek dosyalar eklendiğinde işlem hattı paketi YAML yapılandırmasını düzenlemeniz gerekmeyecek şekilde yapılandırılır.

İşlem hattını güncelleştirme

Mevcut bir işlem hattını pakete ekleyin

Mevcut bir işlem hattını bir pakete eklemek için, önce çalışma alanında bir paket oluşturun, ardından aşağıdaki sayfalarda açıklandığı gibi işlem hattı YAML tanımını pakete ekleyin:

Databricks CLI kullanarak kaynakları bir pakete geçirme hakkında bilgi için bkz. Mevcut kaynakları pakete geçirme.

Ek kaynaklar

İşlem hatları için ek öğreticiler ve başvuru malzemeleri için bkz. Lakeflow Spark Bildirimli İşlem Hatları.