Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Lakeflow Pipelines Düzenleyicisi Genel Önizleme aşamasındadır.
Azure Databricks'te bir işlem hattını ve onunla ilişkili tüm kodu kaynak denetimi yapabilirsiniz. İşlem hattınızla ilişkili tüm dosyaları denetleyerek dönüştürme kodunuz, keşif kodunuz ve işlem hattı yapılandırmanızdaki değişikliklerin tümü Git'te sürümlenir ve geliştirme aşamasında test edilebilir ve güvenle üretime dağıtılabilir.
Kaynak denetimli işlem hattı aşağıdaki avantajları sunar:
- İzlenebilirlik: Git geçmişindeki her değişikliği yakalayın.
- Test: Paylaşılan bir üretim çalışma alanına yükseltmeden önce geliştirme çalışma alanındaki işlem hattı değişikliklerini doğrulayın. Her geliştiricinin git klasöründe ve kendi şemasında kendi kod dalında kendi geliştirme işlem hattı vardır.
- İşbirliği: Bireysel geliştirme ve test tamamlandığında kod değişiklikleri ana üretim işlem hattına iletilir.
- İdare: Kurumsal CI/CD ve dağıtım standartlarıyla uyumlu hale getirme.
Azure Databricks, işlem hatlarının ve kaynak dosyalarının Databricks Varlık Paketleri kullanılarak birlikte kaynak denetimine alınmasına olanak tanır. Paketlerde işlem hattı yapılandırması, bir işlem hattının Python veya SQL kaynak dosyalarıyla birlikte YAML yapılandırma dosyaları biçiminde denetlenür. Bir pakette bir veya birden çok işlem hattının yanı sıra işler gibi diğer kaynak türleri de olabilir.
Bu sayfada Databricks Varlık Paketleri kullanılarak kaynak denetimli işlem hattının nasıl ayarlanacağı gösterilmektedir. Paketler hakkında daha fazla bilgi için bkz. Databricks Varlık Paketleri nedir?.
Gereksinimler
Kaynak denetimli bir işlem hattı oluşturmak için şu kaynaklara sahip olmanız gerekir:
- Çalışma alanınızda oluşturulan ve yapılandırılan bir Git klasörü. Git klasörü, tek tek kullanıcıların bir Git deposuna kaydetmeden önce değişiklikleri yazmasına ve test etmesine olanak tanır. Bkz. Azure Databricks Git klasörleri.
- Lakeflow Pipelines Düzenleyicisi etkinleştirildi. Bu öğreticide açıklanan kullanıcı arabirimi yalnızca bu düzenleyici deneyiminde kullanılabilir. Bkz. Lakeflow Pipelines Düzenleyicisi ile ETL işlem hatlarını geliştirme ve hatalarını ayıklama.
Pakette yeni bir işlem hattı oluştur
Uyarı
Databricks, başlangıçtan itibaren kaynak tarafından denetlenen bir işlem hattı oluşturulmasını önerir. Alternatif olarak, zaten kaynak denetiminde olan bir pakete mevcut bir işlem hattı ekleyebilirsiniz. Bkz . Mevcut kaynakları bir pakete geçirme.
Yeni bir kaynak denetimli işlem hattı oluşturmak için:
Çalışma alanında
Yeni>
ETL işlem hattı.
Kaynak denetimli proje olarak kurulum:
Yeni proje oluştur'a tıklayın, ardından kodunuzu ve yapılandırmanızı yerleştirmek istediğiniz git klasörünü seçin:
Nextöğesine tıklayın.
Varlık paketi oluştur iletişim kutusuna aşağıdakileri girin:
- Paket adı: Paketin adı.
- İlk katalog: Kullanılacak şemayı içeren kataloğun adı.
- Kişisel şema kullanma: Düzenlemeleri kişisel bir şemada yalıtmak istiyorsanız bu kutuyu işaretli bırakın; böylece kuruluşunuzdaki kullanıcılar aynı proje üzerinde işbirliği yaparken, geliştirmede birbirlerinin değişikliklerinin üzerine yazmazsınız.
- başlangıç dili: Python veya SQL gibi projenin örnek işlem hattı dosyaları için kullanılacak ilk dil.
Oluştur ve dağıt'a tıklayın. Git klasöründe işlem hattı içeren bir paket oluşturulur.
İşlem hattı paketini keşfetme
Ardından, oluşturulan pipeline paketini inceleyin.
Git klasöründeki paket, paket sistem dosyalarını ve databricks.yml değişkenleri, hedef çalışma alanı URL'lerini ve izinlerini ve paket için diğer ayarları tanımlayan dosyayı içerir. Bir resources paketin klasörü, işlem hatları gibi kaynakların tanımlarının bulunduğu yerdir.
resources Klasörü açın, ardından kaynak denetimli işlem hattını görüntülemek için işlem hattı düzenleyicisi düğmesine tıklayın:
Örnek işlem hattı paketi aşağıdaki dosyaları içerir:
Örnek keşif defteri
Tablolarda dönüşümler gerçekleştiren iki örnek kod dosyası
Yardımcı program işlevi içeren örnek kod dosyası
İşlem hattını çalıştıran paketteki işi tanımlayan bir iş yapılandırma YAML dosyası
İşlem hattını tanımlayan bir işlem hattı yapılandırma YAML dosyası
Önemli
İşlem hattındaki yapılandırma değişikliklerini, kullanıcı arabirimi aracılığıyla yapılan değişiklikler de dahil olmak üzere kalıcı olarak kalıcı hale getirmek için bu dosyayı düzenlemeniz gerekir, aksi takdirde paket yeniden dağıtıldığında kullanıcı arabirimi değişiklikleri geçersiz kılınabilir. Örneğin, işlem hattı için farklı bir varsayılan katalog ayarlamak için bu yapılandırma dosyasındaki alanı düzenleyin
catalog.Örnek işlem hattı paketi ve işlem hattını çalıştırma yönergeleri hakkında ek ayrıntılar içeren bir README dosyası
İşlem hattı dosyaları hakkında bilgi için bkz . İşlem hattı varlıkları tarayıcısı.
İşlem hattı paketinde değişiklik yazma ve dağıtma hakkında daha fazla bilgi için bkz. Çalışma alanında paket yazma ve Çalışma alanındanpaket dağıtma ve iş akışlarını çalıştırma.
İşlem hattını çalıştırma
Tek tek dönüştürmeleri veya kaynak denetimindeki işlem hattının tamamını çalıştırabilirsiniz:
- İşlem hattında tek bir dönüşümü çalıştırmak ve önizlemek için, çalışma alanı tarayıcı ağacındaki dönüştürme dosyasını seçerek dosya düzenleyicisinde açın. Dosya düzenleyicide dosyanın üst kısmında, Dosya çalıştırma düğmesine tıklayın.
- İşlem hattındaki tüm dönüştürmeleri çalıştırmak için Databricks çalışma alanının sağ üst kısmındaki İşlem hattını çalıştır düğmesine tıklayın.
İşlem hatlarını çalıştırma hakkında daha fazla bilgi için bkz. İşlem hattı kodunu çalıştırma.
İşlem hattını güncelleştirme
İşlem hattınızdaki yapıtları güncelleştirebilir veya ek keşifler ve dönüştürmeler ekleyebilirsiniz, ancak daha sonra bu değişiklikleri GitHub'a göndermek istersiniz.
İşlem hattı paketiyle ilişkilendirilmiş Git simgesine tıklayın veya klasörün kebabına tıklayın, sonra Git... seçeneğine tıklayarak gönderilecek değişiklikleri seçin. Bkz. Değişiklikleri uzak Git deposuna işleme ve gönderme.
Ayrıca, işlem hattı yapılandırma dosyalarını güncelleştirdiğinizde veya pakete dosya eklediğinizde veya paketten dosya kaldırdığınızda, siz paketi açıkça dağıtana kadar bu değişiklikler hedef çalışma alanına yayılmaz. Bkz . Çalışma alanından paket dağıtma ve iş akışlarını çalıştırma.
Uyarı
Databricks, kaynak denetimindeki işlem hatları için varsayılan kurulumu korumanızı önerir. Varsayılan kurulum, kullanıcı arabirimi aracılığıyla ek dosyalar eklendiğinde işlem hattı paketi YAML yapılandırmasını düzenlemeniz gerekmeyecek şekilde yapılandırılır.
Mevcut bir işlem hattını pakete ekleyin
Mevcut bir işlem hattını bir pakete eklemek için, önce çalışma alanında bir paket oluşturun, ardından aşağıdaki sayfalarda açıklandığı gibi işlem hattı YAML tanımını pakete ekleyin:
Databricks CLI kullanarak kaynakları bir pakete geçirme hakkında bilgi için bkz. Mevcut kaynakları pakete geçirme.
Ek kaynaklar
İşlem hatları için ek öğreticiler ve başvuru malzemeleri için bkz. Lakeflow Spark Bildirimli İşlem Hatları.