Databricks Git klasörleriyle CI/CD

Kaynak denetiminde çalışmayı sürdürmek ve bunu veri mühendisliği iş akışlarınızla tümleştirmek için CI/CD akışlarınızda Databricks Git klasörlerini kullanın. Azure Databricks ile CI/CD'ye daha geniş bir genel bakış için bkz. Azure Databricks'te CI/CD.

Kullanım akışları

Git klasörleri için otomasyon, Azure Databricks işlerinden Git işlemlerini otomatikleştirmek için ilk klasör yapılandırmasına ve Azure Databricks Repos REST API'sine odaklanır. Otomasyon oluşturmadan önce:

  • Kullanacağınız uzak Git depolarını gözden geçirin.
  • Her aşama (geliştirme, entegrasyon, hazırlık, üretim) için doğru depoları ve dalları seçin.

Üç ana akış vardır:

  • Yönetici akışı: Azure Databricks çalışma alanı yöneticisi, üretim Git klasörlerini barındırmak için üst düzey klasörler oluşturur. Yönetici, her klasörü oluştururken bir depoyu ve dalı klonlar ve bunları amaca göre adlandırabilir (örneğin, "Üretim", "Test" veya "Hazırlama"). Bkz. Üretim Git klasörü oluşturma.
  • Kullanıcı akışı: Kullanıcı, uzak depodan altında /Workspace/Users/<email>/ bir Git klasörü oluşturur, kullanıcıya özgü bir dalda çalışır ve yürütmeleri uzak depoya iletir. Bkz . Git klasörlerini kullanarak işbirliği yapma.
  • Birleştirme akışı: Git klasöründen gönderildikten sonra kullanıcılar çekme isteklerini (PR) açar. Bir PR (çekme isteği) birleştirildiğinde, otomasyon Azure Databricks Repos API'sini kullanarak değişiklikleri üretim Git klasörlerine çekebilir.

Git klasörlerini kullanarak işbirliği yapma

Değişiklikleri Azure Databricks kullanıcı arabiriminden çekerek ve göndererek başkalarıyla işbirliği yapın. İşleri toparlamak için yaygın bir yöntem, bir özellik veya geliştirme dalı kullanmaktır.

Özellik dalı üzerinde işbirliği yapmak için:

  1. Mevcut Git deponuzu Databricks çalışma alanınıza kopyalayın.
  2. Git klasörleri kullanıcı arabiriminde, ana daldan bir özellik dalı oluşturun . Gerektiğinde birden çok özellik dalı kullanabilirsiniz.
  3. Azure Databricks not defterlerini ve depodaki diğer dosyaları düzenleyin.
  4. Değişikliklerinizi işleyin ve uzak depoya gönderin.
  5. Diğer katkıda bulunanlar depoyu kendi kullanıcı klasörüne kopyalayabilir. Bir dalda çalışır, Git klasöründeki not defterlerini ve dosyaları değiştirir, ardından uzaktaki depoya commit edip push ederler.
  6. Hazır olduğunuzda Git sağlayıcınızda bir çekme isteği oluşturun, ekibinizle birlikte gözden geçirin ve dağıtım dalı ile birleştirin.

Uyarı

Databricks, her geliştiricinin kendi dallarında çalışmasını önerir. Birleştirme çakışmalarını çözmek için bkz. Birleştirme çakışmalarını çözme.

CI/CD yaklaşımı seçme

Databricks, CI/CD iş akışlarını paketlemek ve dağıtmak için Bildirim temelli Otomasyon Paketleri önerir. Çalışma alanına yalnızca kod dağıtmayı tercih ediyorsanız, bunun yerine bir üretim Git klasörü kullanabilirsiniz. Daha geniş bir CI/CD'ye genel bakış için bkz. Azure Databricks'te CI/CD.

Tavsiye

Paketler kullanarak kaynaktaki işler ve işlem hatları gibi kaynakları tanımlayın, sonra bunları çalışma alanı Git klasörlerinde oluşturun, dağıtın ve yönetin. Bkz. Çalışma alanında paketler üzerinde işbirliği yapma.

Üretim Git klasörü oluşturma

Üretim Git klasörleri, altındaki /Workspace/Users/kullanıcı düzeyi Git klasörlerinden farklıdır. Kullanıcı düzeyi klasörler, kullanıcıların geliştirmeler yaptığı ve gönderdiği yerel çalışma alanlarıdır. Üretim Git klasörleri, kullanıcı klasörleri dışındaki yöneticiler tarafından oluşturulur, dağıtım dallarını tutar ve otomatik iş akışlarının kaynağıdır. Bunlar, PR'ler dağıtım dallarında birleştirildiğinde yalnızca otomasyon tarafından güncellenmelidir. Üretim Git klasörlerini çoğu kullanıcı için sadece çalıştırma erişimi ile kısıtlayın. Yalnızca yöneticilerin ve Azure Databricks hizmet sorumlularının bunları düzenlemesine izin verin.

Git üretim klasörleri uzak bir depodaki ana dala eşlenir.

Üretim Git klasörü oluşturmak için:

  1. Dağıtım için Git deposunu ve dalını seçin.

  2. Bir hizmet sorumlusu oluşturun veya kullanın ve bu depoya erişebilmesi için git kimlik bilgilerini yapılandırın.

  3. Çalışma Alanı altındaki bir alt klasörde depo ve dal için bir Azure Databricks Git klasörü oluşturun (örneğin, proje, ekip veya aşama başına).

  4. Klasörü seçin, ardından Paylaş'ı seçin (veya Çalışma Alanı ağacında Paylaş 'a (İzinler) sağ tıklayın).

  5. İzin düzeylerini atama:

    • İş akışlarını çalıştırması gereken proje kullanıcıları için Çalıştırılabilir.
    • Bu klasörde otomasyon çalıştıran herhangi bir Azure Databricks hizmet sorumlusu için Çalıştırılabilir.
    • İsteğe bağlı olarak tüm çalışma alanı kullanıcılarının bulma ve paylaşımı desteklemesi için Görüntüleyebilir .

    Git klasörünü paylaşma modal ileti penceresi.

  6. Ekle'yi tıklatın.

  7. Aşağıdaki seçeneklerden birini kullanarak üretim Git klasörünü uzak dalla uyumlu tutun:

    • Dış CI/CD: PR dağıtım dalına birleştirildiğinde en son commit'leri çekmek için GitHub Actions gibi araçları kullanın. Örnek için bkz. Git klasörünü güncelleştiren ci/CD iş akışı çalıştırma.
    • Zamanlanmış iş: Dış CI/CD kullanılamıyorsa Git klasörünü güncelleştiren zamanlanmış bir iş çalıştırın. Zamanlamaya göre çalışan basit bir not defteri kullanın:
    from databricks.sdk import WorkspaceClient
    w = WorkspaceClient()
    w.repos.update(w.workspace.get_status(path="<git-folder-workspace-full-path>").object_id, branch="<branch-name>")
    

Repos API'siyle otomatikleştirme hakkında daha fazla bilgi için Repos için Databricks REST API belgelerine bakın.