Aracılığıyla paylaş


Yerel dosyaları uzak çalışma alanlarıyla gerçek zamanlı olarak eşitlemek için dbx kullanma

Önemli

Bu belge kullanımdan kaldırılmıştır ve güncelleştirilmeyebilir.

Databricks, yerine dbx synckomutuyla databricks sync benzer dbx sync işlevler içeren Databricks CLI 0.205 veya üzeri sürümlerini kullanmanızı önerir.

Visual Studio Code için Databricks uzantısı, Visual Studio Code IDE ile tümleştirilmişe dbx sync benzer işlevler de içerir. dbx sync Yerel bir geliştirme makinesindeki dosya değişikliklerini Azure Databricks çalışma alanlarınızdaki DBFS, çalışma alanı konumları ve Databricks Git klasörleriyle eşitleyebileceğinizi unutmayın. Visual Studio Code için Databricks uzantısı, dosya değişikliklerini yalnızca çalışma alanı kullanıcısı (/Users) dosyalarına ve Databricks Git klasörlerine (/Repos) eşitlemeyi destekler.

Not

Bu makale dbx , databricks tarafından olduğu gibi sağlanan ve databricks tarafından müşteri teknik destek kanalları aracılığıyla desteklenmeyen Databricks Labs'e yöneliktir. Sorular ve özellik istekleri GitHub'da databrickslabs/dbx deposunun Sorunlar sayfasından iletilebilir.

Databricks Labs dbx kullanarak yerel geliştirme makinenizdeki dosyalarda yapılan değişikliklerin Azure Databricks çalışma alanlarınızdaki karşılık gelen dosyalarıyla gerçek zamanlı eşitlemesini gerçekleştirebilirsiniz. Bu çalışma alanı dosyaları DBFS'de veya Databricks Git klasörlerinde olabilir.

ile dbx gerçek zamanlı dosya eşitlemesi (olarak dbx syncda bilinir), hızlı kod geliştirme senaryolarında yararlıdır. Örneğin, söz dizimi vurgulama, akıllı kod tamamlama, kod lint ve test ve hata ayıklama gibi üretkenlik özellikleri için yerel tümleşik geliştirme ortamını (IDE) kullanabilirsiniz. Ardından hemen çalışma alanınıza gidebilir ve güncelleştirilmiş kodunuzu çalıştırabilirsiniz.

Tek başına, otomatik işlerle veya IDE ile kullanabilirsinizdbx sync.

dbx sync geliştirme iş akışları

için dbx syncbiri DBFS, diğeri databricks Git klasörleri içeren iki geliştirme iş akışı vardır.

ve DBFS ile dbx sync tipik geliştirme iş akışı şöyledir:

  1. DBFS ile eşitlemek istediğiniz dosyaları içeren yerel bir dizin belirleyin.
  2. Yerel dizininizin eşitlemesini istediğiniz DBFS yolunu tanımlayın (veya sizin için varsayılan bir DBFS yolu oluşturmasına izin verin dbx sync ).
  3. Yerel dizininizi DBFS yolu ile eşitlemek için komutunu çalıştırın dbx sync dbfs . dbx sync tüm dosya değişiklikleri için yerel dizininizi izlemeye başlar.
  4. Gerektiğinde yerel dizininizdeki dosyalarda değişiklik yapın. dbx sync bu değişiklikleri DBFS yolundaki ilgili dosyalara gerçek zamanlı olarak uygular.

ve Databricks Git klasörleriyle dbx sync tipik geliştirme iş akışı şöyledir:

  1. Henüz kullanılabilir bir deponuz yoksa Databricks Git klasörlerinin desteklediği bir Git sağlayıcısıyla bir depo oluşturun.
  2. Deponuzu Azure Databricks çalışma alanınıza kopyalayın.
  3. Deponuzu yerel geliştirme makinenize kopyalayın.
  4. Yerel kopyalanmış deponuzu çalışma alanı kopyalanmış deponuzla ilişkilendirmek için komutunu çalıştırın dbx sync repo . dbx sync tüm dosya değişiklikleri için yerel dizininizi izlemeye başlar.
  5. Yerel kopyalanmış deponuzdaki dosyalarda gerektiği gibi değişiklikler yapın. dbx sync bu değişiklikleri Databricks Git klasörlerindeki ilgili dosyalara gerçek zamanlı olarak uygular.
  6. Deponun Git sağlayıcınızla güncel kalması için çalışma alanınızdaki kopyalanmış depodaki güncelleştirilmiş dosyaları düzenli aralıklarla Git sağlayıcınıza gönderin.

Önemli

dbx sync dosya değişikliklerinin yerel geliştirme makinenizden uzak çalışma alanınıza tek yönlü, gerçek zamanlı olarak eşitlenmesini sağlar. Bu nedenle Databricks, Azure Databricks çalışma alanınızda tarafından dbx syncizlenen dosyalarda değişiklik başlatmanızı önermez. Çalışma alanı tarafından başlatılan bu tür dosya değişiklikleri yapmanız gerekiyorsa, aşağıdakileri de yapmanız gerekir:

  • DBFS'deki dosya değişiklikleri için, yerel dosyalarda ilgili değişiklikleri el ile yapın.
  • Databricks Git klasörlerindeki dosya değişiklikleri için, dosya değişikliklerini çalışma alanınızdan Git sağlayıcınıza gönderebilirsiniz. Ardından yerel geliştirme makinenizde bu dosya değişikliklerini Git sağlayıcınızdan çekin.

Gereksinimler

Databricks Git klasörleriyle kullanmak dbx sync istiyorsanız Azure Databricks çalışma alanınız aşağıdaki gereksinimi karşılamalıdır:

Yerel geliştirme makinenizde aşağıdakilerin yüklü olması gerekir:

  • Python sürüm 3.8 veya üzeri. Python'ın yüklü olup olmadığını denetlemek ve yüklü Python sürümünüzü denetlemek için terminalinizde veya PowerShell'de komutunu çalıştırın python --version .

    python --version
    

    Not

    bazı yüklemeleri python yerine pythonkullanmanızı python3 gerektirebilir. Öyleyse, bu makalenin tamamında ile python3 yazınpython.

  • pip. Yüklenip yüklenmediğini pip denetlemek ve yüklü pip sürümünüzü denetlemek için veya python -m pip --versionkomutunu çalıştırınpip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Not

    bazı yüklemeleri pip yerine pipkullanmanızı pip3 gerektirebilir. Öyleyse, bu makalenin tamamında ile pip3 yazınpip.

  • dbx sürüm 0.8.0 veya üzeri. Yüklenip yüklenmediğini dbx denetlemek ve yüklü dbx sürümünüzü denetlemek için komutunu çalıştırın dbx --version. Python Paket Dizini'nden (PyPI) yüklemek dbx için veya python -m pip install dbxkomutunu çalıştırınpip install dbx. (dbx dbx sync içerir.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Not

    hakkında dbxdaha fazla bilgi için bkz . Databricks Labs tarafından dbx ve dbx belgeleri.

  • Databricks CLI sürüm 0.18 veya üzeri, kimlik doğrulaması ile ayarlanır. eski Databricks CLI (Databricks CLI sürüm 0.17) yüklediğinizde dbxotomatik olarak yüklenir. Bu kimlik doğrulaması, yerel geliştirme makinenizde aşağıdaki konumlardan birinde veya her ikisinde ayarlanabilir:

    • DATABRICKS_HOST ve DATABRICKS_TOKEN ortam değişkenleri içinde (eski Databricks CLI sürüm 0.8.0 ile başlayarak).
    • Dosyanızın .databrickscfg içindeki bir Azure Databricks yapılandırma profilinde.

    dbx sırasıyla bu iki konumda kimlik doğrulama kimlik bilgilerini arar. dbx yalnızca bulduğu ilk eşleşen kimlik bilgileri kümesini kullanır.

    Not

    Bir .databrickscfg dosya kullanıyorsanız, dbx sync bu dosyada varsayılan olarak adlı DEFAULT bir yapılandırma profili arar. Farklı bir profil belirtmek için, bu makalenin --profile devamında komutu dbx sync çalıştırırken seçeneğini kullanın.

    dbx kimlik doğrulaması için . netrc dosyasının kullanımını desteklemez.

  • Databricks Git klasörleriyle kullanmak dbx sync istiyorsanız, deponuzun Git sağlayıcınızla yerel bir kopyası önerilir ancak gerekli değildir. Yerel bir kopya gerçekleştirmek için Git sağlayıcınızın belgelerine bakın.

DBFS kullanma dbx sync

  1. Yerel geliştirme makinenizdeki terminalden veya PowerShell'den, Azure Databricks çalışma alanınızdaki DBFS ile eşitlemek istediğiniz dosyaları içeren dizine geçin.

  2. Yerel dizininizi çalışma alanınızdaki DBFS ile eşitlemek için dbx eşitleme komutunu aşağıdaki gibi çalıştırın. (Geçerli dizininizi temsil eden noktanın () sonundaki noktayı (.) unutmayın.)

    dbx sync dbfs --source .
    

    İpucu

    Farklı bir kaynak dizin belirtmek için noktayı (.) farklı bir yolla değiştirin.

    Not

    Hata Error: No such command 'sync' görüntülenirse yükleme dbx işleminiz büyük olasılıkla güncel değildir. Bunu düzeltmek için veya komutunu çalıştırınpip install --upgrade dbx==<version>; burada <version> en son sürümüdürdbx.python -m pip install --upgrade dbx==version Bu sürüm numarası dbx için PyPI web sayfasında bulunabilir.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync geçerli yerel dizininizdeki dosyaları çalışma alanınızdaki aşağıdaki DBFS yolundaki dosyalarla eşitlemeye başlar. dbx sync bunu, yazdırmanın Target base path ardından DBFS yolunu izleyerek onaylar, örneğin:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    İpucu

    Farklı bir kullanıcı adı veya DBFS yolu belirtmek için, komutunu çalıştırdığınızda --userdbx syncsırasıyla ve --dest seçeneklerini belirtin.

  4. Gerektiğinde yerel dosyalarınızda değişiklik yapın.

    Önemli

    Eşitlemeye devam etmek için dbx sync terminalinizi veya PowerShell'i açık tutmalısınız. Terminalinizi veya PowerShell'inizi kapatırsanız, dbx sync dosya değişikliklerini izlemeyi durdurur ve eşitlemeyi durdurur. Dosya değişikliği eşitlemesini sürdürmek için bu yordamı baştan tekrarlayın.

  5. Gerektiğinde, çalışma alanınızdaki DBFS'de önceki yolda dosya değişikliklerinizi doğrulayın.

Databricks Git klasörlerini dbx sync

  1. Yerel geliştirme makinenizdeki terminalden veya PowerShell'den Git sağlayıcınızla deponun kopyasını içeren kök dizine geçin.

  2. Azure Databricks çalışma alanınızda, yerel kopyalanmış deponuzu eşitlemek istediğiniz Databricks Git klasörünün adını belirleyin. Çalışma alanınızın kenar çubuğunda Git klasörleri'ne tıklayarak bu depo adını bulabilirsiniz.

  3. Yerel geliştirme makinenizde dbx eşitleme komutunu çalıştırarak yerel kopyalanmış deponuzu aşağıdaki gibi çalışma alanınızdaki Databricks Git klasörleriyle eşitleyin ve yerine <your-repo-name> Databricks Git klasörlerindeki deponuzun adını yazın. (Geçerli dizininizi temsil eden noktanın () sonundaki noktayı (.) unutmayın.)

    dbx sync repo -d <your-repo-name> --source .
    

    İpucu

    Farklı bir kaynak dizin belirtmek için noktayı (.) farklı bir yolla değiştirin.

    Not

    Hata Error: No such command 'sync' görüntülenirse yükleme dbx işleminiz büyük olasılıkla güncel değildir. Bunu düzeltmek için veya komutunu çalıştırınpip install --upgrade dbx==<version>; burada <version> en son sürümüdürdbx.python -m pip install --upgrade dbx==version Bu sürüm numarası dbx için PyPI web sayfasında bulunabilir.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync yerel kopyalanmış deponuzdaki dosyaları çalışma alanınızdaki Databricks Git klasörlerindeki dosyalarla eşitlemeye başlar. dbx sync bunu, yazdırarak Target base path ve ardından Databricks Git klasörleri yolunu izleyerek onaylar, örneğin:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    İpucu

    Farklı bir kullanıcı adı veya depo adı belirtmek için, komutunu çalıştırdığınızda --userdbx syncsırasıyla ve --dest-repo seçeneklerini belirtin.

  5. Gerektiğinde yerel dosyalarınızda değişiklik yapın.

    Önemli

    Eşitlemeye devam etmek için dbx sync terminalinizi veya PowerShell'i açık tutmalısınız. Terminalinizi veya PowerShell'inizi kapatırsanız, dbx sync dosya değişikliklerini izlemeyi durdurur ve eşitlemeyi durdurur. Dosya değişikliği eşitlemesini sürdürmek için bu yordamı baştan tekrarlayın.

  6. Gerektiğinde, çalışma alanınızdaki Databricks Git klasörlerindeki dosya değişikliklerinizi doğrulayın.

Ek kaynaklar