Menggunakan dbx untuk menyinkronkan file lokal dengan ruang kerja jarak jauh secara real time

Penting

Dokumentasi ini telah dihentikan dan mungkin tidak diperbarui.

Databricks merekomendasikan bahwa alih-alih dbx sync, Anda menggunakan Databricks CLI versi 0,205 atau lebih tinggi, yang mencakup fungsionalitas yang mirip dengan dbx sync melalui perintah databricks sync.

Ekstensi Databricks untuk Visual Studio Code juga menyertakan fungsionalitas yang mirip dengan dbx sync yang diintegrasikan ke dalam IDE Visual Studio Code. Perhatikan bahwa dbx sync dapat menyinkronkan perubahan file dari komputer pengembangan lokal ke DBFS, lokasi ruang kerja, dan folder Databricks Git di ruang kerja Azure Databricks Anda. Ekstensi Databricks untuk Visual Studio Code mendukung sinkronisasi perubahan file hanya untuk file pengguna ruang kerja (/Users) dan folder Databricks Git (/Repos).

Nota

Artikel ini membahas dbx oleh Databricks Labs, yang disediakan as-is dan tidak didukung oleh Databricks melalui saluran dukungan teknis pelanggan. Pertanyaan dan permintaan fitur dapat dikomunikasikan melalui halaman Masalah dari repositori databrickslabs/dbx di GitHub.

Anda dapat melakukan sinkronisasi perubahan real time pada file di komputer pengembangan lokal Anda dengan file yang sesuai di ruang kerja Azure Databricks Anda dengan menggunakan dbx oleh Databricks Labs. File ruang kerja ini dapat berada di DBFS atau di folder Databricks Git.

Sinkronisasi file real time dengan dbx (juga dikenal sebagai dbx sync) berguna dalam skenario pengembangan kode cepat. Misalnya, Anda dapat menggunakan lingkungan pengembangan terintegrasi lokal (IDE) untuk fitur produktivitas seperti penyorotan sintaksis, penyelesaian kode pintar, linting kode, dan pengujian dan penelusuran kesalahan. Anda kemudian dapat segera masuk ke ruang kerja dan menjalankan kode yang diperbarui.

Anda dapat menggunakan dbx sync dengan sendirinya, dengan pekerjaan otomatis, atau dengan IDE.

alur kerja pengembangan dbx sync

Ada dua alur kerja pengembangan untuk dbx sync, satu dengan DBFS dan satu lagi dengan folder Databricks Git.

Alur kerja pengembangan umum dengan dbx sync dan DBFS adalah:

  1. Identifikasi direktori lokal yang berisi file yang ingin Anda sinkronkan ke DBFS.
  2. Identifikasi jalur di DBFS yang Anda inginkan agar direktori lokal Anda disinkronkan dengan (atau biarkan dbx sync membuat jalur DBFS default untuk Anda).
  3. Jalankan dbx sync dbfs untuk menyinkronkan direktori lokal Anda ke jalur DBFS. dbx sync mulai menonton direktori lokal Anda untuk setiap perubahan file.
  4. Buat perubahan pada file di direktori lokal Anda sesuai kebutuhan. dbx sync menerapkan perubahan tersebut ke file yang sesuai di jalur DBFS secara real time.

Alur kerja pengembangan umum dengan folder dbx sync dan Databricks Git adalah:

  1. Buat repositori dengan penyedia Git yang didukung folder Databricks Git, jika Anda belum memiliki repositori yang tersedia.
  2. Kloning repositori Anda ke ruang kerja Azure Databricks Anda.
  3. Kloning repositori Anda ke mesin pengembangan lokal Anda.
  4. Jalankan dbx sync repo untuk mengaitkan repositori kloning lokal Anda dengan repositori kloning ruang kerja Anda. dbx sync mulai menonton direktori lokal Anda untuk setiap perubahan file.
  5. Buat perubahan pada file di repositori kloning lokal Anda sesuai kebutuhan. dbx sync menerapkan perubahan tersebut ke file yang sesuai di folder Databricks Git secara real time.
  6. Dorong file yang diperbarui secara berkala dari repositori kloning di ruang kerja Anda ke penyedia Git Anda, sehingga repositori tetap terbarui dengan penyedia Git Anda.

Penting

dbx sync hanya melakukan sinkronisasi perubahan file satu arah secara real time dari komputer pengembangan lokal Anda ke ruang kerja jarak jauh Anda. Oleh karena itu, Databricks tidak menyarankan Anda memulai perubahan di ruang kerja Azure Databricks Anda ke file yang dipantau oleh dbx sync. Jika Anda harus membuat perubahan file yang diinisiasi oleh ruang kerja, maka Anda juga harus melakukan hal berikut:

  • Untuk perubahan file di DBFS, buat perubahan yang sesuai pada file lokal secara manual.
  • Untuk perubahan file di folder Databricks Git, dorong perubahan file dari ruang kerja Anda ke penyedia Git Anda. Kemudian, pada mesin pengembangan lokal Anda, tarik perubahan file tersebut dari penyedia Git Anda.

Persyaratan

Jika Anda ingin menggunakan dbx sync dengan folder Databricks Git, ruang kerja Azure Databricks Anda harus memenuhi persyaratan berikut:

  • Disarankan untuk membuat kloning dari repositori Anda dengan penyedia Git Anda, meskipun tidak diperlukan.

Pada komputer pengembangan lokal, Anda harus menginstal hal berikut:

  • Python versi 3.8 atau lebih tinggi. Untuk memeriksa apakah Python diinstal, dan untuk memeriksa versi Python yang diinstal, jalankan python --version di terminal atau PowerShell Anda.

    python --version
    

    Nota

    Beberapa penginstalan python mungkin mengharuskan Anda menggunakan python3 alih-alih python. Jika demikian, ganti python dengan python3 di seluruh artikel ini.

  • pip. Untuk memeriksa apakah pip diinstal, dan untuk memeriksa versi pip yang diinstal, jalankan pip --version atau python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Nota

    Beberapa penginstalan pip mungkin mengharuskan Anda menggunakan pip3 alih-alih pip. Jika demikian, ganti pip dengan pip3 di seluruh artikel ini.

  • dbx versi 0.8.0 atau lebih tinggi. Untuk memeriksa apakah dbx diinstal, dan untuk memeriksa versi dbx yang diinstal, jalankan dbx --version. Untuk menginstal dbx dari Indeks Paket Python (PyPI), jalankan pip install dbx atau python -m pip install dbx. (dbx menyertakan sinkronisasi dbx.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Nota

    Untuk informasi selengkapnya tentang dbx, lihat dbx by Databricks Labs dan dokumentasi dbx.

  • Databricks CLI versi 0.18 atau lebih rendah, diatur dengan autentikasi . CLI Databricks warisan (Databricks CLI versi 0.17) secara otomatis diinstal saat Anda menginstal dbx. Autentikasi ini dapat disiapkan pada komputer pengembangan lokal Anda di salah satu atau kedua lokasi berikut:

    • Dalam variabel lingkungan DATABRICKS_HOST dan DATABRICKS_TOKEN (mulai dari versi 0.8.0 CLI Databricks yang lama).
    • Dalam profil konfigurasi Azure Databricks dalam file .databrickscfg Anda.

    dbx mencari kredensial autentikasi di dua lokasi ini, masing-masing. dbx hanya menggunakan kumpulan kredensial pencocokan pertama yang ditemukannya.

    Nota

    Jika Anda menggunakan file .databrickscfg, secara default dbx sync mencari dalam file ini untuk profil konfigurasi bernama DEFAULT. Untuk menentukan profil lain, gunakan opsi --profile saat Anda menjalankan perintah dbx sync, nanti di artikel ini.

    tidak mendukung penggunaan file .netrc untuk autentikasi.

  • Jika Anda ingin menggunakan dbx sync dengan folder Databricks Git, disarankan untuk memiliki klon lokal repositori Anda bersama penyedia Git Anda, meskipun hal tersebut tidak wajib. Untuk melakukan kloning lokal, lihat dokumentasi penyedia Git Anda.

Menggunakan DBFS dengan dbx sync

  1. Dari terminal atau PowerShell di komputer pengembangan lokal Anda, ubah ke direktori yang berisi file yang ingin Anda sinkronkan ke DBFS di ruang kerja Azure Databricks Anda.

  2. Jalankan perintah dbx sync untuk menyinkronkan direktori lokal Anda ke DBFS di ruang kerja Anda dengan langkah-langkah berikut. (Jangan lupa titik (.) di akhir, yang mewakili direktori Anda saat ini.)

    dbx sync dbfs --source .
    

    Tips

    Untuk menentukan direktori sumber yang berbeda, ganti titik (.) dengan jalur yang berbeda.

    Nota

    Jika kesalahan Error: No such command 'sync' muncul, penginstalan dbx Anda kemungkinan sudah kedaluarsa. Untuk memperbaikinya, jalankan pip install --upgrade dbx==<version> atau python -m pip install --upgrade dbx==version, di mana <version> adalah versi terbaru dbx. Nomor versi ini dapat ditemukan di halaman web PyPI untuk dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync mulai menyinkronkan file di direktori lokal Anda saat ini dengan file di jalur DBFS berikut di ruang kerja Anda. dbx sync mengonfirmasi hal ini dengan mencetak Target base path diikuti oleh jalur DBFS, misalnya:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Tips

    Untuk menentukan nama pengguna atau jalur DBFS yang berbeda, tentukan opsi --user dan --dest, saat Anda menjalankan dbx sync.

  4. Buat perubahan pada file lokal Anda, sesuai kebutuhan.

    Penting

    Anda harus tetap membuka terminal atau PowerShell agar dbx sync terus disinkronkan. Jika Anda menutup terminal atau PowerShell, dbx sync berhenti mengawasi perubahan file dan berhenti menyinkronkan. Untuk melanjutkan sinkronisasi perubahan file, ulangi prosedur ini dari awal.

  5. Jika diperlukan, verifikasi perubahan file Anda di jalur sebelumnya di DBFS di ruang kerja Anda.

Gunakan folder Databricks Git dengan dbx sync

  1. Dari terminal atau PowerShell di komputer pengembangan lokal Anda, ubah ke direktori akar yang berisi klon repositori dengan penyedia Git Anda.

  2. Di ruang kerja Azure Databricks Anda, identifikasi nama folder Databricks Git yang ingin Anda sinkronkan repositori kloning lokal Anda. Anda dapat menemukan nama repositori ini dengan mengklik folder Git di bar samping ruang kerja Anda.

  3. Pada komputer pengembangan lokal Anda, jalankan perintah dbx sync untuk menyinkronkan repositori kloning lokal Anda ke folder Databricks Git di ruang kerja Anda sebagai berikut, mengganti <your-repo-name> dengan nama repositori Anda di folder Databricks Git. (Jangan lupa titik (.) di akhir, yang mewakili direktori Anda saat ini.)

    dbx sync repo -d <your-repo-name> --source .
    

    Tips

    Untuk menentukan direktori sumber yang berbeda, ganti titik (.) dengan jalur yang berbeda.

    Nota

    Jika kesalahan Error: No such command 'sync' muncul, penginstalan dbx Anda kemungkinan sudah kedaluarsa. Untuk memperbaikinya, jalankan pip install --upgrade dbx==<version> atau python -m pip install --upgrade dbx==version, di mana <version> adalah versi terbaru dbx. Nomor versi ini dapat ditemukan di halaman web PyPI untuk dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync mulai menyinkronkan file di repositori kloning lokal Anda dengan file di folder Databricks Git di ruang kerja Anda. dbx sync mengonfirmasi hal ini dengan mencetak Target base path diikuti oleh jalur folder Databricks Git, misalnya:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Tips

    Untuk menentukan nama pengguna atau nama repositori yang berbeda, tentukan opsi --user dan --dest-repo, masing-masing saat Anda menjalankan dbx sync.

  5. Buat perubahan pada file lokal Anda, sesuai kebutuhan.

    Penting

    Anda harus tetap membuka terminal atau PowerShell agar dbx sync terus disinkronkan. Jika Anda menutup terminal atau PowerShell, dbx sync berhenti mengawasi perubahan file dan berhenti menyinkronkan. Untuk melanjutkan sinkronisasi perubahan file, ulangi prosedur ini dari awal.

  6. Jika diperlukan, verifikasi perubahan file Anda di folder Databricks Git di ruang kerja Anda.

Sumber daya tambahan