Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Dokumentasi ini telah dihentikan dan mungkin tidak diperbarui.
Databricks merekomendasikan bahwa alih-alih dbx sync, Anda menggunakan Databricks CLI versi 0,205 atau lebih tinggi, yang mencakup fungsionalitas yang mirip dengan dbx sync melalui perintah databricks sync.
Ekstensi Databricks untuk Visual Studio Code juga menyertakan fungsionalitas yang mirip dengan dbx sync yang diintegrasikan ke dalam IDE Visual Studio Code. Perhatikan bahwa dbx sync dapat menyinkronkan perubahan file dari komputer pengembangan lokal ke DBFS, lokasi ruang kerja, dan folder Databricks Git di ruang kerja Azure Databricks Anda. Ekstensi Databricks untuk Visual Studio Code mendukung sinkronisasi perubahan file hanya untuk file pengguna ruang kerja (/Users) dan folder Databricks Git (/Repos).
Nota
Artikel ini membahas dbx oleh Databricks Labs, yang disediakan as-is dan tidak didukung oleh Databricks melalui saluran dukungan teknis pelanggan. Pertanyaan dan permintaan fitur dapat dikomunikasikan melalui halaman Masalah
Anda dapat melakukan sinkronisasi perubahan real time pada file di komputer pengembangan lokal Anda dengan file yang sesuai di ruang kerja Azure Databricks Anda dengan menggunakan dbx oleh Databricks Labs. File ruang kerja ini dapat berada di DBFS
Sinkronisasi file real time dengan dbx (juga dikenal sebagai dbx sync) berguna dalam skenario pengembangan kode cepat. Misalnya, Anda dapat menggunakan lingkungan pengembangan terintegrasi lokal (IDE) untuk fitur produktivitas seperti penyorotan sintaksis, penyelesaian kode pintar, linting kode, dan pengujian dan penelusuran kesalahan. Anda kemudian dapat segera masuk ke ruang kerja dan menjalankan kode yang diperbarui.
Anda dapat menggunakan dbx sync dengan sendirinya, dengan pekerjaan otomatis, atau dengan IDE.
alur kerja pengembangan dbx sync
Ada dua alur kerja pengembangan untuk dbx sync, satu dengan DBFS dan satu lagi dengan folder Databricks Git.
Alur kerja pengembangan umum dengan dbx sync dan DBFS adalah:
- Identifikasi direktori lokal yang berisi file yang ingin Anda sinkronkan ke DBFS.
- Identifikasi jalur di DBFS yang Anda inginkan agar direktori lokal Anda disinkronkan dengan (atau biarkan
dbx syncmembuat jalur DBFS default untuk Anda). - Jalankan
dbx sync dbfsuntuk menyinkronkan direktori lokal Anda ke jalur DBFS.dbx syncmulai menonton direktori lokal Anda untuk setiap perubahan file. - Buat perubahan pada file di direktori lokal Anda sesuai kebutuhan.
dbx syncmenerapkan perubahan tersebut ke file yang sesuai di jalur DBFS secara real time.
Alur kerja pengembangan umum dengan folder dbx sync dan Databricks Git adalah:
- Buat repositori dengan penyedia Git yang didukung folder Databricks Git, jika Anda belum memiliki repositori yang tersedia.
- Kloning repositori Anda ke ruang kerja Azure Databricks Anda.
- Kloning repositori Anda ke mesin pengembangan lokal Anda.
- Jalankan
dbx sync repountuk mengaitkan repositori kloning lokal Anda dengan repositori kloning ruang kerja Anda.dbx syncmulai menonton direktori lokal Anda untuk setiap perubahan file. - Buat perubahan pada file di repositori kloning lokal Anda sesuai kebutuhan.
dbx syncmenerapkan perubahan tersebut ke file yang sesuai di folder Databricks Git secara real time. - Dorong file yang diperbarui secara berkala dari repositori kloning di ruang kerja Anda ke penyedia Git Anda, sehingga repositori tetap terbarui dengan penyedia Git Anda.
Penting
dbx sync hanya melakukan sinkronisasi perubahan file satu arah secara real time dari komputer pengembangan lokal Anda ke ruang kerja jarak jauh Anda. Oleh karena itu, Databricks tidak menyarankan Anda memulai perubahan di ruang kerja Azure Databricks Anda ke file yang dipantau oleh dbx sync. Jika Anda harus membuat perubahan file yang diinisiasi oleh ruang kerja, maka Anda juga harus melakukan hal berikut:
- Untuk perubahan file di DBFS, buat perubahan yang sesuai pada file lokal secara manual.
- Untuk perubahan file di folder Databricks Git, dorong perubahan file dari ruang kerja Anda ke penyedia Git Anda. Kemudian, pada mesin pengembangan lokal Anda, tarik perubahan file tersebut dari penyedia Git Anda.
Persyaratan
Jika Anda ingin menggunakan dbx sync dengan folder Databricks Git, ruang kerja Azure Databricks Anda harus memenuhi persyaratan berikut:
- Disarankan untuk membuat kloning dari repositori Anda dengan penyedia Git Anda, meskipun tidak diperlukan.
Pada komputer pengembangan lokal, Anda harus menginstal hal berikut:
Python versi 3.8 atau lebih tinggi. Untuk memeriksa apakah Python diinstal, dan untuk memeriksa versi Python yang diinstal, jalankan
python --versiondi terminal atau PowerShell Anda.python --versionNota
Beberapa penginstalan
pythonmungkin mengharuskan Anda menggunakanpython3alih-alihpython. Jika demikian, gantipythondenganpython3di seluruh artikel ini.pip. Untuk memeriksa apakah
pipdiinstal, dan untuk memeriksa versipipyang diinstal, jalankanpip --versionataupython -m pip --version.pip --version # Or... python -m pip --versionNota
Beberapa penginstalan
pipmungkin mengharuskan Anda menggunakanpip3alih-alihpip. Jika demikian, gantipipdenganpip3di seluruh artikel ini.dbx versi 0.8.0 atau lebih tinggi. Untuk memeriksa apakah
dbxdiinstal, dan untuk memeriksa versidbxyang diinstal, jalankandbx --version. Untuk menginstaldbxdari Indeks Paket Python (PyPI), jalankanpip install dbxataupython -m pip install dbx. (dbxmenyertakan sinkronisasi dbx.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbxNota
Untuk informasi selengkapnya tentang
dbx, lihat dbx by Databricks Labs dan dokumentasi dbx.Databricks CLI versi 0.18 atau lebih rendah, diatur dengan autentikasi . CLI Databricks warisan (Databricks CLI versi 0.17) secara otomatis diinstal saat Anda menginstal
dbx. Autentikasi ini dapat disiapkan pada komputer pengembangan lokal Anda di salah satu atau kedua lokasi berikut:- Dalam variabel lingkungan
DATABRICKS_HOSTdanDATABRICKS_TOKEN(mulai dari versi 0.8.0 CLI Databricks yang lama). - Dalam profil konfigurasi Azure Databricks dalam file
.databrickscfgAnda.
dbxmencari kredensial autentikasi di dua lokasi ini, masing-masing.dbxhanya menggunakan kumpulan kredensial pencocokan pertama yang ditemukannya.Nota
Jika Anda menggunakan file
.databrickscfg, secara defaultdbx syncmencari dalam file ini untuk profil konfigurasi bernamaDEFAULT. Untuk menentukan profil lain, gunakan opsi--profilesaat Anda menjalankan perintahdbx sync, nanti di artikel ini.tidak mendukung penggunaan file .netrc untuk autentikasi. - Dalam variabel lingkungan
Jika Anda ingin menggunakan
dbx syncdengan folder Databricks Git, disarankan untuk memiliki klon lokal repositori Anda bersama penyedia Git Anda, meskipun hal tersebut tidak wajib. Untuk melakukan kloning lokal, lihat dokumentasi penyedia Git Anda.
Menggunakan DBFS dengan dbx sync
Dari terminal atau PowerShell di komputer pengembangan lokal Anda, ubah ke direktori yang berisi file yang ingin Anda sinkronkan ke DBFS di ruang kerja Azure Databricks Anda.
Jalankan perintah dbx sync untuk menyinkronkan direktori lokal Anda ke DBFS di ruang kerja Anda dengan langkah-langkah berikut. (Jangan lupa titik (
.) di akhir, yang mewakili direktori Anda saat ini.)dbx sync dbfs --source .Tips
Untuk menentukan direktori sumber yang berbeda, ganti titik (
.) dengan jalur yang berbeda.Nota
Jika kesalahan
Error: No such command 'sync'muncul, penginstalandbxAnda kemungkinan sudah kedaluarsa. Untuk memperbaikinya, jalankanpip install --upgrade dbx==<version>ataupython -m pip install --upgrade dbx==version, di mana<version>adalah versi terbarudbx. Nomor versi ini dapat ditemukan di halaman web PyPI untuk dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx syncmulai menyinkronkan file di direktori lokal Anda saat ini dengan file di jalur DBFS berikut di ruang kerja Anda.dbx syncmengonfirmasi hal ini dengan mencetakTarget base pathdiikuti oleh jalur DBFS, misalnya:/tmp/users/<your-Databricks-username>/<local-directory-name>Tips
Untuk menentukan nama pengguna atau jalur DBFS yang berbeda, tentukan opsi
--userdan--dest, saat Anda menjalankandbx sync.Buat perubahan pada file lokal Anda, sesuai kebutuhan.
Penting
Anda harus tetap membuka terminal atau PowerShell agar
dbx syncterus disinkronkan. Jika Anda menutup terminal atau PowerShell,dbx syncberhenti mengawasi perubahan file dan berhenti menyinkronkan. Untuk melanjutkan sinkronisasi perubahan file, ulangi prosedur ini dari awal.Jika diperlukan, verifikasi perubahan file Anda di jalur sebelumnya di DBFS di ruang kerja Anda.
Gunakan folder Databricks Git dengan dbx sync
Dari terminal atau PowerShell di komputer pengembangan lokal Anda, ubah ke direktori akar yang berisi klon repositori dengan penyedia Git Anda.
Di ruang kerja Azure Databricks Anda, identifikasi nama folder Databricks Git yang ingin Anda sinkronkan repositori kloning lokal Anda. Anda dapat menemukan nama repositori ini dengan mengklik folder Git di bar samping ruang kerja Anda.
Pada komputer pengembangan lokal Anda, jalankan perintah dbx sync untuk menyinkronkan repositori kloning lokal Anda ke folder Databricks Git di ruang kerja Anda sebagai berikut, mengganti
<your-repo-name>dengan nama repositori Anda di folder Databricks Git. (Jangan lupa titik (.) di akhir, yang mewakili direktori Anda saat ini.)dbx sync repo -d <your-repo-name> --source .Tips
Untuk menentukan direktori sumber yang berbeda, ganti titik (
.) dengan jalur yang berbeda.Nota
Jika kesalahan
Error: No such command 'sync'muncul, penginstalandbxAnda kemungkinan sudah kedaluarsa. Untuk memperbaikinya, jalankanpip install --upgrade dbx==<version>ataupython -m pip install --upgrade dbx==version, di mana<version>adalah versi terbarudbx. Nomor versi ini dapat ditemukan di halaman web PyPI untuk dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==versiondbx syncmulai menyinkronkan file di repositori kloning lokal Anda dengan file di folder Databricks Git di ruang kerja Anda.dbx syncmengonfirmasi hal ini dengan mencetakTarget base pathdiikuti oleh jalur folder Databricks Git, misalnya:/Repos/<your-Databricks-username>/<your-repo-name>Tips
Untuk menentukan nama pengguna atau nama repositori yang berbeda, tentukan opsi
--userdan--dest-repo, masing-masing saat Anda menjalankandbx sync.Buat perubahan pada file lokal Anda, sesuai kebutuhan.
Penting
Anda harus tetap membuka terminal atau PowerShell agar
dbx syncterus disinkronkan. Jika Anda menutup terminal atau PowerShell,dbx syncberhenti mengawasi perubahan file dan berhenti menyinkronkan. Untuk melanjutkan sinkronisasi perubahan file, ulangi prosedur ini dari awal.Jika diperlukan, verifikasi perubahan file Anda di folder Databricks Git di ruang kerja Anda.
Sumber daya tambahan
- dokumentasi
dbx - dokumentasi sinkronisasi dbx
- repositori databrickslabs/dbx di GitHub
- batasan dbx