Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini mencakup batas ukuran, fitur yang didukung, pertimbangan keamanan, dan perilaku CI/CD untuk folder Databricks Git. Untuk batas sumber daya Databricks umum, lihat Batas sumber daya. Untuk mempelajari tentang jenis aset yang didukung di folder Git, lihat Jenis aset yang didukung di folder Git.
Batas file dan repositori
Azure Databricks tidak memberlakukan batasan ukuran repositori. Namun, batas berikut berlaku:
- Cabang kerja dibatasi hingga 1 GB.
- Anda tidak dapat melihat file yang lebih besar dari 10 MB di antarmuka pengguna Azure Databricks.
- Setiap operasi Git mendukung memori hingga 2 GB dan penulisan disk 4 GB.
- File ruang kerja individual memiliki batas ukuran terpisah. Lihat Batasan.
Databricks merekomendasikan untuk menyimpan jumlah total aset dan file ruang kerja di bawah 20.000.
Karena batas berlaku per operasi, kloning repositori 5 GB gagal, tetapi mengkloning repositori 3 GB dan kemudian menambahkan 2 GB berhasil. Jika repositori Anda melebihi batas ini, Anda mungkin menerima kesalahan atau batas waktu selama kloning, meskipun operasi mungkin masih selesai di latar belakang.
Untuk bekerja dengan repositori yang lebih besar, coba perintah sparse checkout atau Git CLI. Untuk menulis file sementara yang tidak bertahan setelah penghentian kluster, gunakan $TEMPDIR. Ini menghindari melebihi batas ukuran cabang dan menawarkan performa yang lebih baik daripada menulis ke direktori kerja (CWD) di sistem file ruang kerja. Lihat Apakah saya harus menulis file sementara di Azure Databricks?.
Cabang lokal dapat tetap berada di folder Git terkait hingga 30 hari setelah cabang jarak jauh dihapus. Untuk menghapus cabang lokal sepenuhnya, hapus repositori.
Mengurangi ukuran repositori
Jika repositori Anda melebihi batas ukuran karena file besar, menambahkannya ke .gitignore tidak akan mengurangi ukuran repositori. File yang sudah berkomitmen untuk Git tetap berada dalam riwayat repositori bahkan ketika ditambahkan ke .gitignore.
Untuk mengurangi ukuran repositori:
- Gunakan alat Git seperti
git filter-repoatau Repo-Cleaner BFG untuk menghapus file besar dari riwayat penerapan. Ini mengubah riwayat dan memerlukan pengiriman paksa ke repositori jarak jauh Anda. - Kloning hanya direktori tertentu. Lihat Mengonfigurasi mode checkout jarang.
- Pindahkan kode yang tidak terkait ke repositori terpisah.
Untuk informasi selengkapnya, lihat Menyewa data sensitif dari repositori dalam dokumentasi GitHub.
Dukungan monorepo
Databricks merekomendasikan untuk tidak membuat folder Git yang didukung oleh monorepos—repositori Git organisasi tunggal besar dengan ribuan file di banyak proyek. Mengkloning monorepo dapat melampaui batas memori folder Git dan batas disk, serta memperlambat operasi Git. Jika repositori Anda berisi beberapa proyek, pertimbangkan untuk memisahkannya atau menggunakan cek keluar jarang untuk membatasi direktori mana yang dikloning. Lihat Mengonfigurasi mode checkout jarang.
Konfigurasi
Tidak semua fitur Git standar berfungsi di folder Git, dan konten disimpan secara berbeda dari dalam kloning lokal. Topik berikut menjelaskan bagaimana penyimpanan bekerja, server mana yang didukung, dan bagaimana fitur seperti .gitignore dan submodul berfungsi.
Penyimpanan konten repositori
Azure Databricks mengkloning sementara konten repositori ke disk di sarana kontrol. Database sarana kontrol menyimpan file notebook seperti yang ada di ruang kerja utama. File non-buku catatan disimpan di disk hingga 30 hari.
Server Git lokal dan yang dihost sendiri
Folder Databricks Git mendukung GitHub Enterprise, Bitbucket Server, Azure DevOps Server, dan GitLab Self-managed jika server dapat diakses internet. Lihat Server Proksi Git untuk folder Git untuk integrasi lokal.
Untuk berintegrasi dengan Server Bitbucket, GitHub Enterprise Server, atau instans terkelola mandiri GitLab yang tidak dapat diakses internet, hubungi tim akun Azure Databricks Anda.
Jenis aset yang didukung
Untuk detail tentang jenis aset yang didukung, lihat Jenis aset yang didukung di folder Git.
Dukungan file .gitignore
Folder Git mendukung file .gitignore. Untuk mencegah Git melacak file, tambahkan nama file (termasuk ekstensi) ke .gitignore file. Buat atau gunakan file yang sudah ada yang dikloning dari repositori jarak jauh Anda.
.gitignore hanya berfungsi untuk file yang tidak terlacak. Menambahkan file yang sudah di-commit ke .gitignore tidak menghapusnya dari riwayat di Git atau mengurangi ukuran repositori file. Untuk menghapus file yang telah di-commit, lihat Mengurangi ukuran repositori.
Dukungan submodul Git
Folder Git standar tidak mendukung submodul Git, tetapi folder Git dengan akses Git CLI dapat menggunakannya. Lihat Menggunakan perintah Git CLI (Beta).
dukungan Azure Data Factory
Azure Data Factory (ADF) mendukung folder Git.
Manajemen sumber
Beberapa operasi bekerja secara berbeda di folder Git daripada dalam alur kerja Git standar, terutama di sekitar notebook dan penghapusan cabang.
Dashboard notebook dan perubahan cabang
Azure Databricks buku catatan format sumber tidak menyimpan informasi dasbor.
Untuk mempertahankan dasbor, ubah format buku catatan menjadi .ipynb (format Jupyter), yang mendukung definisi dasbor dan visualisasi secara default. Untuk menyimpan data visualisasi, simpan buku catatan dengan output.
Lihat Mengelola penerapan output notebook IPYNB.
Dukungan penggabungan cabang
Folder Git mendukung penggabungan cabang. Anda juga dapat membuat permintaan pull dan menggabungkan melalui penyedia Git Anda.
Menghapus cabang
Untuk menghapus cabang, Anda harus bekerja di penyedia Git Anda.
Perioritas dependensi Python
Python library dalam folder Git diprioritaskan daripada library yang disimpan di tempat lain. Misalnya, jika pustaka diinstal pada sumber daya komputasi Databricks, dan pustaka dengan nama yang sama ada di folder Git, maka pustaka dari folder Git tersebut akan diimpor. Lihat presedensi pustaka Python.
Keamanan, autentikasi, dan token
Azure Databricks menyimpan kredensial Git di sarana kontrol, bukan di lingkungan lokal Anda. Topik berikut membahas bagaimana konten folder Git dienkripsi, cara token disimpan dan diaudit, dan apa yang harus dilakukan jika Anda mengalami masalah autentikasi.
Masalah dengan kebijakan akses bersyarat (CAP) untuk Microsoft Entra ID
Anda mungkin mendapatkan kesalahan "akses ditolak" saat mengkloning repositori jika:
- Ruang kerja Azure Databricks Anda menggunakan Azure DevOps dengan autentikasi Microsoft Entra ID.
- Anda telah mengaktifkan kebijakan akses bersyarkat di Azure DevOps dan kebijakan akses bersyarkat Microsoft Entra ID.
Untuk mengatasi hal ini, tambahkan pengecualian ke kebijakan akses kondisional (CAP) untuk Azure Databricks alamat IP dan pengguna.
Untuk informasi selengkapnya, lihat Kebijakan akses bersyarah.
Daftar Izin menggunakan token Microsoft Entra ID
Jika Anda menggunakan Microsoft Entra ID untuk mengautentikasi dengan Azure DevOps, daftar izin default membatasi URL Git untuk:
dev.azure.comvisualstudio.com
Untuk informasi selengkapnya, lihat Daftar izin URL Git.
Enkripsi folder Git
Azure Databricks mengenkripsi konten folder Git menggunakan kunci default. Kunci yang dikelola pelanggan hanya didukung untuk mengenkripsi kredensial Git.
penyimpanan dan akses token GitHub
- Sarana kontrol Azure Databricks menyimpan token autentikasi. Karyawan hanya dapat mengaksesnya melalui kredensial sementara yang diaudit.
- Azure Databricks mencatat pembuatan dan penghapusan token, tetapi tidak penggunaannya. Pengelogan operasi Git memungkinkan Anda mengaudit penggunaan token oleh aplikasi Azure Databricks.
- GitHub Enterprise mengaudit penggunaan token. Layanan Git lainnya mungkin juga menawarkan audit server.
Penandatanganan penerapan GPG
Folder Git tidak mendukung penandatanganan GPG untuk komit.
Dukungan SSH
Folder Git hanya mendukung HTTPS, bukan SSH.
Azure DevOps kesalahan lintas penyewa
Saat menyambungkan ke DevOps dalam penyewaan terpisah, Anda mungkin melihat Unable to parse credentials from Azure Active Directory account. Jika proyek Azure DevOps berada dalam penyewaan Microsoft Entra ID yang berbeda dari Azure Databricks, gunakan token akses Azure DevOps. Lihat Token akses pribadi.
CI/CD dan MLOps
Jika Anda menjalankan pekerjaan terhadap file di folder Git, ketahui bagaimana operasi Git dapat memengaruhi status notebook dan eksperimen MLflow dengan cara yang mungkin tidak jelas.
Perubahan masuk menghapus status buku catatan
Operasi Git yang mengubah kode sumber notebook mengakibatkan hilangnya status buku catatan, termasuk output sel, komentar, riwayat versi, dan widget. Misalnya, git pull dapat mengubah kode sumber buku catatan, mengharuskan folder Git menimpa buku catatan yang sudah ada. Operasi seperti git commit, push, atau membuat cabang baru tidak memengaruhi kode sumber dan mempertahankan status notebook.
Penting
Eksperimen MLflow tidak berfungsi di folder Git dengan Databricks Runtime 14.x atau yang lebih lama.
Eksperimen MLflow di folder Git
Ada dua jenis eksperimen MLflow: ruang kerja dan buku catatan. Lihat Mengatur jalannya pelatihan dengan eksperimen MLflow.
Eksperimen Workspace: Anda tidak dapat membuat eksperimen MLflow di Workspace di folder Git. Log MLflow berjalan ke eksperimen yang dibuat di folder ruang kerja reguler. Untuk kolaborasi multi-pengguna, gunakan folder ruang kerja bersama.
Eksperimen notebook: Anda dapat membuat eksperimen notebook di folder Databricks Git. Jika Anda memasukkan buku catatan Anda ke dalam kontrol sumber sebagai
.ipynbfile, MLflow akan mencatat log ke dalam eksperimen yang dibuat secara otomatis. Kontrol sumber tidak memeriksa eksperimen atau eksekusinya. Lihat Membuat eksperimen buku catatan.
Mencegah kehilangan data dalam eksperimen MLflow
Eksperimen Notebook MLflow yang dibuat menggunakan Pekerjaan Lakeflow dengan kode sumber di repositori jarak jauh disimpan dalam penyimpanan sementara. Eksperimen ini tetap ada pada awalnya setelah alur kerja dieksekusi, tetapi berisiko terhapus selama pembersihan yang dijadwalkan. Databricks merekomendasikan penggunaan eksperimen MLflow di ruang kerja dengan tugas dan sumber Git jarak jauh.
Peringatan
Beralih ke cabang yang tidak berisi notebook dapat mengakibatkan hilangnya data eksperimen MLflow yang terkait. Kerugian ini menjadi permanen jika Anda tidak mengunjungi cabang sebelumnya dalam waktu 30 hari.
Untuk memulihkan data eksperimen yang hilang sebelum kedaluwarsa 30 hari, pulihkan nama buku catatan asli, buka buku catatan, dan klik
di panel kanan. Ini memicu mlflow.get_experiment_by_name() serta mengembalikan dan menjalankan eksperimen. Setelah 30 hari, Azure Databricks menghapus secara menyeluruh eksperimen MLflow terisolasi untuk kepatuhan GDPR.
Untuk mencegah kehilangan data, hindari mengganti nama notebook di repositori. Jika Anda mengganti nama buku catatan, segera klik ikon eksperimen di panel kanan.
Menjalankan pekerjaan selama operasi Git
Selama operasi Git, beberapa notebook mungkin diperbarui sementara yang lain belum, menyebabkan perilaku yang tidak dapat diprediksi.
Misalnya, jika notebook A memanggil notebook Z menggunakan %run, dan sebuah pekerjaan dimulai selama operasi Git, pekerjaan tersebut mungkin menjalankan notebook A terbaru dengan notebook Z yang lebih lama. Proses mungkin gagal atau menjalankan buku catatan dari commit yang berbeda.
Untuk menghindari hal ini, konfigurasikan tugas pekerjaan untuk menggunakan penyedia Git Anda sebagai sumber alih-alih jalur ruang kerja. Lihat Penggunaan Git dengan Tugas Lakeflow.
Langkah berikutnya
- Mengatasi kesalahan folder Git
- Membuat dan mengelola folder Git
- Persiapkan integrasi Git untuk folder Git