Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pelajari dan konfigurasikan proksi server Git untuk folder Databricks Git, layanan yang dapat dikonfigurasi yang memungkinkan Anda untuk memproksi perintah Git dari folder Git ruang kerja Databricks ke repositori Git lokal Anda yang dilayani oleh GitHub Enterprise Server, Azure DevOps Server, Bitbucket Server, dan GitLab dikelola sendiri.
Catatan
Pengguna dengan proksi server Databricks Git yang dikonfigurasi selama Fase Pratinjau harus memperbarui izin kluster mereka untuk kinerja optimal. Lihat Menghapus izin CAN_ATTACH_TO global.
Proksi server Databricks Git dirancang khusus untuk bekerja dengan versi Databricks Runtime yang disertakan dalam notebook konfigurasi. Pengguna tidak disarankan untuk memperbarui versi Databricks Runtime dari kluster proksi.
Proksi server Databricks Git untuk folder Git adalah fitur yang memungkinkan Anda untuk mem-proksi perintah Git dari ruang kerja Azure Databricks Anda ke server Git lokal.
Folder Git Databricks (sebelumnya Repos) mewakili repositori Git yang terhubung sebagai folder. Konten folder ini dikontrol versinya dengan menyinkronkannya ke repositori Git yang terhubung. Secara default, folder Git hanya dapat disinkronkan dengan penyedia Git publik (seperti GitHub publik, GitLab, Azure DevOps, dan lainnya). Namun, jika Anda menghosting server Git lokal Anda sendiri (seperti GitHub Enterprise Server, Bitbucket Server , atau GitLab yang dikelola sendiri), Anda harus menggunakan proksi server Git dengan folder Git untuk menyediakan akses Databricks ke server Git Anda. Server Git Anda harus dapat diakses dari sarana data Azure Databricks (simpul driver).
Jika jaringan perusahaan Anda hanya akses privat (VPN) (tanpa akses publik), Anda harus menjalankan proksi server Git untuk mengakses repositori Git yang terletak di luarnya dan untuk menambahkan folder Git ke ruang kerja Anda.
Proksi server Git untuk folder Git di Databricks meneruskan perintah Git dari lapisan kontrol Databricks ke kluster proksi yang berjalan di lapisan komputasi ruang kerja Databricks Anda. Dalam konteks ini, kluster proksi adalah kluster yang dikonfigurasi untuk menjalankan layanan proksi untuk perintah Git dari folder Git Databricks ke repositori Git yang dihost sendiri. Layanan proksi ini menerima perintah Git dari sarana kontrol Databricks dan meneruskannya ke instans server Git Anda.
Diagram di bawah ini mengilustrasikan arsitektur sistem keseluruhan:
Penting
Databricks menyediakan notebook yang dapat Anda jalankan untuk mengaktifkan konfigurasi instans server Git Anda untuk perintah proxy bagi folder Git Databricks. Dapatkan notebook pemberdayaan di GitHub.
Saat ini, proksi server Git tidak lagi memerlukan CAN_ATTACH_TO
izin bagi setiap pengguna. Admin dengan kluster proksi yang ada sekarang dapat mengubah izin ACL kluster untuk mengaktifkan fitur ini. Untuk mengaktifkannya:
Pilih Compute dari bar samping, lalu klik menu
menu kebab di samping entri Komputasi untuk Proksi Git Server yang Anda jalankan:
Dari dialog, hapus entri Dapat Dilampirkan Ke untuk Semua Pengguna:
Bagian ini menjelaskan cara menyiapkan instans server Git Anda untuk proksi server Git untuk folder Databricks Git, membuat proksi, dan memvalidasi konfigurasi Anda.
Sebelum mengaktifkan proksi, pastikan bahwa:
- Ruang kerja Anda mengaktifkan fitur folder Databricks Git.
- Instans server Git Anda dapat diakses dari VPC bidang komputasi ruang kerja Azure Databricks Anda, dan telah mengaktifkan HTTPS serta token akses pribadi (PATs).
Catatan
Proksi server Git untuk Databricks berfungsi di semua wilayah yang didukung oleh VPC Anda.
Penting
Anda harus menjadi admin di ruang kerja dengan hak akses untuk membuat sumber daya komputasi dan menyelesaikan tugas ini.
Untuk mengonfigurasi instans server Git Anda:
Berikan akses simpul driver dari kluster proksi ke server Git Anda.
Server Git perusahaan Anda dapat memiliki
allowlist
alamat IP tempat akses diizinkan.- Kaitkan alamat IP keluar statis untuk lalu lintas yang berasal dari kluster proksi Anda. Anda dapat melakukan ini dengan menggunakan Azure Firewall atau perangkat egress.
- Tambahkan alamat IP dari langkah sebelumnya ke daftar izin server Git Anda.
- Atur instans server Git Anda untuk mengizinkan transportasi HTTPS.
- Untuk GitHub Enterprise, lihat URL jarak jauh mana yang harus saya gunakan di bantuan GitHub Enterprise.
- Untuk Bitbucket, buka halaman administrasi server Bitbucket dan pilih pengaturan server. Di bagian hosting HTTP(S) SCM, aktifkan kotak centang HTTP(S) diaktifkan.
Untuk mengaktifkan proksi:
Masuk ke ruang kerja Azure Databricks Anda sebagai admin ruang kerja dengan hak akses untuk membuat kluster.
Impor notebook ini, yang memilih jenis instans terkecil yang tersedia dari penyedia layanan cloud Anda untuk mengoperasikan proksi Git.
Notebook: Aktifkan proksi server Git untuk folder Git Databricks agar dapat terhubung dengan server Git privat.
Klik Jalankan Semua untuk menjalankan buku catatan, yang melakukan tugas berikut:
- Membuat sumber daya komputasi simpul tunggal bernama "Databricks Git Proxy", yang tidak dihentikan secara otomatis. Ini adalah layanan proksi Git yang akan memproses dan meneruskan perintah Git dari ruang kerja Azure Databricks Anda ke server Git lokal Anda.
- Mengaktifkan tanda fitur yang mengontrol apakah permintaan Git di folder Git Databricks diproksikan melalui instans komputasi.
Sebagai praktik terbaik, pertimbangkan untuk membuat pekerjaan sederhana untuk menjalankan sumber daya komputasi proksi Git. Ini bisa menjadi notebook sederhana yang mencetak atau mencatat status seperti "Layanan proksi Git sedang berjalan." Atur pekerjaan untuk dijalankan pada interval waktu reguler untuk memastikan layanan proksi Git selalu tersedia untuk pengguna Anda.
Catatan
Menjalankan sumber daya komputasi tambahan yang berjalan lama untuk menghosting perangkat lunak proksi menimbulkan DBA tambahan. Untuk meminimalkan biaya, notebook melakukan konfigurasi proksi untuk menggunakan sumber daya komputasi simpul tunggal dengan jenis node yang tidak mahal. Namun, Anda mungkin ingin memodifikasi opsi komputasi agar sesuai dengan kebutuhan Anda. Untuk informasi selengkapnya tentang harga instans komputasi, lihat di kalkulator harga Databricks.
Untuk memvalidasi konfigurasi server Git Anda, coba kloning repositori yang dihosting di server Git privat Anda melalui kluster proksi. Kloning yang berhasil berarti Anda telah berhasil mengaktifkan proksi server Git untuk ruang kerja Anda.
Setelah pengguna mengonfigurasi kredensial Git mereka, tidak ada langkah lebih lanjut yang diperlukan untuk membuat atau menyinkronkan repositori Anda. Untuk mengonfigurasi kredensial dan mengakses repositori untuk folder Git Anda secara terprogram, lihat Mengonfigurasi kredensial Git & menyambungkan repositori jarak jauh ke Azure Databricks.
Admin dengan kluster proksi yang ada sekarang dapat memodifikasi izin ACL kluster untuk memanfaatkan perilaku proksi server Git yang tersedia secara umum.
Jika sebelumnya Anda mengonfigurasi proksi server Databricks Git dengan hak istimewa CAN_ATTACH_TO
, gunakan langkah-langkah berikut untuk menghapus izin ini:
Pilih Compute dari bar samping, lalu klik menu
menu kebab di samping entri Komputasi untuk proksi server Git yang Anda jalankan:
Dari dialog, hapus entri Dapat Dilampirkan Ke untuk Semua Pengguna:
Apakah Anda mengalami kesalahan saat mengonfigurasi proksi server Git untuk folder Databricks Git? Berikut adalah beberapa masalah umum dan cara untuk mendiagnosisnya secara lebih efektif.
Sebelum Anda mulai mendiagnosis kesalahan, konfirmasikan bahwa Anda telah menyelesaikan langkah-langkah berikut:
- Pastikan bahwa kluster proksi Anda berjalan dengan notebook debug untuk server proksi Git ini.
- Konfirmasikan bahwa Anda adalah administrator ruang kerja.
- Jalankan sisa buku catatan debug dan ambil hasilnya. Jika Anda tidak dapat men-debug masalah, atau tidak melihat kegagalan apa pun yang dilaporkan dari buku catatan debug, dukungan Databricks dapat meninjau hasilnya. Anda dapat mengekspor dan mengirim buku catatan debug sebagai arsip DBC, jika diminta.
Jika layanan proksi Git Anda tidak berfungsi dengan konfigurasi default, Anda dapat mengatur variabel lingkungan tertentu untuk membuat perubahan untuk mendukung infrastruktur jaringan Anda dengan lebih baik.
Gunakan variabel lingkungan berikut untuk memperbarui konfigurasi untuk layanan proksi Git Anda:
Variabel lingkungan | Format | Deskripsi |
---|---|---|
GIT_PROXY_ENABLE_SSL_VERIFICATION |
true /false |
Atur ini ke false jika Anda menggunakan sertifikat yang ditandatangani sendiri untuk server Git privat Anda. |
GIT_PROXY_CA_CERT_PATH |
Jalur file (string) | Atur jalur ini ke file sertifikat CA yang digunakan untuk verifikasi SSL. Contoh: /FileStore/myCA.pem |
GIT_PROXY_HTTP_PROXY |
https://<hostname>:<port #> |
Atur ini ke URL HTTPS untuk proksi firewall jaringan Anda untuk lalu lintas HTTP. |
GIT_PROXY_CUSTOM_HTTP_PORT |
Nomor port (bilangan bulat) | Atur ini ke nomor port yang ditetapkan ke port HTTP server Git Anda. |
Untuk mengatur variabel lingkungan ini, buka tab Komputasi di ruang kerja Azure Databricks Anda dan pilih konfigurasi komputasi untuk layanan proksi Git Anda. Di bagian bawah panel Konfigurasi , perluas Tingkat Lanjut dan pilih tab Spark di bawahnya. Atur satu atau beberapa variabel lingkungan ini dengan menambahkannya ke area teks variabel lingkungan.
File di /databricks/git-proxy/git-proxy.log
pada kluster perantara berisi log yang berguna untuk tujuan debugging.
File log harus dimulai dengan baris Data-plane proxy server binding to ('', 8000)…
. Jika tidak, ini berarti bahwa server proksi tidak berfungsi dengan baik. Coba mulai ulang kluster, atau hapus kluster yang Anda buat dan jalankan buku catatan pengaktifan lagi.
Jika file log dimulai dengan baris ini, tinjau pernyataan log yang mengikutinya untuk setiap permintaan Git yang dimulai oleh operasi Git di folder Databricks Git.
Contohnya:
do_GET: https://server-address/path/to/repo/info/refs?service=git-upload-pack 10.139.0.25 - - [09/Jun/2021 06:53:02] /
"GET /server-address/path/to/repo/info/refs?service=git-upload-pack HTTP/1.1" 200`
Log kesalahan yang ditulis ke dalam file ini dapat berguna untuk membantu Anda atau Dukungan Databricks dalam mendebug masalah.
Koneksi aman tidak dapat dibuat karena masalah SSL
Anda mungkin melihat kesalahan berikut:
https://git.consult-prodigy.com/Prodigy/databricks_test: Secure connection to https://git.consult-prodigy.com/Prodigy/databricks_test could not be established because of SLL problems
Seringkali ini berarti Anda menggunakan repositori yang memerlukan sertifikat SSL khusus. Periksa konten
/databricks/git-proxy/git-proxy.log
file pada kluster proksi. Jika dikatakan bahwa validasi sertifikat gagal, maka Anda harus menambahkan sertifikat otoritas ke rantai sertifikat sistem. Pertama, ekstrak sertifikat akar (menggunakan browser atau opsi lainnya) dan unggah ke DBFS. Kemudian, edit kluster Git folders Git Proxy untuk menggunakan variabel lingkunganGIT_PROXY_CA_CERT_PATH
guna menunjuk ke file sertifikat akar. Untuk informasi selengkapnya tentang mengedit variabel lingkungan kluster, lihat Variabel lingkungan.Setelah Anda menyelesaikan langkah tersebut, mulai ulang kluster.
Kegagalan mengkloning repositori dengan kesalahan "Kredensial Git Hilang/Tidak Valid"
Pertama, periksa apakah Anda telah mengonfigurasi kredensial Git Anda di Pengaturan Pengguna.
Anda mungkin mengalami kesalahan ini:
Error: Invalid Git credentials. Go to User Settings -> Git Integration and check that your personal access token or app password has the correct repository access.
Jika organisasi Anda menggunakan SSO SAML, pastikan token telah diotorisasi (ini dapat dilakukan dari halaman manajemen Token Akses Pribadi (PAT) server Git Anda).
Impor dan jalankan buku catatan debug proksi Git. Hasil eksekusi notebook menunjukkan apakah ada masalah dengan layanan proksi Git.
- Proksi tidak memengaruhi arsitektur keamanan sarana kontrol Databricks Anda.
- Anda hanya dapat memiliki satu kluster server proksi Git per ruang kerja.
Apakah semua lalu lintas Git yang berkaitan dengan folder Databricks dirutekan melalui cluster proxy, bahkan untuk repositori Git publik?
Ya. Ruang kerja Azure Databricks Anda tidak membedakan antara repositori yang diproksi dan tidak diproksi.
Folder Git Databricks mendukung GitHub Enterprise, Bitbucket Server, Azure DevOps Server, dan GitLab yang dikelola sendiri. Penyedia server Git perusahaan lainnya harus berfungsi juga jika sesuai dengan spesifikasi Git umum.
Tidak.
Tidak. Hanya HTTPS yang didukung.
Saat ini, notebook pengaktifan mengasumsikan bahwa server Git Anda menggunakan port HTTPS default 443. Anda dapat mengatur variabel lingkungan GIT_PROXY_CUSTOM_HTTP_PORT
untuk menimpa nilai port dengan nilai yang Anda inginkan.
Dapatkah Anda berbagi satu proksi untuk beberapa ruang kerja atau apakah Anda memerlukan satu kluster proksi per ruang kerja?
Anda memerlukan satu kluster proksi per ruang kerja Azure Databricks.
Dapatkah Databricks menyembunyikan URL server Git yang diproksi? Bisakah pengguna memasukkan URL server Git asli daripada URL yang diproksi?
Ya untuk kedua pertanyaan. Pengguna tidak perlu mengubah perilaku mereka untuk proksi. Dengan implementasi proksi saat ini, semua lalu lintas Git untuk folder Databricks Git dirutekan melalui proksi. Pengguna memasukkan URL repositori Git normal seperti https://git.company.com/org/repo-name.git
.
Ya, proksi menggunakan token server Git akun pengguna untuk mengautentikasi ke server Git.
Layanan proksi Azure Databricks mengakses repositori Git di server Git menggunakan kredensial yang disediakan pengguna dan menyinkronkan file kode apa pun di repositori dengan folder Git. Akses dibatasi oleh izin yang ditentukan dalam token akses pribadi (PAT) yang disediakan pengguna.