CI/CD menggunakan folder Git di Databricks

Gunakan folder Databricks Git dalam alur CI/CD Anda untuk tetap bekerja dalam kontrol sumber dan mengintegrasikannya dengan alur kerja rekayasa data Anda. Untuk gambaran umum CI/CD yang lebih luas dengan Azure Databricks, lihat CI/CD di Azure Databricks.

Alur penggunaan

Automatisasi untuk folder Git berfokus pada konfigurasi folder awal dan menggunakan Azure Databricks Repos REST API untuk mengotomatisasi operasi Git dari pekerjaan Azure Databricks. Sebelum Anda membangun otomatisasi:

  • Tinjau repositori Git jarak jauh yang akan Anda gunakan.
  • Pilih repositori dan cabang yang tepat untuk setiap tahap (pengembangan, integrasi, staging, produksi).

Ada tiga alur utama:

  • Alur admin: Administrator ruang kerja Azure Databricks membuat folder tingkat atas untuk menghosting folder Git produksi. Admin mengkloning repositori dan cabang saat membuat setiap folder dan dapat menamainya dengan tujuan (misalnya, "Produksi", "Uji", atau "Penahapan"). Lihat Membuat folder Git produksi.
  • Alur pengguna: Pengguna membuat folder Git di bawah /Workspace/Users/<email>/ dari repositori jarak jauh, bekerja pada cabang khusus pengguna, dan mendorong penerapan ke jarak jauh. Lihat Berkolaborasi menggunakan folder Git.
  • Alur penggabungan: Setelah mengunggah dari folder Git, pengguna membuka permintaan penarikan (PR). Saat PR digabungkan, otomatisasi dapat menarik perubahan ke dalam folder Git produksi menggunakan API Repos Azure Databricks.

Berkolaborasi menggunakan folder Git

Berkolaborasi dengan orang lain untuk mengambil dan mendorong perubahan dari antarmuka pengguna Azure Databricks. Pola umumnya adalah menggunakan fitur atau cabang pengembangan untuk menggabungkan pekerjaan.

Untuk berkolaborasi pada cabang fitur:

  1. Mengkloning repositori Git yang sudah ada ke ruang kerja Databricks Anda.
  2. Pada antarmuka folder Git, buat cabang fitur dari cabang utama. Anda dapat menggunakan beberapa cabang fitur sesuai kebutuhan.
  3. Edit buku catatan Azure Databricks dan file lain di repositori.
  4. Terapkan dan dorong perubahan Anda ke repositori jarak jauh.
  5. Kontributor lain dapat mengkloning repositori ke folder pengguna mereka sendiri. Mereka bekerja di cabang, mengubah buku catatan dan file di folder Git, lalu menerapkan dan mendorong ke jarak jauh.
  6. Setelah siap, buat PR di penyedia Git Anda, tinjau dengan tim Anda, dan gabungkan ke cabang penyebaran.

Nota

Databricks merekomendasikan agar setiap pengembang bekerja di cabang mereka sendiri. Untuk mengatasi konflik penggabungan, lihat Mengatasi konflik penggabungan.

Pilih pendekatan CI/CD

Databricks merekomendasikan Bundel Otomatisasi Deklaratif untuk mengemas dan menyebarkan alur kerja CI/CD. Jika Anda lebih suka hanya menyebarkan kode ke ruang kerja, Anda dapat menggunakan folder Git produksi sebagai gantinya. Untuk gambaran umum CI/CD yang lebih luas, lihat CI/CD di Azure Databricks.

Petunjuk / Saran

Tentukan sumber daya seperti pekerjaan dan alur dalam sumber menggunakan bundel, lalu buat, sebarkan, dan kelola di folder Git ruang kerja. Lihat Berkolaborasi pada bundel di ruang kerja.

Membuat folder Git produksi

Folder Git produksi berbeda dari folder Git tingkat pengguna di bawah /Workspace/Users/. Folder tingkat pengguna adalah cek keluar lokal tempat pengguna mengembangkan dan mendorong perubahan. Folder produksi Git dibuat oleh admin di luar folder pengguna, menyimpan cabang-cabang penyebaran, dan berfungsi sebagai sumber untuk alur kerja otomatis. Mereka harus diperbarui hanya melalui otomatisasi ketika PR digabungkan ke dalam cabang penyebaran. Batasi folder Git produksi untuk akses run-only bagi sebagian besar pengguna. Izinkan hanya admin dan perwakilan layanan Azure Databricks untuk mengeditnya.

Folder produksi Git dipetakan ke cabang utama pada repositori jarak jauh.

Untuk membuat folder Git produksi:

  1. Pilih repositori dan cabang Git untuk penyebaran.

  2. Buat atau gunakan perwakilan layanan dan konfigurasikan kredensial Git agar bisa mengakses repositori tersebut.

  3. Buat folder Git Azure Databricks untuk repositori dan cabang di subfolder di bawah Ruang Kerja (misalnya, per proyek, tim, atau tahap).

  4. Pilih folder, lalu Bagikan (atau klik kanan Bagikan (Izin) di pohon Ruang Kerja).

  5. Tetapkan tingkat izin:

    • Dapat Berjalan untuk pengguna proyek yang perlu menjalankan alur kerja.
    • Dapat Dijalankan untuk service principal Azure Databricks mana pun yang melakukan otomatisasi pada folder ini.
    • Secara opsional Dapat Menampilkan untuk semua pengguna ruang kerja untuk mendukung penemuan dan berbagi.

    Jendela dialog modal untuk berbagi folder Git.

  6. Klik Tambahkan.

  7. Jaga agar folder Git produksi tetap sinkron dengan cabang jarak jauh menggunakan salah satu opsi berikut:

    • CI/CD Eksternal: Gunakan alat seperti GitHub Actions untuk menarik penerapan terbaru saat PR digabungkan ke dalam cabang penyebaran. Misalnya, lihat Menjalankan alur kerja CI/CD yang memperbarui folder Git.
    • Pekerjaan terjadwal: Jika CI/CD eksternal tidak tersedia, jalankan pekerjaan terjadwal yang memperbarui folder Git. Gunakan buku catatan sederhana yang berjalan sesuai jadwal:
    from databricks.sdk import WorkspaceClient
    w = WorkspaceClient()
    w.repos.update(w.workspace.get_status(path="<git-folder-workspace-full-path>").object_id, branch="<branch-name>")
    

Untuk informasi selengkapnya tentang mengotomatiskan dengan Repos API, lihat dokumentasi Databricks REST API untuk Repos.