Bagikan melalui


Apa itu Tugas penyalinan di Data Factory untuk Microsoft Fabric?

Copy Job adalah solusi utama di Microsoft Fabric Data Factory untuk mempermudah pengaliran data dari banyak sumber ke banyak tujuan — tidak diperlukan pipeline. Dengan dukungan bawaan untuk beberapa gaya pengiriman, termasuk salinan massal, salinan bertahap, dan replikasi pengambilan data perubahan (CDC), tugas Salin menawarkan fleksibilitas untuk menangani berbagai skenario pergerakan data — semua melalui pengalaman yang intuitif dan mudah dioperasikan. Jika Anda baru menggunakan integrasi data atau inginkan cara yang lebih cepat untuk mendapatkan data Anda ke tempat yang diinginkan, fitur penyalinan tugas menawarkan solusi yang mudah digunakan dan fleksibel.

Advantages

Beberapa keuntungan dari pekerjaan Salin daripada metode pergerakan data lainnya meliputi:

  • Mudah digunakan: Menyiapkan dan memantau penyalinan data dengan pengalaman sederhana dan terpandu — tidak diperlukan keahlian teknis.
  • Efisien: Salin hanya data baru atau yang diubah dari eksekusi terakhir untuk menghemat waktu dan sumber daya, dengan langkah manual minimal.
  • Fleksibel: Pilih data mana yang akan dipindahkan, petakan kolom, atur cara data ditulis, dan jadwalkan pekerjaan untuk dijalankan sekali atau teratur.
  • Performa tinggi: Pindahkan data dalam jumlah besar dengan cepat dan andal, berkat sistem tanpa server yang dapat diskalakan.

Cuplikan layar memperlihatkan tugas Penyalinan dan panel hasilnya.

Anda juga dapat mengunjungi strategi pergerakan data untuk melihat bagaimana pekerjaan penggandaan dibandingkan dengan aktivitas pencerminan dan penggandaan dalam pipeline.

Konsep

Mode salin (Salinan lengkap, Salinan bertahap)

Anda dapat memilih bagaimana data Anda disalin dari sumber ke tujuan:

  • Salinan lengkap: Setiap kali tugas dijalankan, semua data dari sumber Anda disalin ke tujuan Anda.
  • Salinan bertambah bertahap: Proses pertama menyalin semuanya, dan eksekusi berikutnya hanya memindahkan data baru atau yang diubah sejak eksekusi terakhir.

Salinan inkremental (CDC, Tanda Penanda)

Dalam salinan bertahap, setiap pemrosesan setelah salinan lengkap awal (disebut "muatan selanjutnya") hanya mentransfer perubahan tertentu. Pekerjaan penyalinan secara otomatis melacak dan mengelola status jalankan terakhir yang berhasil, sehingga dapat mengetahui data apa yang akan disalin berikutnya.

  • Saat pekerjaan Copy menyalin dari database menggunakan kolom bertambah secara bertahap ("kolom penanda air"), setiap pemuatan berikutnya hanya menyalin baris dengan nilai di kolom tersebut yang lebih besar dari baris mana pun sebelumnya yang sudah disalin.
  • Saat pekerjaan salin yang dibuat dari database yang mengaktifkan CDC, setiap pemrosesan berikutnya menyalin semua baris yang disisipkan, diperbarui, atau dihapus sejak eksekusi terakhir yang berhasil.
  • Ketika tugas Salin menyalin file, setiap pengulangan berikutnya hanya menyalin file yang dibuat atau dimodifikasi sejak eksekusi terakhir yang berhasil.

Biasanya, kolom inkremental menyimpan nilai tanggal/waktu atau angka yang meningkat. Jika database Anda mengaktifkan CDC (Change Data Capture), Anda tidak perlu memilih kolom inkremental — tugas penyalinan secara otomatis mendeteksi perubahan.

Jika Anda menggunakan penanda untuk menyalin data secara berkesinambungan dari database, pemrosesan berikutnya tidak menyalin baris apa pun dengan nilai "null" di kolom tersebut, karena nilai "null" dianggap kurang dari nilai lainnya.

Lihat detail selengkapnya untuk Penangkapan Perubahan Data (CDC) di Copy Job.

Jika pekerjaan penyalinan gagal, Anda tidak perlu khawatir tentang kehilangan data. Pekerjaan penyalinan selalu dilanjutkan dari akhir eksekusi yang berhasil terakhir. Kegagalan tidak mengubah status yang dikelola oleh tugas penyalinan.

Reset salinan bertahap

Anda memiliki fleksibilitas dalam mengelola salinan bertahap, termasuk kemampuan untuk mengatur ulang kembali ke salinan lengkap pada eksekusi berikutnya. Ini sangat berguna ketika ada perbedaan data antara sumber dan tujuan Anda—Anda cukup membiarkan Copy Job melakukan salinan lengkap dalam proses berikutnya untuk menyelesaikan masalah, lalu melanjutkan dengan pembaruan bertahap setelahnya.

Anda dapat mengatur ulang salinan bertahap baik per seluruh pekerjaan atau per tabel, memberi Anda kontrol terperinci. Misalnya, Anda dapat menyalin ulang tabel yang lebih kecil tanpa memengaruhi tabel yang lebih besar. Ini berarti pemecahan masalah yang lebih cerdas, gangguan yang lebih sedikit, dan pergerakan data yang lebih efisien.

Dalam beberapa kasus, saat Anda mengedit pekerjaan penyalinan — misalnya, memperbarui kolom bertahap di tabel sumber Anda — Pekerjaan penyalinan akan mengatur ulang salinan bertahap ke salinan lengkap pada eksekusi berikutnya. Ini memastikan konsistensi data antara sumber dan tujuan.

Perbarui metode (Tambahkan, Timpa, Gabungkan)

Anda juga dapat memutuskan bagaimana data ditulis ke tujuan Anda:

Secara default, Pekerjaan salin menambahkan data baru, sehingga Anda menyimpan riwayat lengkap. Jika mau, Anda dapat memilih untuk menggabungkan (memperbarui baris yang ada menggunakan kolom kunci) atau menimpa (mengganti data yang ada). Jika Anda memilih gabungkan, tugas Salin menggunakan kunci utama secara default, jika ada.

  • Saat menyalin ke database: Baris baru ditambahkan ke tabel Anda. Pada basis data yang didukung, Anda juga dapat memilih untuk menggabungkan atau menimpa data yang ada.
  • Saat menyalin ke penyimpanan: Data baru disimpan sebagai file baru. Jika file dengan nama yang sama sudah ada, file akan diganti.

Saat melakukan salinan bertahap dari sumber dan menggabungkan ke tujuan, baris dari sumber disisipkan atau diperbarui di tujuan. Saat melakukan replikasi CDC dari sumber dan menggabungkannya ke tujuan, baris dari sumber akan dimasukkan, diperbarui, atau dihapus di dalam tujuan.

Pembuatan dan pengosongan tabel otomatis di destinasi

Pekerjaan penyalinan dapat secara otomatis membuat tabel baru di tujuan akhir jika belum ada. Jika tabel tujuan sudah tersedia, Anda cukup memilihnya sebagai target Anda. Dengan opsi pemetaan kolom yang fleksibel, Anda dapat dengan mudah menentukan cara memetakan skema dari tabel sumber ke tabel tujuan.

Anda juga dapat secara opsional memotong data tujuan sebelum beban penuh, memastikan sumber dan tujuannya sepenuhnya disinkronkan tanpa duplikat.

Secara default, Pekerjaan salin tidak menghapus data apa pun di tujuan. Saat Anda mengaktifkan opsi ini:

  • Eksekusi pertama salinan inkremental akan memotong semua data di tujuan sebelum memuat himpunan data lengkap.
  • Salinan inkremental berikutnya akan terus menambahkan atau menggabungkan data tanpa memengaruhi rekaman yang ada.
  • Jika pelanggan nantinya mengatur ulang salinan bertahap ke salinan lengkap, mengaktifkan opsi ini akan menghapus tujuan lagi sebelum memuat.

Pendekatan ini memastikan bahwa tujuan Anda tetap bersih, sepenuhnya disinkronkan, dan bebas dari duplikat, memberikan fondasi yang andal untuk solusi penyerapan data mereka.

Konektor Pembuatan tabel otomatis Pangkas tabel tujuan sebelum pemuatan penuh
Azure SQL DB
Azure SQL Managed Instance
Kumpulan SQL Azure Synapse
Fabric Lakehouse tabel
Gudang Kain
SQL Server lokal
Oracle
Snowflake
Database SQL pada Fabric (Pratinjau)

Opsi jalankan (Jalankan, Jadwalkan, Pemicu Peristiwa)

Anda memiliki fleksibilitas penuh untuk memutuskan kapan pekerjaan penyalinan berjalan — pekerjaan tersebut dapat berjalan sekali atau sesuai jadwal. Bahkan jika pekerjaan dijadwalkan, Anda masih dapat mengklik Jalankan kapan saja untuk memicunya secara manual. Dalam salinan bertahap, pekerjaan yang dipicu secara manual masih hanya akan mentransfer perubahan sejak eksekusi terakhir.

Dengan dukungan untuk beberapa jadwal dalam tugas penyalinan, Anda mendapatkan kontrol yang lebih besar. Satu pekerjaan salinan dapat memiliki beberapa jadwal—misalnya, satu berjalan setiap hari pada pukul 06.00 dan satu lagi berjalan setiap minggu pada hari Minggu. Semua jadwal dapat dikelola langsung dalam pekerjaan penyalinan yang sama, membuat orkestrasi lebih sederhana, lebih bersih, dan lebih efisien.

Jika Anda menggunakan aktivitas tugas salin dalam pipeline, Anda juga dapat memanfaatkan kemampuan orkestrasi dan pemicu pipeline. Misalnya, Anda dapat menggunakan pemicu peristiwa untuk memulai aktivitas pekerjaan penyalinan saat peristiwa tertentu terjadi, seperti file baru yang tiba di data lake atau perubahan dalam database.

Lihat detail selengkapnya untuk aktivitas tugas penyalinan.

Opsi hosting (VNet, Di Tempat, Cloud)

Anda dapat menggunakan fitur Pekerjaan Salin untuk memindahkan data dari sumber mana pun ke tujuan apa pun, baik data Anda berada di lokasi fisik, di cloud, atau dalam jaringan virtual. Pada halaman koneksi pekerjaan Salin, Anda dapat memilih dari beberapa opsi host, termasuk gateway lokal atau gateway VNet, untuk mengakses data dengan aman di belakang firewall atau dalam VNet.

Lihat detail selengkapnya untuk Sekuriti pergerakan data Anda dengan Copy Job dan Virtual Network Data Gateway.

Operasionalisasi(GIT/CICD, Pustaka variabel)

Anda dapat menggunakan kontrol versi, integrasi berkelanjutan, penyebaran berkelanjutan, dan lingkungan kolaboratif untuk menjalankan proyek analitik data yang sukses dengan copy job.

Selain itu, dengan dukungan Pustaka variabel, Anda dapat membuat parameter koneksi di Copy Job. Kemampuan canggih ini menyederhanakan CI/CD dengan mengeksternalisasi nilai koneksi, memungkinkan Anda untuk menerapkan pekerjaan salin yang sama di beberapa lingkungan sementara pustaka variabel menyuntikkan koneksi yang tepat untuk setiap fase.

Lihat informasi lebih lanjut di CI/CD untuk tugas penyalinan.

Observability

Lihat detail selengkapnya di Cara memantau tugas penyalinan.

Ketersediaan Wilayah

Tugas penyalinan memiliki ketersediaan regional yang sama dengan Fabric.

Harga

Anda bisa mendapatkan rincian di pekerjaan penyalinan harga.

Konektor yang didukung

Dengan menggunakan Copy job, Anda dapat memindahkan data Anda antara penyimpanan data cloud atau dari sumber lokal di tempat yang berada di belakang firewall atau di dalam jaringan virtual menggunakan gateway.

Lihat halaman konektor kami yang didukung untuk daftar lengkap sumber dan tujuan yang didukung:

Kirimkan umpan balik Anda tentang Fabric Ideas dan bergabunglah dengan percakapan di Komunitas Fabric.