Mengubah pengambilan data di Azure Data Factory dan Azure Synapse Analytics

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Artikel ini menjelaskan perubahan pengambilan data (CDC) di Azure Data Factory.

Untuk mempelajari selengkapnya, lihat Gambaran umum Azure Data Factory atau Gambaran umum Azure Synapse.

Gambaran Umum

Saat Anda melakukan integrasi data dan proses ETL di cloud, pekerjaan Anda dapat berkinerja lebih baik dan lebih efektif ketika Anda hanya membaca data sumber yang telah berubah sejak terakhir kali alur berjalan, daripada selalu mengkueri seluruh himpunan data pada setiap eksekusi. ADF menyediakan beberapa cara mudah untuk mendapatkan data delta hanya dari eksekusi terakhir.

Mengubah sumber daya pabrik Data Capture

Cara term mudah dan tercepat untuk memulai di pabrik data dengan CDC adalah melalui tingkat pabrik Ubah sumber daya Tangkapan Data. Dari perancang alur utama, klik Baru di bawah Sumber Daya Pabrik untuk membuat Change Data Capture baru. Sumber daya pabrik CDC menyediakan pengalaman panduan konfigurasi di mana Anda dapat memilih sumber dan tujuan Anda, menerapkan transformasi opsional, lalu klik mulai untuk memulai pengambilan data Anda. Dengan sumber daya CDC, Anda tidak perlu merancang alur atau aktivitas aliran data. Anda juga hanya ditagih untuk empat inti aliran data Tujuan Umum saat data Anda sedang diproses. Anda dapat mengatur latensi pilihan, yang akan digunakan ADF untuk bangun dan mencari data yang diubah. Itu adalah satu-satunya waktu Anda akan ditagih. Sumber daya CDC tingkat atas juga merupakan metode ADF untuk menjalankan proses Anda terus menerus. Alur di ADF hanya batch, tetapi sumber daya CDC dapat berjalan terus menerus.

Tangkapan data perubahan asli dalam pemetaan aliran data

Data yang diubah termasuk baris yang disisipkan, diperbarui, dan dihapus dapat secara otomatis dideteksi dan diekstrak oleh aliran data pemetaan ADF dari database sumber. Tidak ada tanda waktu atau kolom ID yang diperlukan untuk mengidentifikasi perubahan karena menggunakan teknologi penangkapan data perubahan asli dalam database. Dengan hanya menautkan transformasi sumber dan referensi transformasi sink ke himpunan data database dalam aliran data pemetaan, Anda dapat melihat perubahan yang terjadi pada database sumber untuk diterapkan secara otomatis ke database target, sehingga Anda dapat dengan mudah menyinkronkan data di antara dua tabel. Anda juga dapat menambahkan transformasi apa pun di antara logika bisnis apa pun untuk memproses data delta. Saat menentukan tujuan data sink, Anda dapat mengatur operasi sisipkan, perbarui, upsert, dan hapus di sink Anda tanpa perlu transformasi Alter Row karena ADF dapat mendeteksi pembuat baris secara otomatis.

Konektor yang didukung

Ekstraksi inkremental otomatis dalam pemetaan aliran data

Baris yang baru diperbarui atau file yang diperbarui dapat secara otomatis terdeteksi dan diekstrak oleh aliran data pemetaan ADF dari penyimpanan sumber. Saat Anda ingin mendapatkan data delta dari database, kolom inkremental diperlukan untuk mengidentifikasi perubahan. Saat Anda ingin memuat file baru atau file yang diperbarui hanya dari penyimpanan penyimpanan, aliran data pemetaan ADF hanya berfungsi melalui waktu modifikasi terakhir file.

Konektor yang didukung

Ekstraksi data delta yang dikelola pelanggan dalam alur

Anda selalu dapat membangun alur ekstraksi data delta Anda sendiri untuk semua penyimpanan data yang didukung ADF termasuk menggunakan aktivitas pencarian untuk mendapatkan nilai marka air yang disimpan dalam tabel kontrol eksternal, aktivitas salin atau aktivitas aliran data pemetaan untuk mengkueri data delta terhadap tanda waktu atau kolom ID, dan aktivitas SP untuk menulis nilai marka air baru kembali ke tabel kontrol eksternal Anda untuk eksekusi berikutnya. Ketika Anda ingin memuat file baru hanya dari penyimpanan penyimpanan, Anda dapat menghapus file setiap kali setelah berhasil dipindahkan ke tujuan, atau memanfaatkan waktu yang dipartisi folder atau nama file atau waktu terakhir dimodifikasi untuk mengidentifikasi file baru.

Praktik Terbaik

Mengubah pengambilan data dari database

  • Penangkapan data perubahan asli selalu disarankan sebagai cara paling sederhana bagi Anda untuk mendapatkan data perubahan. Ini juga membawa beban yang jauh lebih sedikit pada database sumber Anda ketika ADF mengekstrak data perubahan untuk pemrosesan lebih lanjut.
  • Jika penyimpanan database Anda bukan bagian dari daftar konektor ADF dengan dukungan pengambilan data perubahan asli, kami sarankan Anda untuk memeriksa opsi ekstraksi inkremental otomatis di mana Anda hanya perlu memasukkan kolom bertahap untuk menangkap perubahan. ADF akan mengurus sisanya termasuk membuat kueri dinamis untuk pemuatan delta dan mengelola titik pemeriksaan untuk setiap aktivitas yang dijalankan.
  • Ekstraksi data delta yang dikelola pelanggan dalam alur mencakup semua database yang didukung ADF dan memberi Anda fleksibilitas untuk mengontrol semuanya sendiri.

Mengubah pengambilan file dari penyimpanan berbasis file

  • Saat Anda ingin memuat data dari Azure Blob Storage, Azure Data Lake Storage Gen2 atau Azure Data Lake Storage Gen1, pemetaan aliran data memberi Anda kesempatan untuk mendapatkan file baru atau yang diperbarui hanya dengan sekali klik. Ini adalah cara paling sederhana dan direkomendasikan bagi Anda untuk mencapai beban delta dari penyimpanan berbasis file ini dalam pemetaan aliran data.
  • Anda bisa mendapatkan lebih banyak praktik terbaik.

Pos pemeriksaan

Saat Anda mengaktifkan penangkapan data perubahan asli atau opsi ekstraksi bertambah bertahap otomatis dalam aliran data pemetaan ADF, ADF membantu Anda mengelola titik pemeriksaan untuk memastikan setiap aktivitas yang dijalankan akan secara otomatis hanya membaca data sumber yang telah berubah sejak terakhir kali alur berjalan. Secara default, titik pemeriksaan digabungkan dengan alur dan nama aktivitas Anda. Jika Anda mengubah nama alur atau nama aktivitas Anda, titik pemeriksaan akan diatur ulang, yang mengarahkan Anda untuk memulai dari awal atau mendapatkan perubahan mulai sekarang di eksekusi berikutnya. Jika Anda ingin mengubah nama alur atau nama aktivitas tetapi masih menyimpan titik pemeriksaan untuk mendapatkan data yang diubah dari eksekusi terakhir secara otomatis, gunakan kunci Titik Pemeriksaan Anda sendiri dalam aktivitas aliran data untuk mencapainya. Aturan penamaan kunci titik pemeriksaan Anda sendiri sama dengan layanan tertaut, himpunan data, alur, dan aliran data.

Saat Anda men-debug alur, fitur ini berfungsi sama. Titik pemeriksaan akan diatur ulang saat Anda merefresh browser selama eksekusi debug. Setelah Anda puas dengan hasil alur dari eksekusi debug, Anda dapat melanjutkan untuk menerbitkan dan memicu alur. Pada saat Anda pertama kali memicu alur yang diterbitkan, maka secara otomatis dimulai ulang dari awal atau mendapat perubahan mulai sekarang.

Di bagian pemantauan, Anda selalu memiliki kesempatan untuk menjalankan kembali alur. Saat Anda melakukannya, data yang diubah selalu diambil dari pos pemeriksaan sebelumnya dari eksekusi alur yang Anda pilih.

Tutorial

Berikut ini adalah tutorial untuk memulai perubahan pengambilan data di Azure Data Factory dan Azure Synapse Analytics.

Templat

Berikut ini adalah templat untuk menggunakan tangkapan data perubahan di Azure Data Factory dan Azure Synapse Analytics.