Bagikan melalui


Menangkap data yang diubah dengan evolusi skema dari Azure SQL Database ke sink Delta dengan menggunakan sumber daya penangkapan data perubahan

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam artikel ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat sumber daya pengambilan data perubahan (CDC). Sumber daya mengambil data yang diubah dari sumber Azure SQL Database dan menambahkannya ke Delta Lake yang disimpan di Azure Data Lake Storage Gen2, secara real time. Aktivitas ini menampilkan dukungan evolusi skema dengan menggunakan sumber daya CDC antara sumber dan sink.

Dalam artikel ini, Anda akan mempelajari cara:

  • Buat sumber daya CDC.
  • Buat perubahan skema dinamis pada tabel sumber.
  • Validasi perubahan skema di sink Delta target.

Anda dapat mengubah dan memperluas pola konfigurasi dalam artikel ini.

Prasyarat

Sebelum Memulai prosedur dalam artikel ini, pastikan Anda memiliki sumber daya ini:

  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure gratis.
  • Database SQL. Anda menggunakan Azure SQL Database sebagai penyimpanan data sumber. Jika Anda tidak memiliki database SQL, buat database di portal Azure.
  • Akun penyimpanan. Anda menggunakan Delta Lake yang disimpan di Azure Data Lake Storage Gen2 sebagai penyimpanan data target. Jika Anda tidak memiliki akun penyimpanan, lihat Membuat akun penyimpanan untuk langkah-langkah membuatnya.

Membuat artefak CDC

  1. Buka panel Penulis di pabrik data Anda. Di bawah Alur, artefak tingkat atas baru yang disebut Ubah Penangkapan Data (pratinjau) muncul.

    Cuplikan layar artefak tingkat atas baru untuk mengubah pengambilan data di panel Sumber Daya Pabrik.

  2. Arahkan mouse ke atas Ubah Pengambilan Data (pratinjau) hingga tiga titik muncul. Lalu pilih Ubah Tindakan Pengambilan Data (pratinjau).

    Cuplikan layar tombol untuk mengubah tindakan pengambilan data yang muncul di atas artefak tingkat atas baru.

  3. Pilih CDC Baru (pratinjau). Langkah ini membuka flyout untuk memulai proses terpandu.

    Cuplikan layar daftar tindakan ubah pengambilan data.

  4. Anda diminta untuk memberi nama sumber daya CDC Anda. Secara default, namanya adalah "adfcdc" dengan angka yang bertambah 1. Anda dapat mengganti nama default ini dengan nama yang Anda pilih.

    Cuplikan layar kotak teks untuk memperbarui nama sumber daya.

  5. Gunakan daftar dropdown untuk memilih sumber data Anda. Untuk artikel ini, pilih Azure SQL Database.

    Cuplikan layar flyout proses terpandu dengan opsi sumber dalam daftar dropdown.

  6. Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.

    Cuplikan layar kotak untuk memilih atau membuat layanan tertaut.

  7. Setelah memilih layanan tertaut, Anda akan diminta untuk memilih tabel sumber. Gunakan kotak centang untuk memilih tabel sumber, lalu pilih nilai Kolom bertambah bertahas dengan menggunakan daftar dropdown.

    Cuplikan layar yang memperlihatkan pilihan tabel sumber dan kolom inkremental.

    Panel hanya mencantumkan tabel yang telah mendukung tipe data kolom inkremental.

    Catatan

    Untuk mengaktifkan CDC dengan evolusi skema di sumber Azure SQL Database, pilih tabel berdasarkan kolom marka air daripada tabel yang mengaktifkan SQL CDC asli.

  8. Setelah Anda memilih tabel sumber, pilih Lanjutkan untuk mengatur target data Anda.

    Cuplikan layar tombol Lanjutkan dalam proses terpandu untuk memilih target data.

  9. Pilih nilai Jenis target dengan menggunakan daftar dropdown. Untuk artikel ini, pilih Delta.

    Cuplikan layar menu dropdown dari semua jenis target data.

  10. Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.

    Cuplikan layar kotak untuk memilih atau membuat layanan tertaut ke target data Anda.

  11. Pilih folder data target Anda. Anda dapat menggunakan:

    • Tombol Telusuri di bawah Jalur dasar target, yang membantu Anda mengisi jalur penelusuran secara otomatis untuk semua tabel baru yang dipilih untuk sumber.
    • Tombol Telusuri di luar untuk memilih jalur folder secara individual.

    Cuplikan layar ikon folder untuk menelusuri jalur folder.

  12. Setelah Anda memilih jalur folder, pilih tombol Lanjutkan .

    Cuplikan layar tombol Lanjutkan dalam proses terpandu untuk melanjutkan ke langkah berikutnya.

  13. Tab baru untuk menangkap data perubahan muncul. Tab ini adalah studio CDC, tempat Anda dapat mengonfigurasi sumber daya baru Anda.

    Cuplikan layar studio penangkapan data perubahan.

    Pemetaan baru secara otomatis dibuat untuk Anda. Anda dapat memperbarui pilihan Tabel Sumber dan Tabel Target untuk pemetaan Anda dengan menggunakan daftar dropdown.

    Cuplikan layar pemetaan sumber ke target di studio penangkapan data perubahan.

  14. Setelah Anda memilih tabel, kolomnya dipetakan secara default dengan pengalih Peta otomatis diaktifkan. Peta otomatis secara otomatis memetakan kolom berdasarkan nama di sink, mengambil perubahan kolom baru saat skema sumber berkembang, dan mengalirkan informasi ini ke jenis sink yang didukung.

    Cuplikan layar pengalih untuk pemetaan otomatis diaktifkan.

    Catatan

    Evolusi skema hanya berfungsi ketika pengalih Peta otomatis diaktifkan. Untuk mempelajari cara mengedit pemetaan kolom atau menyertakan transformasi, lihat Mengambil data yang diubah dengan sumber daya penangkapan data perubahan.

  15. Pilih tautan Kunci , lalu pilih kolom Kunci yang akan digunakan untuk melacak operasi penghapusan.

    Cuplikan layar tautan untuk mengaktifkan pemilihan kolom Kunci.

    Cuplikan layar memilih kolom Kunci untuk sumber yang dipilih.

  16. Setelah pemetaan Anda selesai, atur latensi CDC Anda dengan menggunakan tombol Atur Latensi .

    Cuplikan layar tombol Atur Latensi di bagian atas kanvas.

  17. Pilih latensi CDC Anda, lalu pilih Terapkan untuk membuat perubahan.

    Secara default, latensi diatur ke 15 menit. Contoh dalam artikel ini menggunakan opsi Real-time untuk latensi. Latensi real time terus mengambil perubahan dalam data sumber Anda dalam interval kurang dari 1 menit.

    Untuk latensi lain (misalnya, jika Anda memilih 15 menit), pengambilan data perubahan Anda akan memproses data sumber Anda dan mengambil data yang diubah sejak waktu terakhir diproses.

    Cuplikan layar opsi untuk mengatur latensi.

  18. Setelah Selesai mengonfigurasi CDC, pilih Terbitkan semua untuk menerbitkan perubahan Anda.

    Cuplikan layar tombol terbitkan di bagian atas kanvas.

    Catatan

    Jika Anda tidak menerbitkan perubahan, Anda tidak akan dapat memulai sumber daya CDC Anda. Tombol Mulai di langkah berikutnya tidak akan tersedia.

  19. Pilih Mulai untuk mulai menjalankan pengambilan data perubahan Anda.

    Cuplikan layar tombol Mulai di bagian atas kanvas.

Sekarang setelah penangkapan data perubahan Anda berjalan, Anda dapat:

  • Gunakan halaman pemantauan untuk melihat berapa banyak perubahan (sisipkan, perbarui, atau hapus) yang dibaca dan ditulis, bersama dengan informasi diagnostik lainnya.

    Cuplikan layar halaman pemantauan pengambilan data perubahan yang dipilih.

    Cuplikan layar halaman pemantauan pengambilan data perubahan yang dipilih dengan tampilan terperinci.

  • Validasi bahwa data perubahan tiba di Delta Lake yang disimpan dalam Azure Data Lake Storage Gen2, dalam format Delta.

    Cuplikan layar folder Delta target.

  • Validasi skema data perubahan yang tiba.

    Cuplikan layar file Delta.

Membuat perubahan tingkat skema dinamis pada tabel sumber

  1. Tambahkan kolom PersonalEmail baru ke tabel sumber dengan menggunakan ALTER TABLE pernyataan T-SQL, seperti yang diperlihatkan dalam contoh berikut.

    Cuplikan layar perintah ALTER di Azure Data Studio.

  2. Validasi bahwa kolom PersonalEmail baru muncul di tabel yang sudah ada.

    Cuplikan layar desain tabel baru dengan kolom ditambahkan untuk email pribadi.

Memvalidasi perubahan skema di sink Delta

Konfirmasikan bahwa kolom baru PersonalEmail muncul di sink Delta. Anda sekarang tahu bahwa mengubah data dengan perubahan skema tiba di target.

Cuplikan layar file Delta dengan perubahan skema.