Menangkap data yang diubah dengan evolusi skema dari Azure SQL Database ke sink Delta dengan menggunakan sumber daya penangkapan data perubahan
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Dalam artikel ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat sumber daya pengambilan data perubahan (CDC). Sumber daya mengambil data yang diubah dari sumber Azure SQL Database dan menambahkannya ke Delta Lake yang disimpan di Azure Data Lake Storage Gen2, secara real time. Aktivitas ini menampilkan dukungan evolusi skema dengan menggunakan sumber daya CDC antara sumber dan sink.
Dalam artikel ini, Anda akan mempelajari cara:
- Buat sumber daya CDC.
- Buat perubahan skema dinamis pada tabel sumber.
- Validasi perubahan skema di sink Delta target.
Anda dapat mengubah dan memperluas pola konfigurasi dalam artikel ini.
Prasyarat
Sebelum Memulai prosedur dalam artikel ini, pastikan Anda memiliki sumber daya ini:
- Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure gratis.
- Database SQL. Anda menggunakan Azure SQL Database sebagai penyimpanan data sumber. Jika Anda tidak memiliki database SQL, buat database di portal Azure.
- Akun penyimpanan. Anda menggunakan Delta Lake yang disimpan di Azure Data Lake Storage Gen2 sebagai penyimpanan data target. Jika Anda tidak memiliki akun penyimpanan, lihat Membuat akun penyimpanan untuk langkah-langkah membuatnya.
Membuat artefak CDC
Buka panel Penulis di pabrik data Anda. Di bawah Alur, artefak tingkat atas baru yang disebut Ubah Penangkapan Data (pratinjau) muncul.
Arahkan mouse ke atas Ubah Pengambilan Data (pratinjau) hingga tiga titik muncul. Lalu pilih Ubah Tindakan Pengambilan Data (pratinjau).
Pilih CDC Baru (pratinjau). Langkah ini membuka flyout untuk memulai proses terpandu.
Anda diminta untuk memberi nama sumber daya CDC Anda. Secara default, namanya adalah "adfcdc" dengan angka yang bertambah 1. Anda dapat mengganti nama default ini dengan nama yang Anda pilih.
Gunakan daftar dropdown untuk memilih sumber data Anda. Untuk artikel ini, pilih Azure SQL Database.
Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.
Setelah memilih layanan tertaut, Anda akan diminta untuk memilih tabel sumber. Gunakan kotak centang untuk memilih tabel sumber, lalu pilih nilai Kolom bertambah bertahas dengan menggunakan daftar dropdown.
Panel hanya mencantumkan tabel yang telah mendukung tipe data kolom inkremental.
Catatan
Untuk mengaktifkan CDC dengan evolusi skema di sumber Azure SQL Database, pilih tabel berdasarkan kolom marka air daripada tabel yang mengaktifkan SQL CDC asli.
Setelah Anda memilih tabel sumber, pilih Lanjutkan untuk mengatur target data Anda.
Pilih nilai Jenis target dengan menggunakan daftar dropdown. Untuk artikel ini, pilih Delta.
Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.
Pilih folder data target Anda. Anda dapat menggunakan:
- Tombol Telusuri di bawah Jalur dasar target, yang membantu Anda mengisi jalur penelusuran secara otomatis untuk semua tabel baru yang dipilih untuk sumber.
- Tombol Telusuri di luar untuk memilih jalur folder secara individual.
Setelah Anda memilih jalur folder, pilih tombol Lanjutkan .
Tab baru untuk menangkap data perubahan muncul. Tab ini adalah studio CDC, tempat Anda dapat mengonfigurasi sumber daya baru Anda.
Pemetaan baru secara otomatis dibuat untuk Anda. Anda dapat memperbarui pilihan Tabel Sumber dan Tabel Target untuk pemetaan Anda dengan menggunakan daftar dropdown.
Setelah Anda memilih tabel, kolomnya dipetakan secara default dengan pengalih Peta otomatis diaktifkan. Peta otomatis secara otomatis memetakan kolom berdasarkan nama di sink, mengambil perubahan kolom baru saat skema sumber berkembang, dan mengalirkan informasi ini ke jenis sink yang didukung.
Catatan
Evolusi skema hanya berfungsi ketika pengalih Peta otomatis diaktifkan. Untuk mempelajari cara mengedit pemetaan kolom atau menyertakan transformasi, lihat Mengambil data yang diubah dengan sumber daya penangkapan data perubahan.
Pilih tautan Kunci , lalu pilih kolom Kunci yang akan digunakan untuk melacak operasi penghapusan.
Setelah pemetaan Anda selesai, atur latensi CDC Anda dengan menggunakan tombol Atur Latensi .
Pilih latensi CDC Anda, lalu pilih Terapkan untuk membuat perubahan.
Secara default, latensi diatur ke 15 menit. Contoh dalam artikel ini menggunakan opsi Real-time untuk latensi. Latensi real time terus mengambil perubahan dalam data sumber Anda dalam interval kurang dari 1 menit.
Untuk latensi lain (misalnya, jika Anda memilih 15 menit), pengambilan data perubahan Anda akan memproses data sumber Anda dan mengambil data yang diubah sejak waktu terakhir diproses.
Setelah Selesai mengonfigurasi CDC, pilih Terbitkan semua untuk menerbitkan perubahan Anda.
Catatan
Jika Anda tidak menerbitkan perubahan, Anda tidak akan dapat memulai sumber daya CDC Anda. Tombol Mulai di langkah berikutnya tidak akan tersedia.
Pilih Mulai untuk mulai menjalankan pengambilan data perubahan Anda.
Sekarang setelah penangkapan data perubahan Anda berjalan, Anda dapat:
Gunakan halaman pemantauan untuk melihat berapa banyak perubahan (sisipkan, perbarui, atau hapus) yang dibaca dan ditulis, bersama dengan informasi diagnostik lainnya.
Validasi bahwa data perubahan tiba di Delta Lake yang disimpan dalam Azure Data Lake Storage Gen2, dalam format Delta.
Validasi skema data perubahan yang tiba.
Membuat perubahan tingkat skema dinamis pada tabel sumber
Tambahkan kolom PersonalEmail baru ke tabel sumber dengan menggunakan
ALTER TABLE
pernyataan T-SQL, seperti yang diperlihatkan dalam contoh berikut.Validasi bahwa kolom PersonalEmail baru muncul di tabel yang sudah ada.
Memvalidasi perubahan skema di sink Delta
Konfirmasikan bahwa kolom baru PersonalEmail muncul di sink Delta. Anda sekarang tahu bahwa mengubah data dengan perubahan skema tiba di target.
Konten terkait
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk