Mengambil data yang diubah dari Azure Data Lake Storage Gen2 ke Azure SQL Database dengan menggunakan sumber daya penangkapan data perubahan
BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Dalam artikel ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat sumber daya pengambilan data perubahan (CDC). Sumber daya mengambil data yang diubah dari sumber Azure Data Lake Storage Gen2 dan menambahkannya ke Azure SQL Database secara real time.
Dalam artikel ini, Anda akan mempelajari cara:
- Buat sumber daya CDC.
- Memantau aktivitas CDC.
Anda dapat mengubah dan memperluas pola konfigurasi dalam artikel ini.
Prasyarat
Sebelum Memulai prosedur dalam artikel ini, pastikan Anda memiliki sumber daya ini:
- Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure gratis.
- Database SQL. Anda menggunakan Azure SQL Database sebagai penyimpanan data sumber. Jika Anda tidak memiliki database SQL, buat database di portal Azure.
- Akun penyimpanan. Anda menggunakan Delta Lake yang disimpan di Azure Data Lake Storage Gen2 sebagai penyimpanan data target. Jika Anda tidak memiliki akun penyimpanan, lihat Membuat akun penyimpanan untuk langkah-langkah membuatnya.
Membuat artefak CDC
Buka panel Penulis di pabrik data Anda. Di bawah Alur, artefak tingkat atas baru yang disebut Ubah Penangkapan Data (pratinjau) muncul.
Arahkan mouse ke atas Ubah Pengambilan Data (pratinjau) hingga tiga titik muncul. Lalu pilih Ubah Tindakan Pengambilan Data (pratinjau).
Pilih CDC Baru (pratinjau). Langkah ini membuka flyout untuk memulai proses terpandu.
Anda diminta untuk memberi nama sumber daya CDC Anda. Secara default, namanya adalah "adfcdc" dengan angka yang bertambah 1. Anda dapat mengganti nama default ini dengan nama yang Anda pilih.
Gunakan daftar dropdown untuk memilih sumber data Anda. Untuk artikel ini, pilih DelimitedText.
Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.
Gunakan area Pengaturan sumber untuk mengatur konfigurasi sumber tingkat lanjut secara opsional, termasuk pemisah kolom dan baris.
Jika Anda tidak mengedit pengaturan sumber ini secara manual, pengaturan tersebut diatur ke default.
Gunakan tombol Telusuri untuk memilih folder data sumber Anda.
Setelah Anda memilih jalur folder, pilih Lanjutkan untuk mengatur target data Anda.
Anda dapat memilih untuk menambahkan beberapa folder sumber dengan menggunakan tombol plus (+). Sumber lain juga harus menggunakan layanan tertaut yang sama dengan yang sudah Anda pilih.
Pilih nilai Jenis target dengan menggunakan daftar dropdown. Untuk artikel ini, pilih Azure SQL Database.
Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.
Untuk Tabel target, Anda bisa membuat tabel target baru atau memilih tabel yang sudah ada:
Untuk membuat tabel target, pilih tab Entitas baru, lalu pilih Edit tabel baru.
Untuk memilih tabel yang sudah ada, pilih tab Entitas yang sudah ada, lalu gunakan kotak centang untuk memilih tabel. Gunakan tombol Pratinjau untuk menampilkan data tabel Anda.
Jika tabel yang ada di target memiliki nama yang cocok, tabel tersebut dipilih secara default di bawah Entitas yang ada. Jika tidak, tabel baru dengan nama yang cocok dibuat di bawah Entitas baru. Selain itu, Anda dapat mengedit tabel baru dengan menggunakan tombol Edit tabel baru.
Anda dapat menggunakan kotak centang untuk memilih beberapa tabel target dari database SQL Anda. Setelah Anda selesai memilih tabel target, pilih Lanjutkan.
Tab baru untuk menangkap data perubahan muncul. Tab ini adalah studio CDC, tempat Anda dapat mengonfigurasi sumber daya baru Anda.
Pemetaan baru secara otomatis dibuat untuk Anda. Anda dapat memperbarui pilihan Tabel Sumber dan Tabel Target untuk pemetaan Anda dengan menggunakan daftar dropdown.
Setelah Anda memilih tabel, kolomnya dipetakan secara default dengan pengalih Peta otomatis diaktifkan. Peta otomatis secara otomatis memetakan kolom berdasarkan nama di sink, mengambil perubahan kolom baru saat skema sumber berkembang, dan mengalirkan informasi ini ke jenis sink yang didukung.
Jika Anda ingin menggunakan Peta otomatis dan tidak mengubah pemetaan kolom apa pun, langsung buka langkah 18.
Jika Anda ingin mengaktifkan pemetaan kolom, pilih pemetaan dan nonaktifkan tombol Peta otomatis. Kemudian, pilih tombol Pemetaan kolom untuk melihat pemetaan.
Anda dapat beralih kembali ke pemetaan otomatis kapan saja dengan mengaktifkan tombol Peta otomatis.
Menampilkan pemetaan kolom Anda. Gunakan daftar dropdown untuk mengedit pemetaan kolom Anda untuk metode Pemetaan, kolom Sumber, dan kolom Target.
Dari halaman ini, Anda dapat:
- Tambahkan lebih banyak pemetaan kolom dengan menggunakan tombol Pemetaan baru. Gunakan daftar dropdown untuk membuat pilihan untuk metode Pemetaan, kolom Sumber, dan kolom Target.
- Pilih kolom Kunci jika Anda ingin melacak operasi penghapusan untuk jenis sink yang didukung.
- Pilih tombol Refresh di bawah Pratinjau data untuk memvisualisasikan tampilan data pada target.
Saat pemetaan Anda selesai, pilih tombol panah untuk kembali ke kanvas CDC utama.
Anda dapat menambahkan lebih banyak pemetaan sumber ke target dalam satu artefak CDC. Gunakan tombol Edit untuk menambahkan lebih banyak sumber data dan target. Kemudian, pilih Pemetaan baru dan gunakan daftar drop-down untuk mengatur sumber dan target baru. Anda dapat mengaktifkan atau menonaktifkan Peta otomatis untuk setiap pemetaan ini secara independen.
Setelah pemetaan Anda selesai, atur latensi CDC Anda dengan menggunakan tombol Atur Latensi .
Pilih latensi CDC Anda, lalu pilih Terapkan untuk membuat perubahan.
Secara default, latensi diatur ke 15 menit. Contoh dalam artikel ini menggunakan opsi Real-time untuk latensi. Latensi real time terus mengambil perubahan dalam data sumber Anda dalam interval kurang dari 1 menit.
Untuk latensi lain (misalnya, jika Anda memilih 15 menit), pengambilan data perubahan Anda akan memproses data sumber Anda dan mengambil data yang diubah sejak waktu terakhir diproses.
Catatan
Jika dukungan diperluas ke integrasi data streaming (Azure Event Hubs dan sumber data Kafka), latensi akan diatur ke Real-time secara default.
Setelah Selesai mengonfigurasi CDC, pilih Terbitkan semua untuk menerbitkan perubahan Anda.
Catatan
Jika Anda tidak menerbitkan perubahan, Anda tidak akan dapat memulai sumber daya CDC Anda. Tombol Mulai di langkah berikutnya tidak akan tersedia.
Pilih Mulai untuk mulai menjalankan pengambilan data perubahan Anda.
Memantau penangkapan data perubahan Anda
Buka panel Monitor dengan menggunakan salah satu metode ini:
Pilih Ubah Penangkapan Data (pratinjau) untuk melihat sumber daya CDC Anda.
Panel Ubah Penangkapan Data memperlihatkan informasi Sumber, Target, Status, dan Terakhir diproses untuk pengambilan data perubahan Anda.
Pilih nama CDC Anda untuk melihat detail selengkapnya. Anda dapat melihat berapa banyak perubahan (menyisipkan, memperbarui, atau menghapus) yang dibaca dan ditulis, bersama dengan informasi diagnostik lainnya.
Jika Anda menyiapkan beberapa pemetaan dalam pengambilan data perubahan, setiap pemetaan muncul sebagai warna yang berbeda. Pilih bilah untuk melihat detail tertentu untuk setiap pemetaan, atau gunakan informasi diagnostik di bagian bawah panel.