Mengambil data yang diubah dari Azure Data Lake Storage Gen2 ke Azure SQL Database dengan menggunakan sumber daya penangkapan data perubahan

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam artikel ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat sumber daya pengambilan data perubahan (CDC). Sumber daya mengambil data yang diubah dari sumber Azure Data Lake Storage Gen2 dan menambahkannya ke Azure SQL Database secara real time.

Dalam artikel ini, Anda akan mempelajari cara:

  • Buat sumber daya CDC.
  • Memantau aktivitas CDC.

Anda dapat mengubah dan memperluas pola konfigurasi dalam artikel ini.

Prasyarat

Sebelum Memulai prosedur dalam artikel ini, pastikan Anda memiliki sumber daya ini:

  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure gratis.
  • Database SQL. Anda menggunakan Azure SQL Database sebagai penyimpanan data sumber. Jika Anda tidak memiliki database SQL, buat database di portal Azure.
  • Akun penyimpanan. Anda menggunakan Delta Lake yang disimpan di Azure Data Lake Storage Gen2 sebagai penyimpanan data target. Jika Anda tidak memiliki akun penyimpanan, lihat Membuat akun penyimpanan untuk langkah-langkah membuatnya.

Membuat artefak CDC

  1. Buka panel Penulis di pabrik data Anda. Di bawah Alur, artefak tingkat atas baru yang disebut Ubah Penangkapan Data (pratinjau) muncul.

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Arahkan mouse ke atas Ubah Pengambilan Data (pratinjau) hingga tiga titik muncul. Lalu pilih Ubah Tindakan Pengambilan Data (pratinjau).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Pilih CDC Baru (pratinjau). Langkah ini membuka flyout untuk memulai proses terpandu.

    Screenshot of a list of change data capture actions.

  4. Anda diminta untuk memberi nama sumber daya CDC Anda. Secara default, namanya adalah "adfcdc" dengan angka yang bertambah 1. Anda dapat mengganti nama default ini dengan nama yang Anda pilih.

    Screenshot of the text box to update the name of a resource.

  5. Gunakan daftar dropdown untuk memilih sumber data Anda. Untuk artikel ini, pilih DelimitedText.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.

    Screenshot of the box to choose or create a linked service.

  7. Gunakan area Pengaturan sumber untuk mengatur konfigurasi sumber tingkat lanjut secara opsional, termasuk pemisah kolom dan baris.

    Screenshot of advanced source settings to set delimiters.

    Jika Anda tidak mengedit pengaturan sumber ini secara manual, pengaturan tersebut diatur ke default.

  8. Gunakan tombol Telusuri untuk memilih folder data sumber Anda.

    Screenshot of a folder icon to browse for a folder path.

  9. Setelah Anda memilih jalur folder, pilih Lanjutkan untuk mengatur target data Anda.

    Screenshot of the Continue button in the guided process to select data targets.

    Anda dapat memilih untuk menambahkan beberapa folder sumber dengan menggunakan tombol plus (+). Sumber lain juga harus menggunakan layanan tertaut yang sama dengan yang sudah Anda pilih.

  10. Pilih nilai Jenis target dengan menggunakan daftar dropdown. Untuk artikel ini, pilih Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Anda diminta untuk memilih layanan tertaut. Buat layanan tertaut baru atau pilih layanan yang sudah ada.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Untuk Tabel target, Anda bisa membuat tabel target baru atau memilih tabel yang sudah ada:

    • Untuk membuat tabel target, pilih tab Entitas baru, lalu pilih Edit tabel baru.

      Screenshot of the tab to create new tables for your target.

    • Untuk memilih tabel yang sudah ada, pilih tab Entitas yang sudah ada, lalu gunakan kotak centang untuk memilih tabel. Gunakan tombol Pratinjau untuk menampilkan data tabel Anda.

      Screenshot of the tab to choose tables for your target.

    Jika tabel yang ada di target memiliki nama yang cocok, tabel tersebut dipilih secara default di bawah Entitas yang ada. Jika tidak, tabel baru dengan nama yang cocok dibuat di bawah Entitas baru. Selain itu, Anda dapat mengedit tabel baru dengan menggunakan tombol Edit tabel baru.

  13. Anda dapat menggunakan kotak centang untuk memilih beberapa tabel target dari database SQL Anda. Setelah Anda selesai memilih tabel target, pilih Lanjutkan.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Tab baru untuk menangkap data perubahan muncul. Tab ini adalah studio CDC, tempat Anda dapat mengonfigurasi sumber daya baru Anda.

    Screenshot of the change data capture studio.

    Pemetaan baru secara otomatis dibuat untuk Anda. Anda dapat memperbarui pilihan Tabel Sumber dan Tabel Target untuk pemetaan Anda dengan menggunakan daftar dropdown.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Setelah Anda memilih tabel, kolomnya dipetakan secara default dengan pengalih Peta otomatis diaktifkan. Peta otomatis secara otomatis memetakan kolom berdasarkan nama di sink, mengambil perubahan kolom baru saat skema sumber berkembang, dan mengalirkan informasi ini ke jenis sink yang didukung.

    Jika Anda ingin menggunakan Peta otomatis dan tidak mengubah pemetaan kolom apa pun, langsung buka langkah 18.

    Screenshot of the toggle for automatic mapping turned on.

    Jika Anda ingin mengaktifkan pemetaan kolom, pilih pemetaan dan nonaktifkan tombol Peta otomatis. Kemudian, pilih tombol Pemetaan kolom untuk melihat pemetaan.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Anda dapat beralih kembali ke pemetaan otomatis kapan saja dengan mengaktifkan tombol Peta otomatis.

  16. Menampilkan pemetaan kolom Anda. Gunakan daftar dropdown untuk mengedit pemetaan kolom Anda untuk metode Pemetaan, kolom Sumber, dan kolom Target.

    Screenshot of the page for editing column mappings.

    Dari halaman ini, Anda dapat:

    • Tambahkan lebih banyak pemetaan kolom dengan menggunakan tombol Pemetaan baru. Gunakan daftar dropdown untuk membuat pilihan untuk metode Pemetaan, kolom Sumber, dan kolom Target.
    • Pilih kolom Kunci jika Anda ingin melacak operasi penghapusan untuk jenis sink yang didukung.
    • Pilih tombol Refresh di bawah Pratinjau data untuk memvisualisasikan tampilan data pada target.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Saat pemetaan Anda selesai, pilih tombol panah untuk kembali ke kanvas CDC utama.

    Screenshot of the button to go back to the table mapping page.

  18. Anda dapat menambahkan lebih banyak pemetaan sumber ke target dalam satu artefak CDC. Gunakan tombol Edit untuk menambahkan lebih banyak sumber data dan target. Kemudian, pilih Pemetaan baru dan gunakan daftar drop-down untuk mengatur sumber dan target baru. Anda dapat mengaktifkan atau menonaktifkan Peta otomatis untuk setiap pemetaan ini secara independen.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Setelah pemetaan Anda selesai, atur latensi CDC Anda dengan menggunakan tombol Atur Latensi .

    Screenshot of the Set Latency button at the top of the canvas.

  20. Pilih latensi CDC Anda, lalu pilih Terapkan untuk membuat perubahan.

    Secara default, latensi diatur ke 15 menit. Contoh dalam artikel ini menggunakan opsi Real-time untuk latensi. Latensi real time terus mengambil perubahan dalam data sumber Anda dalam interval kurang dari 1 menit.

    Untuk latensi lain (misalnya, jika Anda memilih 15 menit), pengambilan data perubahan Anda akan memproses data sumber Anda dan mengambil data yang diubah sejak waktu terakhir diproses.

    Screenshot of the options for setting latency.

    Catatan

    Jika dukungan diperluas ke integrasi data streaming (Azure Event Hubs dan sumber data Kafka), latensi akan diatur ke Real-time secara default.

  21. Setelah Selesai mengonfigurasi CDC, pilih Terbitkan semua untuk menerbitkan perubahan Anda.

    Screenshot of the publish button at the top of the canvas.

    Catatan

    Jika Anda tidak menerbitkan perubahan, Anda tidak akan dapat memulai sumber daya CDC Anda. Tombol Mulai di langkah berikutnya tidak akan tersedia.

  22. Pilih Mulai untuk mulai menjalankan pengambilan data perubahan Anda.

    Screenshot of the Start button at the top of the canvas.

Memantau penangkapan data perubahan Anda

  1. Buka panel Monitor dengan menggunakan salah satu metode ini:

    • Pilih Pantau di portal Azure.

      Screenshot of the Monitor button in the Azure portal.

    • Pilih ikon pemantauan dari perancang CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Pilih Ubah Penangkapan Data (pratinjau) untuk melihat sumber daya CDC Anda.

    Screenshot of the Change Data Capture button.

    Panel Ubah Penangkapan Data memperlihatkan informasi Sumber, Target, Status, dan Terakhir diproses untuk pengambilan data perubahan Anda.

    Screenshot of an overview of the change data capture monitoring page.

  3. Pilih nama CDC Anda untuk melihat detail selengkapnya. Anda dapat melihat berapa banyak perubahan (menyisipkan, memperbarui, atau menghapus) yang dibaca dan ditulis, bersama dengan informasi diagnostik lainnya.

    Screenshot of the detailed monitoring of a selected change data capture.

    Jika Anda menyiapkan beberapa pemetaan dalam pengambilan data perubahan, setiap pemetaan muncul sebagai warna yang berbeda. Pilih bilah untuk melihat detail tertentu untuk setiap pemetaan, atau gunakan informasi diagnostik di bagian bawah panel.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.