Bagikan melalui


Refresh bertahap untuk Power Query dan sumber data Data Lake Storage

Refresh bertahap untuk sumber data berdasarkan Power Query (pratinjau) atau Azure Data Lake Storage memberikan keuntungan berikut:

  • Refresh lebih cepat- Hanya data yang telah berubah yang di-refresh. Misalnya, Anda mungkin hanya me-refresh lima hari terakhir dari kumpulan data historis.
  • Peningkatan keandalan - Dengan penyegaran yang lebih kecil, Anda tidak perlu mempertahankan koneksi ke sistem sumber volatil selama ini, mengurangi risiko masalah koneksi.
  • Mengurangi konsumsi sumber daya- Menyegarkan hanya sebagian dari total data Anda mengarah pada penggunaan sumber daya komputasi yang lebih efisien dan mengurangi jejak lingkungan.

Mengonfigurasi refresh inkremental untuk sumber data berdasarkan Power Query (pratinjau)

[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]

Konfigurasikan sumber data apa pun Power Query untuk Customer Insights - Data menyegarkan data secara bertahap. Sumber data harus memiliki kolom kunci utama yang secara unik mengidentifikasi rekaman dan kolom datetime yang menunjukkan kapan data terakhir diperbarui.

Penting

  • Ini adalah fitur pratinjau.
  • Fitur pratinjau tidak dibuat untuk penggunaan produksi dan mungkin memiliki fungsionalitas terbatas. Fitur ini tersedia sebelum rilis resmi agar pelanggan bisa memperoleh akses awal dan memberikan tanggapan.
  1. Buat sumber data baru berdasarkan Power Query.

  2. Pilih sumber data yang mendukung refresh bertahap, seperti database Azure SQL.

  3. Pilih tabel yang akan diserap.

  4. Selesaikan langkah-langkah transformasi dan pilih Berikutnya.

  5. Dalam kotak dialog Siapkan refresh bertahap, pilih Siapkan untuk membuka pengaturan Refresh bertahap. Jika Anda memilih Lewati, sumber data akan me-refresh seluruh himpunan data.

    Tip

    Anda juga dapat menerapkan penyegaran tambahan nanti dengan mengedit sumber data yang ada.

  6. Pada pengaturan Refresh bertahap, konfigurasikan refresh bertahap untuk semua tabel yang Anda pilih saat membuat sumber data.

    Konfigurasikan setelan refresh inkremental.

  7. Pilih tabel, dan berikan detail berikut:

    • Menentukan kunci utama: Pilih kunci utama untuk tabel.
    • Tentukan kolom "terakhir diperbarui": Kolom ini hanya menampilkan atribut jenis tanggal atau waktu. Pilih atribut yang menunjukkan Kapan rekaman terakhir diperbarui. Atribut ini mengidentifikasi rekaman yang termasuk dalam jangka waktu refresh inkremental.
    • Periksa pembaruan setiap: Tentukan berapa lama Anda ingin jangka waktu refresh bertahap.
  8. Pilih Simpan untuk menyelesaikan pembuatan sumber data. Refresh data awal adalah refresh penuh. Setelah itu, penyegaran data tambahan terjadi sebagaimana dikonfigurasi di langkah sebelumnya.

Mengonfigurasi refresh inkremental untuk Azure Data Lake Storage sumber data

Microsoft merekomendasikan format Delta Lake untuk mendapatkan kinerja dan hasil terbaik untuk bekerja dengan kumpulan data besar. Customer Insights - Data menyediakan konektor yang dioptimalkan untuk data berformat Delta Lake. Proses internal seperti penyatuan dioptimalkan untuk secara bertahap hanya memproses data yang diubah, menghasilkan waktu pemrosesan yang lebih singkat.

Untuk menggunakan penyerapan dan refresh bertahap untuk tabel Data Lake, konfigurasikan tabel tersebut saat menambahkan atau mengedit Azure Data Lake sumber data. Folder data tabel harus berisi folder berikut ini:

  • FullData: Folder dengan file data yang berisi catatan awal
  • IncrementalData: Folder dengan folder hierarki tanggal/waktu dalam format yyyy/mm/dd/hh yang berisi pembaruan tambahan. Folder tahun, bulan, hari, dan jam masing-masing diharapkan empat dan dua digit. hh mewakili jam UTC pembaruan dan berisi folder Upserts dan Deletes . Upserts berisi file data dengan pembaruan ke catatan yang ada atau catatan baru. Hapus berisi file data dengan catatan untuk dihapus.

Urutan pemrosesan data inkremental

Sistem memproses file di folder IncrementalData setelah jam UTC yang ditentukan berakhir. Misalnya, jika sistem mulai memproses refresh inkremental pada 21 Januari 2023 pukul 08.15, semua file yang ada di folder 2023/01/21/07 (mewakili file data yang disimpan dari pukul 07.00 hingga 08.00) akan diproses. File apa pun di folder 2023/01/21/08 (mewakili jam saat ini di mana file masih dibuat) tidak diproses hingga proses berikutnya.

Jika ada dua catatan untuk kunci utama, upsert dan delete, Customer Insights - Data menggunakan catatan dengan tanggal modifikasi terbaru. Misalnya, jika stempel waktu penghapusan adalah 2023-01-21T08:00:00 dan stempel waktu upsert adalah 2023-01-21T08:30:00, stempel waktu penghapusan adalah #-21T08:00:00 dan stempel waktu upsert adalah #-21T08:30:00, data upsert akan digunakan. Jika penghapusan terjadi setelah upsert, sistem mengasumsikan catatan dihapus.

Mengonfigurasi refresh bertahap untuk sumber data Azure Data Lake

  1. Saat menambahkan atau mengedit sumber data, navigasikan ke panel Atribut untuk tabel.

  2. Tinjau atributnya. Pastikan atribut tanggal yang dibuat atau terakhir diperbarui disiapkan dengan formatData dateTime dan jenis Semantik Calendar.Date. Edit atribut jika perlu dan pilih Selesai.

  3. Dari panel Pilih Tabel , edit tabel. Kotak centang Akses inkremental dipilih.

    Konfigurasikan tabel dalam sumber data untuk refresh bertahap.

    1. Telusuri ke folder akar yang berisi file .csv atau .parquet untuk data lengkap, peningkatan data inkremental, dan penghapusan data inkremental.
    2. Masukkan ekstensi untuk data lengkap dan kedua file inkremental (.csv atau .parquet).
    3. Untuk file .csv, pilih pembatas kolom dan jika Anda menginginkan baris pertama file sebagai header kolom.
    4. Pilih Simpan.
  4. Untuk Terakhir diperbarui, pilih atribut stempel waktu tanggal.

  5. Jika Kunci utama tidak dipilih, pilih kunci utama. Kunci utama adalah atribut unik untuk tabel. Agar atribut menjadi kunci primer yang valid, ia seharusnya tidak menyertakan nilai duplikat, nilai yang tidak ada, atau nilai null. Atribut tipe data string, integer, dan GUID didukung sebagai kunci utama.

  6. Pilih Tutup untuk menyimpan dan menutup panel.

  7. Lanjutkan dengan menambahkan atau mengedit sumber data.

Menjalankan refresh penuh satu kali untuk sumber data Azure Data Lake

Setelah Anda mengonfigurasi refresh inkremental untuk sumber data Azure Data Lake, ada kalanya data perlu diproses dengan refresh penuh. Folder data lengkap yang disiapkan untuk refresh inkremental harus berisi lokasi data lengkap.

  1. Saat mengedit sumber data, navigasikan ke panel Pilih tabel dan edit tabel yang ingin Anda refresh.

  2. Pada panel Edit tabel , gulir ke kotak centang Jalankan refresh penuh satu kali dan pilih.

    Konfigurasikan tabel dalam sumber data untuk refresh satu kali.

  3. Untuk Memproses file inkremental dari, tentukan tanggal dan waktu untuk menyimpan file inkremental. Data lengkap ditambah data inkremental mulai diproses setelah tanggal dan waktu yang ditentukan. Misalnya, jika Anda ingin melakukan refresh/pengisian ulang sebagian data hingga akhir November sambil mempertahankan data inkremental dari awal Desember hingga hari ini (30 Desember), masukkan 1 Desember. Untuk mengganti semua data dan mengabaikan data di folder inkremental, tentukan tanggal mendatang.

  4. Pilih Tutup untuk menyimpan dan menutup panel.

  5. Pilih Simpan untuk menerapkan perubahan dan kembali ke halaman Sumber data . Sumber data dalam status Refreshing , melakukan refresh penuh.