Kongsi melalui


Amalan terbaik penyatuan data

Apabila anda menyediakan peraturan untuk menyatukan data anda ke dalam profil pelanggan, pertimbangkan amalan terbaik ini:

  • Seimbangkan masa untuk menyatukan berbanding padanan lengkap. Percubaan untuk menangkap setiap perlawanan yang mungkin membawa kepada banyak peraturan dan penyatuan mengambil masa yang lama.

  • Tambah peraturan secara progresif dan jejaki keputusan. Alih keluar peraturan yang tidak meningkatkan keputusan perlawanan.

  • Nyahduplikasi setiap jadual supaya setiap pelanggan diwakili dalam satu baris.

  • Gunakan normalisasi untuk menyeragamkan variasi dalam cara data dimasukkan seperti Jalan lwn St lwn St. lwn st.

  • Gunakan padanan kabur secara strategik untuk membetulkan kesilapan menaip dan ralat seperti bob@contoso.com dan bob@contoso.cm. Perlawanan kabur mengambil masa lebih lama untuk dijalankan daripada padanan tepat. Sentiasa uji untuk melihat sama ada masa tambahan yang dihabiskan untuk padanan kabur berbaloi dengan kadar padanan tambahan.

  • Sempitkan skop padanan dengan padanan tepat. Pastikan setiap peraturan dengan keadaan kabur mempunyai sekurang-kurangnya satu syarat padanan yang tepat.

  • Jangan padankan lajur yang mengandungi data yang banyak diulang. Pastikan lajur yang dipadankan kabur tidak mempunyai nilai yang kerap diulang, seperti nilai lalai borang "Nama Pertama".

Persembahan penyatuan

Setiap peraturan memerlukan masa untuk dijalankan. Corak seperti membandingkan setiap jadual dengan setiap jadual lain atau cuba menangkap setiap padanan rekod yang mungkin boleh menyebabkan masa pemprosesan penyatuan yang lama. Ia juga mengembalikan sedikit jika ada lagi padanan ke atas pelan yang membandingkan setiap jadual dengan jadual asas.

Pendekatan terbaik ialah bermula dengan set peraturan asas yang anda tahu diperlukan, seperti membandingkan setiap jadual dengan jadual utama anda. Jadual utama anda hendaklah jadual dengan data yang paling lengkap dan tepat. Jadual ini hendaklah disusun di bahagian atas dalam langkah penyatuan peraturan padanan.

Tambahkan beberapa peraturan secara beransur-ansur dan lihat berapa lama perubahan diambil untuk dijalankan dan jika hasil anda bertambah baik. Pergi ke Tetapan>Status Sistem> dan pilih Padankan untuk melihat tempoh masa penyahduplikasian dan pemadanan diambil untuk setiap larian penyatuan.

Tangkapan skrin halaman Status yang menunjukkan masa larian Perlawanan.

Lihat statistik peraturan pada halaman Peraturan penyahduplikasian dan Peraturan padanan untuk melihat sama ada bilangan rekod Unik berubah. Jika peraturan baharu sepadan dengan beberapa rekod dan kiraan rekod unik tidak berubah, maka peraturan sebelumnya mengenal pasti padanan tersebut.

Tangkapan skrin halaman Peraturan padanan yang menyerlahkan rekod Unik.

Penyahduplikasian

Gunakan peraturan penyahduplikasian untuk mengalih keluar rekod pelanggan pendua dalam jadual supaya satu baris dalam setiap jadual mewakili setiap pelanggan. Peraturan yang baik mengenal pasti pelanggan yang unik.

Dalam contoh mudah ini, rekod 1, 2 dan 3 berkongsi sama ada e-mel atau nombor telefon, dan mewakili orang yang sama.

ID Nama Nombor Telefon E-mel
1 Orang 1 (425) 555-1111 AAA@A.com
2 Orang 1 (425) 555-1111 BBB@B.com
3 Orang 1 (425) 555-2222 BBB@B.com
4 Orang 2 (206) 555-9999 Person2@contoso.com

Kami tidak mahu memadankan nama sahaja kerana itu akan memadankan orang yang berbeza dengan nama yang sama.

  • Cipta Peraturan 1 menggunakan Nama dan Telefon, yang sepadan dengan rekod 1 dan 2.

  • Cipta Peraturan 2 menggunakan Nama dan E-mel, yang sepadan dengan rekod 2 dan 3.

Gabungan Peraturan 1 dan Peraturan 2 mencipta kumpulan perlawanan tunggal kerana mereka berkongsi rekod 2.

Anda menentukan bilangan peraturan dan syarat yang mengenal pasti pelanggan anda secara unik. Peraturan yang tepat bergantung pada data yang anda ada untuk dipadankan, kualiti data anda dan sejauh mana anda mahu proses penyahduplikasian dilakukan.

Rekod pemenang dan alternatif

Sebaik sahaja peraturan dijalankan dan rekod pendua dikenal pasti, proses penyahduplikasian memilih "Baris pemenang." Baris bukan pemenang dipanggil "Baris alternatif." Baris alternatif digunakan dalam langkah penyatuan peraturan padanan untuk memadankan rekod daripada jadual lain ke baris pemenang. Baris dipadankan dengan data dalam baris alternatif sebagai tambahan kepada baris pemenang.

Sebaik sahaja anda menambah peraturan pada jadual, anda boleh mengkonfigurasi baris yang hendak dipilih sebagai baris pemenang melalui pilihan Gabung. Pilihan gabung ditetapkan setiap jadual. Tidak kira dasar gabungan yang dipilih, jika terdapat seri untuk baris pemenang, maka baris pertama dalam susunan data digunakan sebagai pemecah seri.

Normalisasi

Gunakan normalisasi untuk menyeragamkan data untuk padanan yang lebih baik. Normalisasi berfungsi dengan baik pada set data yang besar.

Data yang dinormalkan hanya digunakan untuk tujuan perbandingan untuk memadankan rekod pelanggan dengan lebih berkesan. Ia tidak mengubah data dalam output profil pelanggan bersatu akhir.

Normalisasi Contoh
Angka Menukar banyak simbol Unicode yang mewakili nombor kepada nombor mudah.
Contoh: ❽ dan VIII. kedua-duanya dinormalkan kepada nombor 8.
Nota: Simbol mesti dikodkan dalam Format Mata Unicode.
Simbol Mengalih keluar simbol dan aksara khas.
Contoh: !?" #$%&'( )+,.-/:;<=>@^~'{}[ ]
Teks kepada huruf kecil Menukar aksara huruf besar kepada huruf kecil. 
Contoh: "INI Adalah aN EXamplE" ditukar kepada "ini adalah contoh"
Jenis – Telefon Menukar telefon dalam pelbagai format kepada digit dan mengambil kira variasi dalam cara kod negara dan sambungan dipersembahkan. 
Contoh: +01 425.555.1212 = 1 (425) 555-1212
Jenis - Nama Menukar lebih daripada 500 variasi dan tajuk nama biasa. 
Contoh: "debby" -> "deborah" "prof" dan "profesor" -"> prof."
Jenis - Alamat Menukar bahagian biasa alamat
Contoh: "jalan" -> "st" dan "barat laut" -> "nw"
Jenis - Organisasi Mengalih keluar kira-kira 50 nama syarikat "perkataan bunyi" seperti "co", "corp", "corporation" dan "ltd."
Unikod kepada ASCII Menukar aksara Unicode kepada huruf ASCII yang setara
Contoh: Aksara 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' '(A),' dan 'A' semuanya ditukar kepada 'a.'
Ruang kosong Mengalih keluar semua ruang putih
Pemetaan alias Membolehkan anda memuat naik senarai tersuai pasangan rentetan yang kemudiannya boleh digunakan untuk menunjukkan rentetan yang harus sentiasa dianggap sebagai padanan tepat. 
Gunakan pemetaan alias apabila anda mempunyai contoh data khusus yang anda fikir sepatutnya sepadan dan tidak dipadankan menggunakan salah satu corak normalisasi yang lain. 
Contoh: Scott dan Scooter, atau MSFT dan Microsoft.
Pintasan tersuai Membolehkan anda memuat naik senarai rentetan tersuai yang kemudiannya boleh digunakan untuk menunjukkan rentetan yang tidak sepatutnya dipadankan.
Pintasan tersuai berguna apabila anda mempunyai data dengan nilai biasa yang harus diabaikan, seperti nombor telefon palsu atau e-mel palsu. 
Contoh: Jangan sekali-kali memadankan telefon 555-1212 atau test@contoso.com

Padanan tepat

Gunakan ketepatan untuk menentukan sejauh mana dua rentetan sepatutnya dianggap sepadan. Tetapan ketepatan lalai memerlukan padanan tepat. Sebarang nilai lain membolehkan padanan kabur untuk keadaan tersebut.

Ketepatan boleh ditetapkan kepada rendah (padanan 30%), sederhana (padanan 60%) dan tinggi (padanan 80%). Atau anda boleh menyesuaikan dan menetapkan ketepatan dalam kenaikan 1%.

Syarat padanan tepat

Keadaan padanan tepat dijalankan terlebih dahulu untuk mendapatkan set nilai yang lebih kecil untuk padanan kabur. Untuk menjadi berkesan, keadaan padanan yang tepat harus mempunyai tahap keunikan yang munasabah. Contohnya, jika semua pelanggan anda tinggal di negara/rantau yang sama, maka mempunyai padanan tepat pada negara/rantau tidak akan membantu mengecilkan skop.

Lajur seperti medan nama penuh, e-mel, telefon atau alamat mempunyai keunikan yang baik dan merupakan lajur yang bagus untuk digunakan sebagai padanan tepat.

Pastikan lajur yang anda gunakan untuk syarat padanan tepat tidak mempunyai sebarang nilai yang kerap diulang, seperti nilai lalai "Nama pertama" yang ditangkap oleh borang. Wawasan pelanggan boleh memprofilkan lajur data untuk memberikan cerapan tentang nilai berulang teratas. Anda boleh mendayakan pemprofilan data pada sambungan Azure Data Lake (menggunakan Common Data Model atau format Delta) dan Synapse. Profil data dijalankan apabila sumber data dimuat semula seterusnya. Untuk mendapatkan maklumat lanjut, pergi ke Pemprofilan data.

Padanan kabur

Gunakan padanan kabur untuk memadankan rentetan yang rapat tetapi tidak tepat kerana kesilapan menaip atau variasi kecil yang lain. Gunakan padanan kabur secara strategik kerana ia lebih perlahan daripada padanan tepat. Pastikan sekurang-kurangnya satu syarat padanan tepat dalam mana-mana peraturan yang mempunyai keadaan kabur.

Padanan kabur tidak bertujuan untuk menangkap variasi nama seperti Suzzie dan Suzanne. Variasi ini ditangkap dengan lebih baik dengan corak Normalisasi Jenis: Nama atau padanan Alias tersuai di mana pelanggan boleh memasukkan senarai variasi nama mereka yang ingin mereka pertimbangkan sebagai padanan.

Anda boleh menambah syarat pada peraturan, seperti memadankan Nama Pertama dan Telefon. Syarat dalam peraturan tertentu ialah syarat "DAN". Setiap syarat mesti sepadan untuk baris dipadankan. Peraturan berasingan ialah syarat "ATAU". Jika Peraturan 1 tidak sepadan dengan baris, maka baris dibandingkan dengan Peraturan 2.

Nota

Hanya lajur jenis data rentetan boleh menggunakan padanan kabur. Untuk lajur dengan jenis data lain seperti integer, double atau datetime, medan ketepatan adalah baca sahaja dan ditetapkan kepada padanan tepat.

Pengiraan padanan kabur

Padanan kabur ditentukan dengan mengira skor jarak suntingan antara dua rentetan. Jika skor memenuhi atau melebihi ambang ketepatan, rentetan dianggap sepadan.

Jarak edit ialah bilangan suntingan yang diperlukan untuk menukar satu rentetan kepada rentetan yang lain, dengan menambah, memadam atau menukar aksara.

Sebagai contoh, rentetan "Jacqueline" dan "Jaclyne" mempunyai jarak edit lima apabila kita mengalih keluar aksara q, u, e, i dan e, dan memasukkan aksara y.

Untuk mengira skor jarak edit, gunakan formula ini: (Panjang rentetan asas – Edit Jarak) / Panjang rentetan asas.

Rentetan asas Rentetan perbandingan Skor
Jacqueline Jaclyne (10-4)/10=.6
fred@contoso.com fred@contso.cm (14-2) / 14 = 0.857
Franklin Frank (8-3) / 8 = 0.625