Praktik terbaik pemaduan data
Saat Anda menyiapkan aturan untuk menyatukan data Anda ke dalam profil pelanggan, pertimbangkan praktik terbaik berikut:
Seimbangkan waktu untuk menyatukan vs. pencocokan lengkap. Mencoba untuk menangkap setiap kemungkinan pertandingan menyebabkan banyak aturan dan penyatuan memakan waktu lama.
Tambahkan aturan secara progresif dan lacak hasilnya. Hapus aturan yang tidak meningkatkan hasil pertandingan.
Deduplikat setiap tabel sehingga setiap pelanggan diwakili dalam satu baris.
Gunakan normalisasi untuk menstandarkan variasi dalam cara data dimasukkan, seperti Jalan vs. St vs. St. vs. st.
Gunakan pencocokan fuzzy secara strategis untuk memperbaiki kesalahan ketik dan kesalahan seperti bob@contoso.com dan bob@contoso.cm. Pencocokan fuzzy membutuhkan waktu lebih lama untuk dijalankan daripada pencocokan persis. Selalu uji untuk melihat apakah waktu ekstra yang dihabiskan untuk pencocokan fuzzy sepadan dengan tingkat pencocokan tambahan.
Persempit cakupan kecocokan dengan pencocokan persis. Pastikan setiap aturan dengan kondisi fuzzy memiliki setidaknya satu kondisi pencocokan persis.
Jangan cocokkan kolom yang berisi data yang sangat berulang. Pastikan kolom yang cocok dengan fuzzy tidak memiliki nilai yang sering diulang, seperti nilai default formulir "Nama depan".
Kinerja penyatuan
Setiap aturan membutuhkan waktu untuk dijalankan. Pola seperti membandingkan setiap tabel dengan setiap tabel lain atau mencoba menangkap setiap kemungkinan kecocokan rekaman dapat menyebabkan waktu pemrosesan penyatuan yang lama. Ini juga mengembalikan beberapa jika ada lagi kecocokan atas rencana yang membandingkan setiap tabel dengan tabel dasar.
Pendekatan terbaik adalah memulai dengan seperangkat aturan dasar yang Anda tahu diperlukan, seperti membandingkan setiap tabel dengan tabel utama Anda. Tabel utama Anda harus menjadi tabel dengan data yang paling lengkap dan akurat. Tabel ini harus diurutkan di bagian atas dalam langkah penyatuan aturan pencocokan.
Tambahkan beberapa aturan secara progresif dan lihat berapa lama waktu yang dibutuhkan untuk menjalankan perubahan dan apakah hasil Anda meningkat. Buka Pengaturan>Status Sistem> dan pilih Cocokkan untuk melihat berapa lama waktu yang dibutuhkan deduplikasi dan pencocokan untuk setiap eksekusi penyatuan.
Lihat statistik aturan pada halaman Aturan deduplikasi dan Aturan Pencocokan untuk melihat apakah jumlah rekaman Unik berubah. Jika aturan baru cocok dengan beberapa rekaman, dan jumlah rekaman unik tidak berubah, maka aturan sebelumnya mengidentifikasi kecocokan tersebut.
Deduplikasi
Gunakan aturan deduplikasi untuk menghapus rekaman pelanggan duplikat dalam tabel sehingga satu baris di setiap tabel mewakili setiap pelanggan. Aturan yang baik mengidentifikasi pelanggan yang unik.
Dalam contoh sederhana ini, rekaman 1, 2, dan 3 berbagi email atau nomor telepon, dan mewakili orang yang sama.
ID | Nama | Telepon | |
---|---|---|---|
1 | Orang 1 | (425) 555-1111 | AAA@A.com |
2 | Orang 1 | (425) 555-1111 | BBB@B.com |
3 | Orang 1 | (425) 555-2222 | BBB@B.com |
4 | Orang 2 | (206) 555-9999 | Person2@contoso.com |
Kami tidak ingin mencocokkan hanya pada nama karena itu akan mencocokkan orang yang berbeda dengan nama yang sama.
Buat Aturan 1 menggunakan Nama dan Telepon, yang cocok dengan rekaman 1 dan 2.
Buat Aturan 2 menggunakan Nama dan Email, yang cocok dengan rekaman 2 dan 3.
Kombinasi Aturan 1 dan Aturan 2 membuat satu grup pertandingan karena mereka berbagi catatan 2.
Anda memutuskan jumlah aturan dan ketentuan yang secara unik mengidentifikasi pelanggan Anda. Aturan yang tepat bergantung pada data yang Anda miliki untuk dicocokkan, kualitas data Anda, dan seberapa lengkap proses deduplikasi yang Anda inginkan.
Pemenang dan catatan alternatif
Setelah aturan dijalankan dan catatan duplikat diidentifikasi, proses deduplikasi memilih "Baris pemenang". Baris non-pemenang disebut "Baris alternatif". Baris alternatif digunakan dalam langkah penyatuan aturan pencocokan untuk mencocokkan rekaman dari tabel lain ke baris pemenang. Baris dicocokkan dengan data di baris alternatif selain baris pemenang.
Setelah menambahkan aturan ke tabel, Anda dapat mengonfigurasi baris mana yang akan dipilih sebagai baris pemenang melalui preferensi Gabungkan. Preferensi penggabungan diatur per tabel. Apa pun kebijakan penggabungan yang dipilih, jika ada seri untuk baris pemenang, maka baris pertama dalam urutan data digunakan sebagai tiebreaker.
Normalisasi
Gunakan normalisasi untuk menstandarkan data untuk pencocokan yang lebih baik. Normalisasi berkinerja baik pada kumpulan data yang besar.
Data yang dinormalisasi hanya digunakan untuk tujuan perbandingan agar mencocokkan catatan pelanggan secara lebih efektif. Itu tidak mengubah data dalam output profil pelanggan terpadu akhir.
Normalisasi | Contoh |
---|---|
Angka | Mengonversi banyak simbol Unicode yang mewakili angka menjadi angka sederhana. Contoh: ❽ dan VIII. keduanya dinormalisasi menjadi angka 8. Catatan: Simbol harus dikodekan dalam Format Titik Unicode. |
Simbol | Menghapus simbol dan karakter khusus. Contoh: !?" #$%&'( )+,.-/:;<=>@^~'{}[ ] |
Teks ke huruf kecil | Mengonversi karakter huruf besar menjadi huruf kecil. Contoh: "INI Adalah AN EXamplE" diubah menjadi "ini adalah contoh" |
Tipe – Telepon | Mengonversi ponsel dalam berbagai format menjadi digit, dan memperhitungkan variasi dalam cara kode negara dan ekstensi disajikan. Contoh: +01 425.555.1212 = 1 (425) 555-1212 |
Jenis - Nama | Mengonversi lebih dari 500 variasi dan judul nama umum. Contoh: "debby" -> "deborah" "prof" dan "profesor" -"> profes." |
Jenis - Alamat | Mengonversi bagian umum dari alamat Contoh: "street" -> "st" dan "northwest" -> "nw" |
Jenis - Organisasi | Menghapus sekitar 50 nama perusahaan "kata kebisingan" seperti "co", "corp", "corporation", dan "ltd." |
Unicode ke ASCII | Mengonversi karakter Unicode menjadi huruf ASCII yang setara Contoh: Karakter 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' '(A),' dan 'A' semuanya dikonversi menjadi 'a.' |
Spasi | Menghapus semua spasi kosong |
Pemetaan alias | Memungkinkan Anda mengunggah daftar kustom pasangan string yang kemudian dapat digunakan untuk menunjukkan string yang harus selalu dianggap sama persis. Gunakan pemetaan alias saat Anda memiliki contoh data tertentu yang menurut Anda harus cocok, dan tidak cocok menggunakan salah satu pola normalisasi lainnya. Contoh: Scott dan Scooter, atau MSFT dan Microsoft. |
Bypass kustom | Memungkinkan Anda mengunggah daftar string kustom yang kemudian dapat digunakan untuk menunjukkan string yang tidak boleh dicocokkan. Bypass kustom berguna ketika Anda memiliki data dengan nilai umum yang harus diabaikan, seperti nomor telepon palsu atau email dummy. Contoh: Jangan pernah mencocokkan ponsel 555-1212, atau test@contoso.com |
Benar-benar cocok
Gunakan presisi untuk menentukan seberapa dekat dua string harus dianggap cocok. Pengaturan presisi default memerlukan pencocokan persis. Nilai lain memungkinkan pencocokan fuzzy untuk kondisi tersebut.
Presisi dapat diatur ke rendah (30% cocok), sedang (60% cocok), dan tinggi (80% cocok). Atau Anda dapat menyesuaikan dan mengatur presisi dengan peningkatan 1%.
Kondisi pencocokan persis
Kondisi pencocokan yang tepat dijalankan terlebih dahulu untuk mendapatkan kumpulan nilai yang lebih kecil untuk kecocokan fuzzy. Agar efektif, kondisi pencocokan yang tepat harus memiliki tingkat keunikan yang wajar. Misalnya, jika semua pelanggan Anda tinggal di negara/wilayah yang sama, maka memiliki kecocokan persis pada negara/wilayah tersebut tidak akan membantu mempersempit cakupan.
Kolom seperti bidang nama lengkap, email, telepon, atau alamat memiliki keunikan yang baik dan merupakan kolom yang bagus untuk digunakan sebagai pencocokan persis.
Pastikan kolom yang Anda gunakan untuk kondisi pencocokan persis tidak memiliki nilai apa pun yang sering diulang, seperti nilai default "Nama Depan" yang diambil oleh formulir. Customer Insights dapat membuat profil kolom data untuk memberikan wawasan tentang nilai berulang teratas. Anda dapat mengaktifkan pembuatan profil data pada koneksi Azure Data Lake (menggunakan Common Data Model atau format Delta) dan Synapse. Profil data dijalankan saat sumber data disegarkan berikutnya. Untuk informasi selengkapnya, buka Pembuatan profil data.
Pencocokan kabur
Gunakan pencocokan fuzzy untuk mencocokkan string yang dekat tetapi tidak tepat karena kesalahan ketik atau variasi kecil lainnya. Gunakan pencocokan fuzzy secara strategis karena lebih lambat daripada pencocokan persis. Pastikan setidaknya satu kondisi pencocokan persis dalam aturan apa pun yang memiliki kondisi kabur.
Pencocokan fuzzy tidak dimaksudkan untuk menangkap variasi nama seperti Suzzie dan Suzanne. Variasi ini ditangkap dengan lebih baik dengan pola Normalisasi Jenis: Nama atau pencocokan Alias kustom di mana pelanggan dapat memasukkan daftar variasi nama yang ingin mereka pertimbangkan sebagai kecocokan.
Anda dapat menambahkan kondisi ke aturan, seperti mencocokkan Nama Depan dan Telepon. Kondisi dalam aturan tertentu adalah kondisi "DAN". Setiap kondisi harus cocok agar baris cocok. Aturan terpisah adalah kondisi "ATAU". Jika Aturan 1 tidak cocok dengan baris, maka baris dibandingkan dengan Aturan 2.
Catatan
Hanya kolom tipe data string yang dapat menggunakan pencocokan fuzzy. Untuk kolom dengan tipe data lain seperti bilangan bulat, ganda, atau tanggalwaktu, bidang presisi bersifat baca-saja dan diatur ke kecocokan persis.
Perhitungan pencocokan fuzzy
Kecocokan fuzzy ditentukan dengan menghitung skor jarak edit antara dua string. Jika skor memenuhi atau melebihi ambang presisi, string dianggap cocok.
Jarak edit adalah jumlah suntingan yang diperlukan untuk mengubah satu string menjadi string lainnya, dengan menambahkan, menghapus, atau mengubah karakter.
Misalnya, string "Jacqueline" dan "Jaclyne" memiliki jarak edit lima saat kita menghapus karakter q, u, e, i, dan e, dan menyisipkan karakter y.
Untuk menghitung skor jarak edit, gunakan rumus ini: (Panjang string dasar – Jarak Edit) / Panjang string dasar.
String dasar | String perbandingan | Skor |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=.6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0.857 |
Franklin | Frank | (8-3) / 8 = 0.625 |