Alih keluar pendua dalam setiap jadual untuk penyatuan data
Langkah peraturan penyahduplikasian penyahduplikasian mencari dan mengalih keluar rekod pendua untuk pelanggan daripada jadual sumber supaya setiap pelanggan diwakili oleh satu baris dalam setiap jadual. Setiap jadual dinyahduplikasi secara berasingan menggunakan peraturan untuk mengenal pasti rekod bagi pelanggan tertentu.
Peraturan diproses mengikut urutan. Selepas semua peraturan telah dijalankan pada semua rekod dalam jadual, kumpulan padanan yang berkongsi baris biasa digabungkan ke dalam kumpulan padanan tunggal.
Takrifkan peraturan nyahduplikasi
Peraturan yang baik mengenal pasti pelanggan yang unik. Pertimbangkan data anda. Mungkin cukup untuk mengenal pasti pelanggan berdasarkan medan seperti e-mel. Walau bagaimanapun, jika anda ingin membezakan pelanggan yang berkongsi e-mel, anda mungkin memilih untuk mempunyai peraturan dengan dua syarat, sepadan pada E-mel + Nama Pertama. Untuk maklumat lanjut, lihat Amalan terbaik penyahduplikasi.
Pada halaman Peraturan penyahduplikasi, pilih jadual dan pilih Tambah peraturan untuk mentakrifkan peraturan penyahduplikasi.
Tip
Jika anda memperkayakan jadual pada aras sumber data untuk membantu meningkatkan hasil penyatuan anda, pilih Gunakan jadual diperkaya di bahagian atas halaman. Untuk maklumat lanjut, lihat Pengayaan untuk sumber data.
Dalam anak tetingkap Tambah peraturan , masukkan maklumat berikut:
Pilih medan: Pilih daripada senarai medan yang tersedia daripada jadual yang anda mahu semak untuk pendua. Pilih medan yang mungkin unik untuk setiap pelanggan tunggal. Contohnya, alamat e-mel atau gabungan nama, bandar dan nombor telefon.
Normalkan: Pilih pilihan normalisasi untuk lajur. Normalisasi hanya memberi kesan kepada langkah yang sepadan dan tidak mengubah data.
- Angka: Menukar simbol Unicode yang mewakili nombor kepada nombor mudah.
- Simbol: Mengalih keluar simbol dan aksara khas seperti !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Sebagai contoh, Head&Shoulder menjadi HeadShoulder.
- Teks kepada huruf kecil: Menukar aksara huruf besar kepada huruf kecil. "SEMUA huruf besar dan kes tajuk" menjadi "semua huruf besar dan huruf besar tajuk."
- Jenis (Telefon, Nama, Alamat, Organisasi): Menyeragamkan nama, tajuk, nombor telefon dan alamat.
- Unicode kepada ASCII: Menukar aksara Unicode kepada setara huruf ASCII mereka. Sebagai contoh, aksen ề bertukar kepada aksara e.
- Ruang putih: Mengalih keluar semua ruang. Hello World menjadi HelloWorld.
- Pemetaan alias: Membolehkan anda memuat naik senarai tersuai pasangan rentetan untuk menunjukkan rentetan yang harus sentiasa dianggap sebagai padanan tepat.
- Pintasan tersuai: Membolehkan anda memuat naik senarai rentetan tersuai untuk menunjukkan rentetan yang tidak boleh dipadankan.
Ketepatan: Tetapkan tahap ketepatan. Ketepatan digunakan untuk padanan tepat dan padanan kabur, dan menentukan sejauh mana dua rentetan perlu untuk dianggap sebagai padanan.
- Asas: Pilih daripada Rendah (30%), Sederhana (60%), Tinggi (80%) dan Tepat (100%). Pilih Tepat untuk hanya memadankan rekod yang sepadan 100 peratus.
- Tersuai: Tetapkan peratusan yang perlu dipadankan dengan rekod. Sistem hanya memadankan rekod yang melepasi ambang ini.
Nama: Nama untuk peraturan.
Secara pilihan, pilih Tambah >Tambah syarat untuk menambah lebih banyak syarat pada peraturan. Syarat yang disambungkan dengan logik DAN operator dengan itu hanya dilaksanakan jika semua syarat dipenuhi.
Secara pilihan, Tambah>Tambah pengecualian untuk menambah pengecualian pada peraturan. Pengecualian digunakan untuk menangani kes positif palsu dan negatif palsu yang jarang berlaku.
Pilih Selesai untuk mencipta peraturan.
Secara pilihan, tambah lebih banyak peraturan.
Pilih jadual dan kemudian Edit keutamaan gabungan.
Dalam anak tetingkap keutamaan Gabung :
Pilih salah satu daripada tiga pilihan untuk menentukan rekod yang hendak disimpan jika pendua ditemui:
- Paling banyak diisi: Mengenal pasti rekod dengan lajur paling banyak diisi sebagai rekod pemenang. Ia merupakan pilihan gabungan lalai.
- Paling terkini: Mengenal pasti rekod pemenang berdasarkan kebaharuan yang paling baru. Memerlukan medan tarikh atau angka untuk mentakrifkan yang terkini.
- Paling tidak terkini: Mengenal pasti rekod pemenang berdasarkan kebaharuan yang paling sedikit. Memerlukan medan tarikh atau angka untuk mentakrifkan yang terkini.
Jika terdapat seri, rekod pemenang ialah rekod yang mempunyai MAX(PK) atau nilai kunci utama yang lebih besar.
Secara pilihan, untuk mentakrifkan keutamaan cantuman pada lajur individu jadual, pilih Lanjutan di bahagian bawah anak tetingkap. Sebagai contoh, anda boleh memilih untuk menyimpan e-mel terkini DAN alamat paling lengkap daripada rekod yang berbeza. Kembangkan jadual untuk melihat semua lajurnya dan tentukan pilihan yang hendak digunakan untuk lajur individu. Jika anda memilih pilihan berasaskan kebaharuan, anda juga perlu menentukan medan tarikh/masa yang mentakrifkan kebaharuan.
Pilih Selesai untuk menggunakan pilihan gabungan anda.
Selepas mentakrifkan peraturan penyahduplikasian dan pilihan gabungan, pilih Seterusnya.