Loại bỏ các bản sao trong mỗi bảng để thống nhất dữ liệu

Bước quy tắc chống trùng lặp của quá trình hợp nhất sẽ tìm và loại bỏ các bản ghi trùng lặp cho một khách hàng khỏi bảng nguồn để mỗi khách hàng được thể hiện bằng một hàng duy nhất trong mỗi bảng. Mỗi bảng được loại bỏ trùng lặp riêng biệt bằng cách sử dụng các quy tắc để xác định bản ghi cho một khách hàng nhất định.

Các quy tắc được xử lý theo thứ tự. Sau khi tất cả các quy tắc đã được chạy trên tất cả các bản ghi trong một bảng, các nhóm khớp có chung một hàng sẽ được kết hợp thành một nhóm khớp duy nhất.

Xác định quy tắc chống trùng lặp

Một quy tắc tốt xác định một khách hàng duy nhất. Hãy xem xét dữ liệu của bạn. Có thể chỉ cần xác định khách hàng dựa trên một trường như email là đủ. Tuy nhiên, nếu bạn muốn phân biệt những khách hàng dùng chung email, bạn có thể chọn đặt quy tắc với hai điều kiện, khớp với Email + FirstName. Để biết thêm thông tin, hãy xem Các khái niệm và kịch bản loại bỏ trùng lặp.

  1. Trên trang Quy tắc loại bỏ trùng lặp , hãy chọn một bảng và chọn Thêm quy tắc để xác định các quy tắc loại bỏ trùng lặp.

    Tiền bo

    Nếu bạn đã làm phong phú các bảng ở cấp độ nguồn dữ liệu để giúp cải thiện kết quả thống nhất của mình, hãy chọn Sử dụng các bảng được làm giàu ở đầu trang. Để biết thêm thông tin, hãy xem Làm phong phú nguồn dữ liệu.

    Ảnh chụp màn hình của trang Quy tắc loại bỏ trùng lặp với bảng được tô sáng và Thêm quy tắc được hiển thị

    1. Trong ngăn Thêm quy tắc , nhập thông tin sau:

      • Chọn trường: Chọn từ danh sách các trường có sẵn từ bảng mà bạn muốn kiểm tra trùng lặp. Chọn các trường có thể là duy nhất cho mọi khách hàng. Ví dụ: địa chỉ email hoặc sự kết hợp của tên, thành phố và số điện thoại.
      • Chuẩn hóa: Chọn các tùy chọn chuẩn hóa cho cột. Việc chuẩn hóa chỉ tác động đến bước so khớp và không thay đổi dữ liệu.
        • Chữ số: Chuyển đổi nhiều ký hiệu Unicode biểu thị số thành số đơn giản.
        • Ký hiệu: Loại bỏ nhiều ký hiệu phổ biến như !"#$%&'()*+,-./:;<=>?@ []^_`{|}~. Ví dụ: Đầu & Vai trở thành Đầu Vai.
        • Văn bản thành chữ thường: Chuyển đổi tất cả ký tự thành chữ thường. "TẤT CẢ CHỮ HOA và Viết hoa Tiêu đề" trở thành "tất cả viết hoa và viết hoa tiêu đề".
        • Loại (Điện thoại, Tên, Địa chỉ, Tổ chức): Chuẩn hóa tên, chức danh, số điện thoại, địa chỉ, v.v.
        • Unicode sang ASCII: Chuyển đổi các ký tự Unicode sang ASCII tương đương. Ví dụ: chữ có dấu chuyển đổi thành ký tự e.
        • Khoảng trắng: Xóa tất cả khoảng trắng. Xin chào thế giới trở thành Xin chào thế giới.
      • Precision: Thiết lập mức độ chính xác. Độ chính xác được sử dụng với kết hợp mờ và xác định mức độ cần thiết của hai chuỗi để được coi là khớp.
        • Cơ bản: Chọn từ Thấp (30%), Trung bình (60%), Cao (80%)Chính xác (100%). Chọn Chính xác để chỉ khớp các bản ghi khớp 100%.
        • Tùy chỉnh: Đặt tỷ lệ phần trăm mà bản ghi cần khớp. Hệ thống chỉ khớp các bản ghi vượt qua ngưỡng này.
      • Name: Tên cho Rule.

      Ảnh chụp màn hình của ngăn Thêm quy tắc để loại bỏ trùng lặp.

    2. Nếu muốn, hãy chọn Thêm>Thêm điều kiện để thêm nhiều điều kiện hơn vào quy tắc. Các điều kiện được kết nối với một toán tử logic AND và do đó chỉ được thực thi nếu tất cả các điều kiện được đáp ứng.

    3. Tùy ý, Thêm>Thêm ngoại lệ vào thêm ngoại lệ vào quy tắc. Các ngoại lệ được sử dụng để giải quyết các trường hợp hiếm gặp về dương tính giả và âm tính giả.

    4. Chọn Xong để tạo quy tắc.

  2. Tùy ý, thêm các quy tắc khác.

  3. Chọn một bảng rồi Chỉnh sửa tùy chọn hợp nhất.

  4. Trong ngăn Hợp nhất các tùy chọn :

    1. Chọn một trong ba tùy chọn để xác định bản ghi nào sẽ giữ lại nếu tìm thấy bản sao:

      • Được điền nhiều nhất: Xác định bản ghi có nhiều cột được điền nhiều nhất là bản ghi chiến thắng. Đây là tùy chọn phối mặc định.
      • Gần đây nhất: Xác định bản ghi người chiến thắng dựa trên lần gần đây nhất. Yêu cầu ngày hoặc trường số để xác định lần truy cập gần đây.
      • Gần đây nhất: Xác định bản ghi chiến thắng dựa trên thời gian gần đây ít nhất. Yêu cầu ngày hoặc trường số để xác định lần truy cập gần đây.

      Nếu bằng nhau, bản ghi chiến thắng là bản ghi có giá trị MAX(PK) hoặc giá trị khóa chính lớn hơn.

    2. Theo tùy chọn, để xác định tùy chọn hợp nhất trên từng cột của bảng, hãy chọn Nâng cao ở cuối ngăn. Ví dụ: bạn có thể chọn giữ email gần đây nhất VÀ địa chỉ đầy đủ nhất từ ​​các bản ghi khác nhau. Mở rộng bảng để xem tất cả các cột và xác định tùy chọn nào sẽ sử dụng cho từng cột riêng lẻ. Nếu bạn chọn tùy chọn dựa trên lần truy cập gần đây, bạn cũng cần chỉ định trường ngày/giờ xác định lần truy cập gần đây.

      Ngăn tùy chọn hợp nhất nâng cao hiển thị email gần đây và địa chỉ đầy đủ

    3. Chọn Xong để áp dụng tùy chọn hợp nhất của bạn.

  5. Sau khi xác định các quy tắc loại bỏ trùng lặp và các tùy chọn hợp nhất, hãy chọn Tiếp theo.