Phương pháp hay nhất về hợp nhất dữ liệu
Khi bạn thiết lập các quy tắc để thống nhất dữ liệu vào hồ sơ khách hàng, hãy cân nhắc những biện pháp tốt nhất sau:
Cân bằng thời gian để thống nhất so với thời gian khớp hoàn toàn. Cố gắng nắm bắt mọi sự trùng khớp có thể dẫn đến nhiều quy tắc và việc thống nhất mất nhiều thời gian.
Thêm quy tắc dần dần và theo dõi kết quả. Xóa bỏ những quy tắc không cải thiện kết quả trận đấu.
Loại bỏ dữ liệu trùng lặp của mỗi bảng để mỗi khách hàng được thể hiện trên một hàng duy nhất.
Sử dụng chuẩn hóa để chuẩn hóa các biến thể trong cách nhập dữ liệu như Đường so với Đường so với Đường so với Đường.
Sử dụng phép so khớp mờ một cách chiến lược để sửa lỗi đánh máy và lỗi như bob@contoso.com và bob@contoso.cm. Phép so khớp mờ mất nhiều thời gian chạy hơn phép so khớp chính xác. Luôn kiểm tra xem thời gian dành thêm cho việc khớp lệnh mờ có xứng đáng với tỷ lệ khớp lệnh cao hơn hay không.
Thu hẹp phạm vi kết quả khớp với kết quả khớp chính xác. Đảm bảo mọi quy tắc có điều kiện mơ hồ đều có ít nhất một điều kiện khớp chính xác.
Không khớp với các cột có dữ liệu lặp lại nhiều. Đảm bảo các cột khớp mờ không có giá trị được lặp lại thường xuyên, chẳng hạn như giá trị mặc định của biểu mẫu là "Firstname".
Hiệu suất thống nhất
Mỗi quy tắc đều cần thời gian để thực hiện. Các mẫu như so sánh mọi bảng với mọi bảng khác hoặc cố gắng nắm bắt mọi bản ghi có thể trùng khớp có thể dẫn đến thời gian xử lý hợp nhất lâu. Nó cũng trả về ít hoặc không có kết quả khớp nào khi so sánh từng bảng với một bảng cơ sở.
Cách tiếp cận tốt nhất là bắt đầu với một bộ quy tắc cơ bản mà bạn biết là cần thiết, chẳng hạn như so sánh từng bảng với bảng chính của bạn. Bảng chính của bạn phải là bảng có dữ liệu đầy đủ và chính xác nhất. Bảng này phải được sắp xếp ở đầu trong Quy tắc thống nhất khớp lệnh bước.
Dần dần thêm nhiều quy tắc và xem những thay đổi mất bao lâu để thực hiện và liệu kết quả có được cải thiện không. Vào Cài đặt>Hệ thống>Trạng thái và chọn So khớp để xem quá trình loại bỏ trùng lặp và so khớp mất bao lâu cho mỗi lần chạy hợp nhất.
Xem số liệu thống kê về quy tắc trên các trang Quy tắc loại bỏ trùng lặp và Quy tắc khớp để xem số lượng Bản ghi duy nhất có thay đổi hay không. Nếu một quy tắc mới khớp với một số bản ghi và số lượng bản ghi duy nhất không thay đổi, thì quy tắc trước đó sẽ xác định các bản ghi khớp đó.
Loại bỏ trùng lặp
Sử dụng quy tắc loại bỏ trùng lặp để xóa các bản ghi khách hàng trùng lặp trong một bảng sao cho mỗi hàng trong mỗi bảng đại diện cho mỗi khách hàng. Một quy tắc tốt sẽ xác định được một khách hàng duy nhất.
Trong ví dụ đơn giản này, các bản ghi 1, 2 và 3 chia sẻ chung một email hoặc số điện thoại và đại diện cho cùng một người.
ID | Tên | Số Điện thoại | |
---|---|---|---|
1 | Người 1 | (425) 555-1111 | AAA@A.com |
2 | Người 1 | (425) 555-1111 | BBB@B.com |
3 | Người 1 | (425) 555-2222 | BBB@B.com |
Tệp 4 | Người 2 | (206) 555-9999 | Person2@contoso.com |
Chúng tôi không muốn chỉ khớp theo tên vì điều đó sẽ khớp với nhiều người khác có cùng tên.
Tạo Quy tắc 1 bằng cách sử dụng Tên và Số điện thoại, khớp với bản ghi 1 và 2.
Tạo Quy tắc 2 bằng cách sử dụng Tên và Email, khớp với bản ghi 2 và 3.
Sự kết hợp của Quy tắc 1 và Quy tắc 2 tạo ra một nhóm khớp duy nhất vì chúng chia sẻ bản ghi 2.
Bạn quyết định số lượng quy tắc và điều kiện để xác định duy nhất khách hàng của mình. Các quy tắc chính xác phụ thuộc vào dữ liệu bạn có để đối chiếu, chất lượng dữ liệu của bạn và mức độ toàn diện mà bạn muốn cho quá trình loại bỏ trùng lặp.
Kỷ lục chiến thắng và thay thế
Sau khi chạy các quy tắc và xác định được các bản ghi trùng lặp, quy trình loại bỏ trùng lặp sẽ chọn "Hàng chiến thắng". Các hàng không chiến thắng được gọi là "Hàng thay thế". Các hàng thay thế được sử dụng trong Quy tắc thống nhất khớp bước để khớp các bản ghi từ các bảng khác với hàng chiến thắng. Các hàng được so khớp với dữ liệu trong các hàng thay thế ngoài hàng chiến thắng.
Sau khi thêm quy tắc vào bảng, bạn có thể cấu hình hàng nào sẽ được chọn làm hàng chiến thắng thông qua Tùy chọn hợp nhất. Tùy chọn hợp nhất được thiết lập cho mỗi bảng. Bất kể chính sách hợp nhất nào được chọn, nếu có hàng chiến thắng trùng nhau, thì hàng đầu tiên trong thứ tự dữ liệu sẽ được sử dụng làm hàng phá vỡ thế bế tắc.
Chuẩn hóa
Sử dụng chuẩn hóa để chuẩn hóa dữ liệu nhằm khớp dữ liệu tốt hơn. Chuẩn hóa hoạt động tốt trên các tập dữ liệu lớn.
Dữ liệu chuẩn hóa chỉ được sử dụng cho mục đích so sánh để khớp hồ sơ khách hàng hiệu quả hơn. Nó không thay đổi dữ liệu trong kết quả đầu ra hồ sơ khách hàng thống nhất cuối cùng.
Chuẩn hóa | Ví dụ |
---|---|
Số | Chuyển đổi nhiều ký hiệu Unicode biểu diễn số thành số đơn giản. Ví dụ: ❽ và Ⅷ đều được chuẩn hóa thành số 8. Lưu ý: Các ký hiệu phải được mã hóa theo Định dạng Unicode Point. |
Biểu tượng | Xóa các ký hiệu và ký tự đặc biệt. Ví dụ: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Văn bản sang chữ thường | Chuyển đổi các ký tự viết hoa thành viết thường. Ví dụ: "ĐÂY LÀ MỘT VÍ DỤ" được chuyển thành "đây là một ví dụ" |
Loại – Điện thoại | Chuyển đổi số điện thoại ở nhiều định dạng khác nhau sang dạng số và tính đến sự khác biệt về cách hiển thị mã quốc gia và phần mở rộng. Ví dụ: +01 425.555.1212 = 1 (425) 555-1212 |
Tên loại | Chuyển đổi hơn 500 biến thể tên và chức danh phổ biến. Ví dụ: "debby" -> "deborah" "giáo sư" và "giáo sư" -> "Giáo sư." |
Loại - Địa chỉ | Chuyển đổi các phần chung của địa chỉ Ví dụ: "street" -> "st" và "northwest" -> "nw" |
Loại - Tổ chức | Loại bỏ khoảng 50 "từ gây nhiễu" trong tên công ty như "co", "corp", "corporation" và "ltd". |
Unicode sang ASCII | Chuyển đổi các ký tự Unicode sang ký tự ASCII tương đương Ví dụ: Các ký tự 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ,' và 'A' đều được chuyển đổi thành 'a.' |
Khoảng trắng | Xóa tất cả khoảng trắng |
Ánh xạ biệt danh | Cho phép bạn tải lên danh sách tùy chỉnh các cặp chuỗi có thể được sử dụng để chỉ ra các chuỗi luôn được coi là khớp chính xác. Sử dụng bí danh ánh xạ khi bạn có các ví dụ dữ liệu cụ thể mà bạn cho là phải khớp và không khớp khi sử dụng một trong các mẫu chuẩn hóa khác. Ví dụ: Scott và Scooter, hoặc MSFT và Microsoft. |
Bỏ qua tùy chỉnh | Cho phép bạn tải lên danh sách chuỗi tùy chỉnh có thể được sử dụng để chỉ ra các chuỗi không bao giờ được khớp. Bỏ qua tùy chỉnh hữu ích khi bạn có dữ liệu có giá trị chung cần bỏ qua, chẳng hạn như số điện thoại hoặc email giả. Ví dụ: Không bao giờ khớp số điện thoại 555-1212 hoặc test@contoso.com |
Khớp hoàn toàn
Sử dụng độ chính xác để xác định mức độ gần nhau của hai chuỗi để được coi là trùng khớp. Cài đặt độ chính xác mặc định yêu cầu phải khớp chính xác. Bất kỳ giá trị nào khác đều cho phép khớp lệnh mờ cho điều kiện đó.
Độ chính xác có thể được thiết lập ở mức thấp (phù hợp 30%), trung bình (phù hợp 60%) và cao (phù hợp 80%). Hoặc bạn có thể tùy chỉnh và cài đặt độ chính xác theo mức tăng 1%.
Điều kiện khớp chính xác
Các điều kiện khớp chính xác được chạy trước để có được tập hợp giá trị nhỏ hơn cho các kết quả khớp mờ. Để có hiệu quả, các điều kiện khớp chính xác phải có mức độ duy nhất hợp lý. Ví dụ, nếu tất cả khách hàng của bạn sống ở cùng một quốc gia/khu vực, thì việc khớp chính xác quốc gia/khu vực đó sẽ không giúp thu hẹp phạm vi.
Các cột như trường tên đầy đủ, email, số điện thoại hoặc địa chỉ có tính duy nhất cao và là những cột tuyệt vời để sử dụng để khớp chính xác.
Đảm bảo cột bạn sử dụng cho điều kiện khớp chính xác không có bất kỳ giá trị nào được lặp lại thường xuyên, chẳng hạn như giá trị mặc định là "Firstname" được biểu mẫu ghi lại. Thông tin chi tiết về khách hàng có thể phân tích các cột dữ liệu để cung cấp thông tin chi tiết về các giá trị lặp lại hàng đầu. Bạn có thể bật tính năng lập hồ sơ dữ liệu trên các kết nối Azure Data Lake (sử dụng định dạng Common Data Model hoặc Delta) và Synapse. Hồ sơ dữ liệu được chạy khi nguồn dữ liệu được làm mới lần tiếp theo. Để biết thêm thông tin, hãy truy cập Phân tích dữ liệu.
Phù hợp mờ
Sử dụng phương pháp so khớp mờ để so khớp các chuỗi gần giống nhau nhưng không chính xác do lỗi đánh máy hoặc các biến thể nhỏ khác. Sử dụng phương pháp so khớp mờ một cách chiến lược vì nó chậm hơn phương pháp so khớp chính xác. Đảm bảo có ít nhất một điều kiện khớp chính xác trong bất kỳ quy tắc nào có điều kiện mơ hồ.
Phương pháp so khớp mờ không nhằm mục đích nắm bắt các biến thể tên như Suzzie và Suzanne. Những biến thể này được nắm bắt tốt hơn bằng mẫu Chuẩn hóa Loại: Tên hoặc tùy chỉnh So khớp bí danh trong đó khách hàng có thể nhập danh sách các biến thể tên mà họ muốn coi là trùng khớp.
Bạn có thể thêm điều kiện vào quy tắc, chẳng hạn như khớp FirstName và Phone. Các điều kiện trong một quy tắc nhất định là điều kiện "AND". Mỗi điều kiện phải khớp nhau thì các hàng mới khớp nhau. Các quy tắc riêng biệt là điều kiện "HOẶC". Nếu Quy tắc 1 không khớp với các hàng thì các hàng đó sẽ được so sánh với Quy tắc 2.
Lưu ý
Chỉ những cột dữ liệu kiểu chuỗi mới có thể sử dụng khớp lệnh mờ. Đối với các cột có kiểu dữ liệu khác như số nguyên, số đôi hoặc ngày giờ, trường độ chính xác chỉ đọc và được đặt thành khớp chính xác.
Tính toán khớp mờ
Sự khớp mờ được xác định bằng cách tính điểm khoảng cách chỉnh sửa giữa hai chuỗi. Nếu điểm số đạt hoặc vượt quá ngưỡng độ chính xác, các chuỗi được coi là trùng khớp.
Khoảng cách chỉnh sửa là số lần chỉnh sửa cần thiết để biến một chuỗi thành chuỗi khác, bằng cách thêm, xóa hoặc thay đổi một ký tự.
Ví dụ, chuỗi "Jacqueline" và "Jaclyne" có khoảng cách chỉnh sửa là năm khi chúng ta xóa các ký tự q, u, e, i và e và chèn ký tự y.
Để tính điểm khoảng cách chỉnh sửa, hãy sử dụng công thức này: (Độ dài chuỗi cơ sở – Khoảng cách chỉnh sửa) / Độ dài chuỗi cơ sở.
Chuỗi cơ sở | Chuỗi so sánh | Điểm số |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10=.6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0,857 |
franklin | Thẳng thắn | (8-3) / 8 = 0,625 |