แนวทางปฏิบัติที่ดีที่สุดในการรวมข้อมูล

บทความ
07/23/2024

เมื่อคุณตั้งกฎเพื่อรวมข้อมูลของคุณไว้ในโปรไฟล์ลูกค้า ให้พิจารณาแนวทางปฏิบัติที่ดีที่สุดเหล่านี้:

ปรับสมดุลเวลาเพื่อรวมและจับคู่ให้เสร็จสมบูรณ์ ความพยายามที่จะจับภาพการแข่งขันทุกนัดที่เป็นไปได้นำไปสู่กฎเกณฑ์มากมายและการรวมกลุ่มใช้เวลานาน
เพิ่มกฎอย่างต่อเนื่องและติดตามผลลัพธ์ ลบกฎที่ไม่ปรับปรุงผลการแข่งขัน
กรองแต่ละตารางที่ซ้ำกัน เพื่อให้ลูกค้าทุกรายแสดงในแถวเดียว
ใช้ การทำให้เป็นมาตรฐาน เพื่อสร้างมาตรฐานให้กับรูปแบบต่างๆ ในการป้อนข้อมูล เช่น Street vs. St vs. St. vs. st.
ใช้ การจับคู่แบบคลุมเครือ อย่างมีกลยุทธ์เพื่อแก้ไขการพิมพ์ผิดและข้อผิดพลาด เช่น bob@contoso.com และ bob@contoso.cm การแข่งขันแบบคลุมเครือใช้เวลาดำเนินการนานกว่าการแข่งขันแบบตรงทั้งหมด ทดสอบเสมอเพื่อดูว่าเวลาพิเศษที่ใช้ในการจับคู่แบบคลุมเครือนั้นคุ้มค่ากับอัตราการจับคู่เพิ่มเติมหรือไม่
จำกัดขอบเขตของการจับคู่ให้แคบลงด้วย การจับคู่แบบตรงทั้งหมด ตรวจสอบให้แน่ใจว่าทุกกฎที่มีเงื่อนไขไม่ชัดเจนมีเงื่อนไขการทำงานแบบตรงทั้งหมดอย่างน้อยหนึ่งเงื่อนไข
อย่าจับคู่คอลัมน์ที่มีข้อมูลซ้ำกันมาก ตรวจสอบให้แน่ใจว่าคอลัมน์ที่จับคู่แบบคลุมเครือไม่มีค่าที่ซ้ำกันบ่อยครั้ง เช่น ค่าเริ่มต้นของแบบฟอร์มคือ "ชื่อ"

ประสิทธิภาพการรวมกัน

แต่ละกฎต้องใช้เวลาในการรัน รูปแบบต่างๆ เช่น การเปรียบเทียบทุกตารางกับตารางอื่นๆ หรือการพยายามบันทึกการจับคู่บันทึกที่เป็นไปได้ทั้งหมด อาจทำให้ต้องใช้เวลาในการประมวลผลการรวมที่ยาวนาน นอกจากนี้ยังส่งกลับค่าที่ตรงกันอีกเล็กน้อยหากตรงกับแผนที่เปรียบเทียบแต่ละตารางกับตารางฐาน

แนวทางที่ดีที่สุดคือการเริ่มต้นด้วยชุดกฎพื้นฐานที่คุณรู้ว่าจำเป็น เช่น การเปรียบเทียบแต่ละตารางกับตารางหลักของคุณ ตารางหลักของคุณควรเป็นตารางที่มีข้อมูลครบถ้วนและถูกต้องที่สุด ควรเรียงลำดับตารางนี้ที่ด้านบนสุดในการรวมกฎการจับคู่ ขั้นตอน

เพิ่มกฎหลายๆ ข้อทีละน้อย และดูว่าการเปลี่ยนแปลงใช้เวลานานเท่าใดจึงจะรัน และผลลัพธ์ของคุณดีขึ้นหรือไม่ ไปที่ การตั้งค่า>ระบบ>สถานะ และเลือก ตรงกัน เพื่อดูว่าการขจัดข้อมูลซ้ำซ้อนและการจับคู่ใช้เวลานานเท่าใดในการดำเนินการรวมแต่ละครั้ง

ภาพหน้าจอของหน้าสถานะที่แสดงเวลาการแข่งขัน

ดูสถิติของกฎในหน้า กฎการขจัดความซ้ำซ้อน และ กฎการจับคู่ เพื่อดูว่ามีจำนวน การเปลี่ยนแปลงระเบียนที่ไม่ซ้ำ หากกฎใหม่ตรงกับบางเรกคอร์ด และจำนวนเรกคอร์ดที่ไม่ซ้ำกันไม่เปลี่ยนแปลง แสดงว่ากฎก่อนหน้านี้ระบุการจับคู่เหล่านั้น

ภาพหน้าจอของหน้ากฎการจับคู่ที่เน้นเรกคอร์ดที่ไม่ซ้ำ

การขจัดข้อมูลซ้ำซ้อน

ใช้กฎการขจัดความซ้ำซ้อนเพื่อลบบันทึกลูกค้าที่ซ้ำกันภายในตาราง เพื่อให้แถวเดียวในแต่ละตารางแสดงถึงลูกค้าแต่ละราย กฎที่ดีจะระบุถึงลูกค้าที่ไม่ซ้ำกัน

ในตัวอย่างง่ายๆ นี้ เรกคอร์ด 1, 2 และ 3 แบ่งปันอีเมลหรือโทรศัพท์ และเป็นตัวแทนของบุคคลคนเดียวกัน

ID	ชื่อ	หมายเลขโทรศัพท์	อีเมล
1	บุคคลที่ 1	(425) 555-1111	AAA@A.com
2	บุคคลที่ 1	(425) 555-1111	BBB@B.com
3	บุคคลที่ 1	(425) 555-2222	BBB@B.com
4	บุคคลที่ 2	(206) 555-9999	Person2@contoso.com

เราไม่ต้องการที่จะจับคู่กับชื่อเพียงชื่อเดียว เนื่องจากจะจับคู่บุคคลอื่นที่มีชื่อเดียวกัน

สร้างกฎ 1 โดยใช้ชื่อและโทรศัพท์ ซึ่งตรงกับบันทึก 1 และ 2
สร้างกฎ 2 โดยใช้ชื่อและอีเมล ซึ่งตรงกับบันทึก 2 และ 3

การรวมกันของกฎข้อที่ 1 และกฎข้อที่ 2 จะสร้างกลุ่มการจับคู่กลุ่มเดียว เนื่องจากทั้งสองกลุ่มมีเรกคอร์ดที่ 2 ร่วมกัน

คุณเป็นผู้ตัดสินใจเกี่ยวกับจำนวนกฎ และเงื่อนไขที่ระบุลูกค้าของคุณโดยไม่ซ้ำกัน กฎที่แน่นอนขึ้นอยู่กับข้อมูลที่คุณมีอยู่เพื่อจับคู่ คุณภาพของข้อมูลของคุณ และความครอบคลุมที่คุณต้องการให้กระบวนการขจัดข้อมูลซ้ำซ้อนมีความถี่ถ้วนเพียงใด

ผู้ชนะและเรกคอร์ดสำรอง

เมื่อกฎทำงานและมีการระบุบันทึกที่ซ้ำกัน กระบวนการขจัดข้อมูลซ้ำซ้อนจะเลือก "แถวผู้ชนะ" แถวที่ไม่ชนะเรียกว่า "แถวสำรอง" แถวสำรองใช้ในการรวมกฎการจับคู่ ขั้นตอน เพื่อจับคู่บันทึกจากตารางอื่นกับแถวผู้ชนะ แถวจะถูกจับคู่กับข้อมูลในแถวสำรองนอกเหนือจากแถวผู้ชนะ

เมื่อคุณเพิ่มกฎลงในตาราง คุณสามารถกำหนดค่าแถวที่จะเลือกเป็นแถวผู้ชนะได้ผ่าน ค่ากำหนดการรวม การตั้งค่าการรวมถูกกำหนดไว้ตามตาราง ไม่ว่าจะเลือกนโยบายการรวมใดก็ตาม หากมีการเสมอกันสำหรับแถวผู้ชนะ แถวแรกในลำดับข้อมูลจะถูกใช้เป็นตัวแบ่งความเสมอกัน

การทำให้เป็นมาตรฐาน

ใช้การทำให้เป็นมาตรฐานเพื่อสร้างมาตรฐานของข้อมูลเพื่อการจับคู่ที่ดีขึ้น การทำให้เป็นมาตรฐานทำงานได้ดีกับชุดข้อมูลขนาดใหญ่

ข้อมูลที่เป็นมาตรฐานจะใช้เพื่อวัตถุประสงค์ในการเปรียบเทียบ เพื่อให้ตรงกับเรกคอร์ดของลูกค้าอย่างมีประสิทธิภาพมากขึ้นเท่านั้น จะไม่เปลี่ยนแปลงข้อมูลในผลลัพธ์โปรไฟล์ลูกค้าแบบรวมสุดท้าย

การทำให้เป็นมาตรฐาน	ตัวอย่าง
ตัวเลข	แปลงสัญลักษณ์ Unicode จำนวนมากที่แสดงตัวเลขให้เป็นตัวเลขธรรมดา ตัวอย่าง: ❽ และ Ⅷ ได้รับการทำให้เป็นตัวเลข 8 ทั้งคู่ หมายเหตุ: สัญลักษณ์จะต้องเข้ารหัสในรูปแบบ Unicode Point
สัญลักษณ์	ลบสัญลักษณ์และอักขระพิเศษ ตัวอย่าง: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
ข้อความเป็นตัวพิมพ์เล็ก	แปลงอักขระตัวพิมพ์ใหญ่เป็นตัวพิมพ์เล็ก ตัวอย่าง: "นี่คือตัวอย่าง" จะถูกแปลงเป็น "นี่คือตัวอย่าง"
ชนิด – โทรศัพท์	แปลงโทรศัพท์ในรูปแบบต่างๆ ให้เป็นตัวเลข และคำนึงถึงรูปแบบต่างๆ ในการแสดงรหัสประเทศและหมายเลขต่อ ตัวอย่าง: +01 425.555.1212 = 1 (425) 555-1212
ชนิด - ชื่อ	แปลงชื่อและชื่อเรื่องทั่วไปมากกว่า 500 รายการ ตัวอย่าง: "debby" -> "deborah" "prof" and "professor" -> "Prof."
ชนิด - ที่อยู่	แปลงส่วนทั่วไปของที่อยู่ ตัวอย่าง: "street" -> "st" and "northwest" -> "nw"
ชนิด - องค์กร	ลบชื่อบริษัทประมาณ 50 คำที่เป็น "คำที่รบกวน" เช่น "co" "corp" "corporation" และ "ltd"
Unicode เป็น ASCII	แปลงอักขระ Unicode เป็นตัวอักษรเทียบเท่ากับ ASCII ตัวอย่าง: อักขระ 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ,' และ 'Ａ' ถูกแปลงเป็น 'a' ทั้งหมด
ช่องว่าง	ลบช่องว่างทั้งหมด
การแมปนามแฝง	ช่วยให้คุณสามารถอัปโหลดรายการคู่สตริงที่กำหนดเอง ซึ่งสามารถใช้เพื่อระบุสตริงที่ควรพิจารณาว่าเป็นการทำงานแบบตรงทั้งหมดเสมอ ใช้การแมปนามแฝงเมื่อคุณมีตัวอย่างข้อมูลเฉพาะที่คุณคิดว่าควรตรงกันและไม่ตรงกัน โดยใช้รูปแบบการปรับมาตรฐานอย่างใดอย่างหนึ่ง ตัวอย่าง: Scott และ Scooter หรือ MSFT และ Microsoft
บายพาสแบบกําหนดเอง	ช่วยให้คุณสามารถอัปโหลดรายการสตริงที่ ซึ่งสามารถใช้เพื่อระบุสตริงที่ไม่ควรตรงกัน การบายพาสแบบกำหนดเองมีประโยชน์เมื่อคุณมีข้อมูลที่มีค่าทั่วไปซึ่งควรละเว้น เช่น หมายเลขโทรศัพท์จำลอง หรืออีเมลจำลอง ตัวอย่าง: ไม่ตรงกับโทรศัพท์ 555-1212 หรือ test@contoso.com

ตรงกันทุกประการ

ใช้ความแม่นยำเพื่อพิจารณาว่าสตริงทั้งสองอยู่ใกล้กันเพียงใดจึงจะถือว่าตรงกัน การตั้งค่าความแม่นยำเริ่มต้นต้องมีการจับคู่แบบตรงทั้งหมด ค่าอื่นๆ จะเปิดใช้งานการจับคู่แบบคลุมเครือสำหรับเงื่อนไขนั้น

ความแม่นยำสามารถตั้งค่าเป็นต่ำ (ตรงกัน 30%) ปานกลาง (ตรงกัน 60%) และสูง (ตรงกัน 80%) หรือคุณสามารถปรับแต่งและตั้งค่าความแม่นยำโดยเพิ่มทีละ 1%

เงื่อนไขการจับคู่แบบตรงทั้งหมด

เงื่อนไขการจับคู่แบบตรงทั้งหมดจะถูกรันก่อนเพื่อให้ได้ชุดค่าที่น้อยลงเพื่อให้การจับคู่แบบคลุมเครือ เพื่อให้มีประสิทธิภาพ เงื่อนไขการจับคู่ที่ตรงกันทุกประการควรมีความเป็นเอกลักษณ์ในระดับที่เหมาะสม ตัวอย่างเช่น หากลูกค้าของคุณทั้งหมดอาศัยอยู่ในประเทศเดียวกัน การจับคู่แบบตรงทั้งหมดในประเทศนั้นไม่ได้ช่วยให้ขอบเขตแคบลง

คอลัมน์ เช่น ช่องชื่อนามสกุล อีเมล โทรศัพท์ หรือที่อยู่ มีความเป็นเอกลักษณ์ที่ดีและเป็นคอลัมน์ที่ดีเยี่ยมที่จะใช้เป็นการจับคู่แบบตรงทั้งหมด

ตรวจสอบให้แน่ใจว่าคอลัมน์ที่คุณใช้สำหรับเงื่อนไขการจับคู่แบบตรงทั้งหมดไม่มีค่าใดๆ ที่ซ้ำบ่อยๆ เช่น ค่าเริ่มต้น "ชื่อ" ที่แบบฟอร์มบันทึกไว้ ข้อมูลเชิงลึกของลูกค้าสามารถจัดโปรไฟล์คอลัมน์ข้อมูลเพื่อให้ข้อมูลเชิงลึกเกี่ยวกับค่าที่ซ้ำกันสูงสุด คุณสามารถเปิดใช้งานการสร้างโปรไฟล์ข้อมูลบนการเชื่อมต่อ Azure Data Lake (โดยใช้ Common Data Model หรือรูปแบบ Delta) และ Synapse โปรไฟล์ข้อมูลจะทำงานเมื่อมีการรีเฟรช แหล่งข้อมูล ครั้งถัดไป หากต้องการข้อมูลเพิ่มเติม โปรดไปที่ การทำโปรไฟล์ข้อมูล

การจับคู่คลุมเครือ

ใช้การจับคู่แบบคลุมเครือเพื่อจับคู่สตริงที่ใกล้เคียงกันแต่ไม่ตรงทั้งหมดเนื่องจากมีการพิมพ์ผิดหรือรูปแบบอื่นๆ เล็กน้อย ใช้การจับคู่แบบคลุมเครืออย่างมีกลยุทธ์เนื่องจากช้ากว่าการจับคู่แบบตรงทั้งหมด ตรวจสอบให้แน่ใจว่ามีเงื่อนไขการจับคู่แบบตรงทั้งหมดอย่างน้อย 1 รายการในกฎใดๆ ที่มีเงื่อนไขที่ไม่ชัดเจน

การจับคู่แบบคลุมเครือไม่ได้มีจุดมุ่งหมายเพื่อบันทึกรูปแบบชื่อต่างๆ เช่น Suzzie และ Suzanne รูปแบบเหล่านี้จะถูกบันทึกได้ดีกว่าด้วยรูปแบบการทำให้เป็นมาตรฐาน ประเภท: ชื่อ หรือ การจับคู่นามแฝงที่กำหนดเอง ซึ่งลูกค้าสามารถป้อนได้ รายชื่อรูปแบบชื่อที่พวกเขาต้องการพิจารณาว่าตรงกัน

คุณสามารถเพิ่มเงื่อนไขให้กับกฎ เช่น การจับคู่ชื่อและหมายเลขโทรศัพท์ เงื่อนไขภายในกฎที่กำหนดคือเงื่อนไข "และ" ทุกเงื่อนไขจะต้องตรงกันเพื่อให้แถวตรงกัน แต่กฎที่แยกต่างหากคือเงื่อนไข "หรือ" หากกฎข้อ 1 ไม่ตรงกับแถว แถวนั้นจะถูกเปรียบเทียบกับกฎข้อ 2

หมายเหตุ

เฉพาะคอลัมน์ชนิดข้อมูลสตริงเท่านั้นที่สามารถใช้การจับคู่แบบคลุมเครือได้ สำหรับคอลัมน์ที่มีประเภทข้อมูลอื่น เช่น จำนวนเต็ม สองเท่า หรือวันที่และเวลา ฟิลด์ความแม่นยำจะถูกตั้งค่าให้ตรงกันทุกประการและเป็นแบบอ่านอย่างเดียว

การคำนวณการจับคู่แบบคลุมเครือ

การจับคู่แบบคลุมเครือเกิดขึ้นจากการคำนวณคะแนนระยะการแก้ไขสำหรับสองสตริง หากคะแนนตรงตามหรือเกินเกณฑ์ความแม่นยำ สตริงจะถือว่าตรงกัน

ระยะการแก้ไขคือจำนวนการแก้ไขที่จำเป็นในการเปลี่ยนสตริงหนึ่งเป็นอีกสตริงหนึ่ง โดยการเพิ่ม ลบ หรือเปลี่ยนอักขระ

ตัวอย่างเช่น สตริง "Jacqueline" และ "Jaclyne" มีระยะการแก้ไขที่ห้าเมื่อเราลบอักขระ q, u, e, i และ e และแทรกอักขระ y

การคำนวณพื้นฐานเพื่อกำหนดคะแนนระยะทางแก้ไขคือ: (ความยาวสตริงฐาน – แก้ไขระยะทาง) / ความยาวสตริงฐาน

สตริงฐาน	การเปรียบเทียบสตริง	คะแนน
Jacqueline	Jaclyne	(10-4)/10=.6
fred@contoso.com	fred@contso.cm	(14-2) / 14 = 0.857
franklin	frank	(8-3) / 8 = 0.625

แชร์ผ่าน