แนวทางปฏิบัติที่ดีที่สุดในการรวมข้อมูล

บทความ
07/23/2024

เมื่อคุณตั้งกฎเกณฑ์เพื่อรวมข้อมูลของคุณลงในโปรไฟล์ลูกค้า โปรดพิจารณาแนวทางปฏิบัติที่ดีที่สุดต่อไปนี้:

เวลาสมดุลในการรวมเข้ากับการจับคู่ที่สมบูรณ์ การพยายามที่จะจับคู่ให้ตรงกันทุกอันที่เป็นไปได้นั้นนำไปสู่กฎเกณฑ์ต่างๆ มากมาย และการรวมกันนั้นต้องใช้เวลานาน
เพิ่มกฎเกณฑ์อย่างค่อยเป็นค่อยไปและติดตามผลลัพธ์ ลบกฎที่ไม่ทำให้ผลการแข่งขันดีขึ้น
กำจัดข้อมูลที่ซ้ำกันในแต่ละตาราง เพื่อให้ลูกค้าแต่ละรายแสดงอยู่ในแถวเดียว
ใช้ การทำให้เป็นมาตรฐาน เพื่อทำให้การเปลี่ยนแปลง ในวิธีป้อนข้อมูลเป็นมาตรฐาน เช่น ถนน เทียบกับ ถนนสายหลัก เทียบกับ ถนนสายรอง
ใช้การจับคู่แบบคลุมเครือ อย่างมีกลยุทธ์เพื่อแก้ไขข้อผิดพลาดในการพิมพ์และข้อผิดพลาด เช่น และ bob@contoso.com การจับคู่แบบคลุมเครือจะใช้เวลาดำเนินการนานกว่าการจับคู่แบบตรงเป๊ะ bob@contoso.cm ทดสอบเสมอเพื่อดูว่าเวลาเพิ่มเติมที่ใช้ในการจับคู่แบบคลุมเครือคุ้มกับอัตราการจับคู่เพิ่มเติมหรือไม่
จำกัดขอบเขตการจับคู่ด้วย ตรงกันเป๊ะ ตรวจสอบให้แน่ใจว่ากฎทุกข้อที่มีเงื่อนไขคลุมเครือจะมีเงื่อนไขที่ตรงกันอย่างน้อยหนึ่งเงื่อนไข
อย่าจับคู่คอลัมน์ที่มีข้อมูลซ้ำกันหนักๆ ตรวจสอบให้แน่ใจว่าคอลัมน์ที่จับคู่แบบคลุมเครือไม่มีค่าที่ซ้ำกันบ่อยๆ เช่น ค่าเริ่มต้นของแบบฟอร์มที่เป็น "ชื่อ"

การดำเนินงานรวม

กฎแต่ละข้อจะใช้เวลาในการทำงาน รูปแบบต่างๆ เช่น การเปรียบเทียบตารางทั้งหมดกับตารางอื่นๆ หรือการพยายามจับคู่ระเบียนที่เป็นไปได้ทั้งหมดอาจทำให้การประมวลผลการรวมข้อมูลใช้เวลานาน นอกจากนี้ ยังส่งคืนผลลัพธ์ที่ตรงกันเพียงเล็กน้อยหรือไม่มีเลยในแผนที่เปรียบเทียบตารางแต่ละตารางกับตารางฐานข้อมูล

แนวทางที่ดีที่สุดคือเริ่มต้นด้วยชุดกฎพื้นฐานที่คุณทราบว่าจำเป็น เช่น การเปรียบเทียบตารางแต่ละตารางกับตารางหลักของคุณ ตารางหลักของคุณควรเป็นตารางที่มีข้อมูลที่สมบูรณ์และถูกต้องที่สุด ตารางนี้ควรเรียงลำดับที่ด้านบนในการรวมกฎการจับคู่ ขั้นตอน

เพิ่มกฎหลายๆ ข้อไปเรื่อยๆ แล้วดูว่าการเปลี่ยนแปลงใช้เวลาดำเนินการนานเท่าใด และผลลัพธ์ของคุณดีขึ้นหรือไม่ ไปที่ การตั้งค่า>ระบบ>สถานะ และเลือก การจับคู่ เพื่อดูว่าการลบข้อมูลซ้ำซ้อนและการจับคู่ใช้เวลานานแค่ไหนสำหรับการทำงานรวมกันแต่ละครั้ง

ภาพหน้าจอของหน้าสถานะที่แสดงเวลาการทำงานของการแข่งขัน

ดูสถิติกฎในหน้า กฎการกำจัดข้อมูลซ้ำซ้อน และ กฎการจับคู่ เพื่อดูว่าจำนวน ระเบียนที่ไม่ซ้ำกัน เปลี่ยนแปลงไปหรือไม่ หากกฎใหม่ตรงกับบางรายการ และจำนวนรายการที่ไม่ซ้ำกันไม่เปลี่ยนแปลง กฎก่อนหน้าจะระบุรายการที่ตรงกันเหล่านั้น

ภาพหน้าจอของหน้ากฎการจับคู่ที่เน้นที่บันทึกเฉพาะ

การลบข้อมูลซ้ำซ้อน

ใช้กฎการกำจัดข้อมูลซ้ำซ้อนเพื่อลบข้อมูลลูกค้าที่ซ้ำกันภายในตารางเพื่อให้แถวเดียวในแต่ละตารางแสดงถึงลูกค้าแต่ละราย กฎที่ดีจะระบุถึงลูกค้าที่ไม่ซ้ำกัน

ในตัวอย่างง่ายๆ นี้ บันทึก 1, 2 และ 3 ใช้อีเมลหรือหมายเลขโทรศัพท์ร่วมกัน และแสดงถึงบุคคลเดียวกัน

ID	Name	หมายเลขโทรศัพท์	Email
1	บุคคลที่ 1	(425) 555-1111	AAA@A.com
2	บุคคลที่ 1	(425) 555-1111	BBB@B.com
3	บุคคลที่ 1	(425) 555-2222	BBB@B.com
4	บุคคลที่ 2	(206) 555-9999	Person2@contoso.com

เราไม่ต้องการที่จะจับคู่กับชื่อเพียงชื่อเดียว เนื่องจากจะจับคู่บุคคลอื่นที่มีชื่อเดียวกัน

สร้างกฎข้อที่ 1 โดยใช้ชื่อและหมายเลขโทรศัพท์ ซึ่งตรงกับระเบียนที่ 1 และ 2
สร้างกฎข้อที่ 2 โดยใช้ชื่อและอีเมล ซึ่งตรงกับระเบียนที่ 2 และ 3

การรวมกันของกฎข้อที่ 1 และกฎข้อที่ 2 จะสร้างกลุ่มการจับคู่กลุ่มเดียว เนื่องจากทั้งสองกลุ่มมีเรกคอร์ดที่ 2 ร่วมกัน

คุณกำหนดจำนวนกฎและเงื่อนไขที่สามารถระบุตัวลูกค้าของคุณได้อย่างชัดเจน กฎเกณฑ์ที่แน่นอนจะขึ้นอยู่กับข้อมูลที่คุณมีเพื่อจับคู่ คุณภาพของข้อมูลของคุณ และความครอบคลุมที่คุณต้องการให้กระบวนการลบข้อมูลซ้ำซ้อนครอบคลุมแค่ไหน

ผู้ชนะและเรกคอร์ดสำรอง

เมื่อกฎถูกเรียกใช้และระบุระเบียนที่ซ้ำกัน กระบวนการลบข้อมูลซ้ำซ้อนจะเลือก "แถวผู้ชนะ" แถวที่ไม่ชนะจะถูกเรียกว่า "แถวสำรอง" แถวสำรองจะถูกใช้ในการรวมกฎการจับคู่ ขั้นตอน เพื่อจับคู่ระเบียนจากตารางอื่นกับแถวผู้ชนะ แถวจะถูกจับคู่กับข้อมูลในแถวสำรองนอกเหนือจากแถวผู้ชนะ

เมื่อคุณเพิ่มกฎลงในตารางแล้ว คุณสามารถกำหนดค่าแถวที่จะเลือกเป็นแถวผู้ชนะได้ผ่าน การกำหนดค่าการผสาน การตั้งค่าการรวมถูกกำหนดไว้ตามตาราง ไม่ว่าจะเลือกนโยบายการผสานแบบใด หากมีการเสมอกันในแถวผู้ชนะ แถวแรกในลำดับข้อมูลจะถูกใช้เป็นตัวตัดสินเสมอ

การทำให้เป็นมาตรฐาน

ใช้การทำให้เป็นมาตรฐานเพื่อสร้างข้อมูลให้ตรงกันมากขึ้น การทำให้เป็นมาตรฐานมีประสิทธิภาพดีกับชุดข้อมูลขนาดใหญ่

ข้อมูลที่เป็นมาตรฐานจะใช้เพื่อวัตถุประสงค์ในการเปรียบเทียบ เพื่อให้ตรงกับเรกคอร์ดของลูกค้าอย่างมีประสิทธิภาพมากขึ้นเท่านั้น จะไม่เปลี่ยนแปลงข้อมูลในผลลัพธ์โปรไฟล์ลูกค้าแบบรวมสุดท้าย

การทำให้เป็นมาตรฐาน	ตัวอย่าง
ตัวเลข	แปลงสัญลักษณ์ Unicode จำนวนมากที่แสดงตัวเลขให้เป็นตัวเลขธรรมดา ตัวอย่าง: ❽ และ Ⅷ ทั้งคู่ได้รับการทำให้เป็นมาตรฐานเป็นเลข 8 หมายเหตุ: สัญลักษณ์จะต้องเข้ารหัสในรูปแบบ Unicode Point
สัญลักษณ์	ลบสัญลักษณ์และอักขระพิเศษ ตัวอย่าง: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
ข้อความเป็นตัวพิมพ์เล็ก	แปลงอักขระตัวพิมพ์ใหญ่เป็นตัวพิมพ์เล็ก ตัวอย่าง: "นี่คือตัวอย่าง" ถูกแปลงเป็น "นี่คือตัวอย่าง"
ชนิด – โทรศัพท์	แปลงโทรศัพท์ในรูปแบบต่างๆ ให้เป็นตัวเลข และคำนึงถึงรูปแบบต่างๆ ในการแสดงรหัสประเทศและหมายเลขต่อ ตัวอย่าง: +01 425.555.1212 = 1 (425) 555-1212
ชนิด - ชื่อ	แปลงชื่อและชื่อเรื่องทั่วไปมากกว่า 500 รายการ ตัวอย่าง: "debby" -> "deborah" "prof" and "professor" -> "Prof."
ชนิด - ที่อยู่	แปลงส่วนทั่วไปของที่อยู่ ตัวอย่าง: "street" -> "st" and "northwest" -> "nw"
ชนิด - องค์กร	ลบคำที่ไม่สำคัญในชื่อบริษัทประมาณ 50 คำ เช่น "co" "corp" "corporation" และ "ltd"
Unicode เป็น ASCII	แปลงอักขระ Unicode เป็นตัวอักษรเทียบเท่ากับ ASCII ตัวอย่าง: อักขระ 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ,' และ 'Ａ' ทั้งหมดถูกแปลงเป็น 'a'
ช่องว่าง	ลบช่องว่างทั้งหมด
การแมปนามแฝง	ช่วยให้คุณสามารถอัปโหลดรายการคู่สตริงที่กำหนดเอง ซึ่งสามารถใช้เพื่อระบุสตริงที่ควรพิจารณาว่าเป็นการทำงานแบบตรงทั้งหมดเสมอ ใช้การแมปนามแฝงเมื่อคุณมีตัวอย่างข้อมูลเฉพาะที่คุณคิดว่าควรตรงกันและไม่ตรงกัน โดยใช้รูปแบบการปรับมาตรฐานอย่างใดอย่างหนึ่ง ตัวอย่าง: Scott และ Scooter หรือ MSFT และ Microsoft
บายพาสแบบกําหนดเอง	ช่วยให้คุณสามารถอัปโหลดรายการสตริงที่ ซึ่งสามารถใช้เพื่อระบุสตริงที่ไม่ควรตรงกัน การหลีกเลี่ยงแบบกำหนดเองนั้นมีประโยชน์เมื่อคุณมีข้อมูลที่มีค่าทั่วไปที่ควรจะละเว้น เช่น หมายเลขโทรศัพท์หลอกหรืออีเมลหลอก ตัวอย่าง: ไม่ตรงกับโทรศัพท์ 555-1212 หรือ test@contoso.com

ตรงกันทุกประการ

ใช้ความแม่นยำในการกำหนดว่าควรให้สตริงทั้งสองใกล้เคียงกันแค่ไหนจึงจะถือว่าตรงกัน การตั้งค่าความแม่นยำเริ่มต้นต้องใช้ค่าที่ตรงกันทุกประการ ค่าอื่น ๆ ช่วยให้สามารถจับคู่แบบคลุมเครือสำหรับเงื่อนไขนั้นได้

ความแม่นยำสามารถตั้งค่าเป็นต่ำ (ตรงกัน 30%) ปานกลาง (ตรงกัน 60%) และสูง (ตรงกัน 80%) หรือคุณสามารถปรับแต่งและตั้งค่าความแม่นยำได้ครั้งละ 1%

เงื่อนไขที่ตรงกันเป๊ะ

ก่อนอื่นจะมีการเรียกใช้เงื่อนไขการจับคู่ที่แน่นอนเพื่อให้ได้ชุดค่าที่เล็กกว่าสำหรับการจับคู่แบบคลุมเครือ เพื่อให้มีประสิทธิภาพ เงื่อนไขการจับคู่ที่ตรงกันทุกประการควรมีความเป็นเอกลักษณ์ในระดับที่เหมาะสม ตัวอย่างเช่น หากลูกค้าของคุณทั้งหมดอาศัยอยู่ในประเทศ/ภูมิภาคเดียวกัน การมีข้อมูลที่ตรงกันกับประเทศ/ภูมิภาคนั้นจะไม่ช่วยจำกัดขอบเขตได้

คอลัมน์ เช่น ช่องชื่อนามสกุล อีเมล หมายเลขโทรศัพท์ หรือที่อยู่ มีเอกลักษณ์เฉพาะตัวที่ดีและเป็นคอลัมน์ที่ยอดเยี่ยมในการใช้เป็นข้อมูลที่ตรงกันแน่นอน

ตรวจสอบให้แน่ใจว่าคอลัมน์ที่คุณใช้สำหรับเงื่อนไขการจับคู่ที่แน่นอนไม่มีค่าใดๆ ที่ซ้ำกันบ่อยๆ เช่น ค่าเริ่มต้น "ชื่อ" ที่จับโดยแบบฟอร์ม ข้อมูลเชิงลึกของลูกค้าสามารถสร้างโปรไฟล์คอลัมน์ข้อมูลเพื่อให้เข้าใจถึงค่าที่เกิดซ้ำสูงสุด คุณสามารถเปิดใช้งานการจัดทำโปรไฟล์ข้อมูลบนการเชื่อมต่อ Azure Data Lake (โดยใช้ Common Data Model หรือรูปแบบ Delta) และ Synapse ได้ โปรไฟล์ข้อมูลจะทำงานเมื่อมีการรีเฟรช แหล่งข้อมูล ครั้งถัดไป หากต้องการข้อมูลเพิ่มเติม โปรดไปที่ การจัดทำโปรไฟล์ข้อมูล -

การจับคู่แบบฟัซซี่

ใช้การจับคู่แบบคลุมเครือเพื่อจับคู่สตริงที่ใกล้เคียงแต่ไม่ตรงกันเนื่องจากการพิมพ์ผิดหรือความแตกต่างเล็กๆ น้อยๆ อื่นๆ ใช้การจับคู่แบบคลุมเครืออย่างมีกลยุทธ์ เนื่องจากจะช้ากว่าการจับคู่แบบแน่นอน ตรวจสอบให้แน่ใจว่ามีเงื่อนไขที่ตรงกันอย่างน้อยหนึ่งเงื่อนไขในกฎใดๆ ที่มีเงื่อนไขคลุมเครือ

การจับคู่แบบคลุมเครือไม่ได้มีวัตถุประสงค์เพื่อจับรูปแบบชื่อที่แตกต่างกันเช่น Suzzie และ Suzanne การเปลี่ยนแปลงเหล่านี้จะถูกจับภาพได้ดีขึ้นโดยใช้รูปแบบการทำให้เป็นมาตรฐาน ประเภท: ชื่อ หรือ การจับคู่นามแฝง แบบกำหนดเอง ซึ่งลูกค้าสามารถป้อนรายชื่อรูปแบบชื่อที่ต้องการพิจารณาให้ตรงกันได้

คุณสามารถเพิ่มเงื่อนไขให้กับกฎ เช่น การจับคู่ชื่อและหมายเลขโทรศัพท์ เงื่อนไขภายในกฎที่กำหนดคือเงื่อนไข "AND" ทุกเงื่อนไขต้องตรงกันจึงจะตรงกันได้ กฎที่แยกกันคือเงื่อนไข "หรือ" หากกฎข้อที่ 1 ไม่ตรงกับแถว ก็จะมีการเปรียบเทียบแถวกับกฎข้อที่ 2

หมายเหตุ

เฉพาะคอลัมน์ชนิดข้อมูลสตริงเท่านั้นที่สามารถใช้การจับคู่แบบคลุมเครือได้ สำหรับคอลัมน์ที่มีประเภทข้อมูลอื่นเช่น จำนวนเต็ม สองเท่า หรือวันที่และเวลา ฟิลด์ความแม่นยำจะเป็นแบบอ่านอย่างเดียวและตั้งค่าให้ตรงกันแน่นอน

การคำนวณการจับคู่แบบคลุมเครือ

การจับคู่แบบฟัซซี่จะถูกกำหนดโดยการคำนวณคะแนนระยะทางการแก้ไขระหว่างสตริงสองสตริง หากคะแนนตรงตามหรือเกินเกณฑ์ความแม่นยำ สตริงนั้นจะถือว่าตรงกัน

ระยะการแก้ไขคือจำนวนการแก้ไขที่จำเป็นในการเปลี่ยนสตริงหนึ่งเป็นอีกสตริงหนึ่ง โดยการเพิ่ม ลบ หรือเปลี่ยนแปลงอักขระ

ตัวอย่างเช่น สตริง "Jacqueline" และ "Jaclyne" มีระยะการแก้ไขห้าเมื่อเราลบอักขระ q, u, e, i และ e และแทรกอักขระ y เข้าไป

ในการคำนวณคะแนนระยะการแก้ไข ให้ใช้สูตรนี้: (ความยาวสตริงฐาน – ระยะการแก้ไข) / ความยาวสตริงฐาน

สตริงฐาน	การเปรียบเทียบสตริง	คะแนน
Jacqueline	Jaclyne	(10-4)/10=.6
fred@contoso.com	fred@contso.cm	(14-2) / 14 = 0.857
franklin	frank	(8-3) / 8 = 0.625

แชร์ผ่าน