หมายเหตุ
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลอง ลงชื่อเข้าใช้หรือเปลี่ยนไดเรกทอรีได้
การเข้าถึงหน้านี้ต้องได้รับการอนุญาต คุณสามารถลองเปลี่ยนไดเรกทอรีได้
ค่าคลัสเตอร์จะสร้างกลุ่มที่มีค่าคล้ายกันโดยอัตโนมัติโดยใช้อัลกอริทึมการจับคู่แบบคลุมเครือ แล้วแมปค่าของแต่ละคอลัมน์กับกลุ่มที่ตรงกันที่สุด การแปลงนี้มีประโยชน์เมื่อคุณทํางานกับข้อมูลที่มีรูปแบบต่างๆ มากมายของค่าเดียวกัน และคุณจําเป็นต้องรวมค่าเป็นกลุ่มที่สอดคล้องกัน
พิจารณาตารางตัวอย่างที่มีคอลัมน์ รหัส ที่มีชุดรหัสและคอลัมน์ บุคคล ที่มีชุดของชื่อ Miguel, Mike, William และ Bill ที่สะกดและตัวพิมพ์ใหญ่หลายแบบ
ในตัวอย่างนี้ ผลลัพธ์ที่คุณกําลังมองหาคือตารางที่มีคอลัมน์ใหม่ที่แสดงกลุ่มค่าที่ถูกต้องจากคอลัมน์ บุคคล และไม่ใช่รูปแบบต่างๆ ของคําเดียวกันทั้งหมด
Note
คุณลักษณะ ค่าคลัสเตอร์ พร้อมใช้งานสําหรับ Power Query Online เท่านั้น
สร้างคอลัมน์คลัสเตอร์
เมื่อต้องการจัดกลุ่มค่า ก่อนอื่นให้เลือกคอลัมน์ บุคคล ไปที่แท็บ เพิ่มคอลัมน์ ใน Ribbon แล้วเลือกตัวเลือก ค่าคลัสเตอร์
ในกล่องโต้ตอบ ค่าคลัสเตอร์ ให้ยืนยันคอลัมน์ที่คุณต้องการใช้สร้างคลัสเตอร์ และใส่ชื่อใหม่ของคอลัมน์ สําหรับกรณีนี้ ให้ตั้งชื่อคอลัมน์ใหม่นี้ว่า คลัสเตอร์
ผลลัพธ์ของการดําเนินการนั้นจะแสดงในภาพต่อไปนี้
Note
สําหรับแต่ละคลัสเตอร์ของค่า Power Query จะเลือกอินสแตนซ์ที่พบบ่อยที่สุดจากคอลัมน์ที่เลือกเป็นอินสแตนซ์ "บัญญัติ" ถ้าหลายอินสแตนซ์เกิดขึ้นด้วยความถี่เดียวกัน Power Query จะเลือกอินสแตนซ์แรก
การใช้ตัวเลือกคลัสเตอร์คลุมเครือ
ตัวเลือกต่อไปนี้พร้อมใช้งานสําหรับการจัดกลุ่มค่าในคอลัมน์ใหม่:
- เกณฑ์ความคล้ายคลึงกัน (ไม่บังคับ): ตัวเลือกนี้ระบุว่าต้องจัดกลุ่มค่าสองค่าเข้าด้วยกันอย่างไร การตั้งค่าต่ําสุดเป็นศูนย์ (0) ทําให้ค่าทั้งหมดถูกจัดกลุ่มเข้าด้วยกัน การตั้งค่าสูงสุด 1 อนุญาตให้จัดกลุ่มค่าที่ตรงกันทุกประการเท่านั้น ค่าเริ่มต้นคือ 0.8
- ละเว้นกรณี: เมื่อเปรียบเทียบสตริงข้อความ กรณีและปัญหาจะถูกละเว้น ตัวเลือกนี้เปิดใช้งานโดยค่าเริ่มต้น
- จัดกลุ่มโดยการรวมส่วนข้อความ: อัลกอริทึมพยายามรวมส่วนข้อความ (เช่น การรวม Micro และ Soft ลงใน Microsoft) เพื่อจัดกลุ่มค่า
- แสดงคะแนนความคล้ายคลึงกัน: แสดงคะแนนความคล้ายคลึงกันระหว่างค่าอินพุตและค่าตัวแทนที่คํานวณหลังจากการจัดกลุ่มแบบคลุมเครือ
- ตารางการแปลง (ไม่บังคับ): คุณสามารถเลือกตารางการแปลงที่แมปค่า (เช่น การแม็ป MSFT กับ Microsoft) เพื่อจัดกลุ่มเข้าด้วยกัน
สําหรับตัวอย่างนี้ ตารางการแปลงใหม่ที่มีชื่อ ตารางการแปลงของฉัน จะใช้เพื่อสาธิตวิธีการแมปค่า ตารางการแปลงนี้มีสองคอลัมน์:
- จาก: สตริงข้อความที่จะค้นหาในตารางของคุณ
- ถึง: สตริงข้อความที่จะใช้แทนที่สตริงข้อความในคอลัมน์ จาก
สําคัญ
สิ่งสําคัญคือตารางการแปลงต้องมีคอลัมน์และชื่อคอลัมน์เดียวกันตามที่แสดงในรูปก่อนหน้า (ต้องตั้งชื่อว่า "จาก" และ "ถึง") มิฉะนั้น Power Query จะไม่รู้จักตารางนี้เป็นตารางการแปลง และจะไม่มีการแปลงเกิดขึ้น
ใช้แบบสอบถามที่สร้างไว้ก่อนหน้านี้ ให้คลิกสองครั้งที่ขั้นตอน ค่าคลัสเตอร์ จากนั้นในกล่องโต้ตอบ ค่าคลัสเตอร์ ให้ขยาย ตัวเลือกคลัสเตอร์คลุมเครือ ภายใต้ ตัวเลือกคลัสเตอร์คลุมเครือ ให้เปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน สําหรับ ตารางการแปลง (ไม่บังคับ) ให้เลือกคิวรีที่มีตารางการแปลง
หลังจากเลือกตารางการแปลงของคุณและเปิดใช้งานตัวเลือก แสดงคะแนนความคล้ายคลึงกัน ให้เลือก ตกลง ผลลัพธ์ของการดําเนินการนั้นจะให้ตารางที่มีคอลัมน์ ID และ Person เดียวกันกับตารางต้นฉบับ แต่ยังมีคอลัมน์ใหม่สองคอลัมน์ที่เรียกว่า Cluster และ Person_Cluster_Similarity คอลัมน์ คลัสเตอร์ ประกอบด้วยชื่อ Miguel สําหรับเวอร์ชันของ Miguel และ Mike และ William สําหรับเวอร์ชันของ Bill, Billy และ William คอลัมน์ Person_Cluster_Similarity ประกอบด้วยคะแนนความคล้ายคลึงกันสําหรับแต่ละชื่อ
ศีลตารางการเปลี่ยนแปลง
คุณอาจสังเกตเห็นว่าตารางการแปลงในส่วนก่อนหน้านี้ดูเหมือนจะบ่งชี้ว่าอินสแตนซ์ของไมค์ถูกเปลี่ยนเป็นมิเกลและอินสแตนซ์ของวิลเลียมถูกเปลี่ยนเป็นบิล อย่างไรก็ตาม ในตารางผลลัพธ์ ตัวอย่างของ Bill และ "billy" ถูกเปลี่ยนเป็น William แทน ในตารางการแปลง แทนที่จะเป็นเส้นทาง From to To โดยตรง ตารางการแปลงจะสมมาตรระหว่างการจัดกลุ่ม ซึ่งหมายความว่า "mike" เทียบเท่ากับ "Miguel" และในทางกลับกัน ผลลัพธ์ของค่าเทียบเท่าที่ระบุในตารางการแปลงขึ้นอยู่กับกฎต่อไปนี้:
- หากมีค่าที่เหมือนกันส่วนใหญ่ ค่าเหล่านี้จะมีความสําคัญเหนือกว่าค่าที่ไม่เหมือนกัน
- ถ้าไม่มีค่าส่วนใหญ่ ค่าที่ปรากฏก่อนจะมีความสําคัญเหนือกว่า
ตัวอย่างเช่น ในตารางเดิมที่ใช้ในบทความนี้ เวอร์ชันของ Miguel (ทั้ง "miguel" และ Miguel) ในคอลัมน์ Person ประกอบขึ้นเป็นตัวอย่างส่วนใหญ่ของชื่อ Miguel และ Mike นอกจากนี้ ชื่อ Miguel ที่มีตัวพิมพ์ใหญ่เป็นส่วนใหญ่ของชื่อ Miguel ดังนั้นการเชื่อมโยง Miguel และอนุพันธ์และ Mike และอนุพันธ์ในตารางการแปลงส่งผลให้ชื่อ Miguel ถูกใช้ในคอลัมน์คลัสเตอร์
อย่างไรก็ตาม สําหรับชื่อ William, Bill และ "billy" ไม่มีค่านิยมส่วนใหญ่เนื่องจากทั้งสามมีค่าเฉพาะตัว เนื่องจากวิลเลียมปรากฏตัวก่อน วิลเลียมจึงถูกใช้ในคอลัมน์คลัสเตอร์ ถ้า "billy" ปรากฏเป็นอันดับแรกในตาราง "billy" จะถูกใช้ในคอลัมน์ คลัสเตอร์ นอกจากนี้ เนื่องจากไม่มีค่าส่วนใหญ่ จึงใช้กรณีที่ใช้โดยชื่อแต่ละชื่อ นั่นคือถ้าวิลเลียมเป็นคนแรก วิลเลียมที่มีตัวพิมพ์ใหญ่ "W" จะถูกใช้เป็นค่าผลลัพธ์ ถ้า "Billy" เป็นตัวแรก จะใช้ "Billy" ที่มีตัวพิมพ์เล็ก "B"