การจัดกลุ่มคลัสเตอร์

10 นาที

การจัดกลุ่มคลัสเตอร์คือรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล ซึ่งการสังเกตการณ์จะถูกจัดกลุ่มลงในคลัสเตอร์ตามความคล้ายคลึงกันในค่าข้อมูลหรือคุณสมบัติ การเรียนรู้ของเครื่องประเภทนี้ถือว่าไม่ได้รับการดูแล เนื่องจากไม่ได้ใช้ค่าป้ายกำกับที่รู้จักก่อนหน้านี้ในการฝึกโมเดล ในโมเดลการจัดกลุ่มคลัสเตอร์ ป้ายกำกับคือคลัสเตอร์ที่มีการกําหนดการสังเกตการณ์ตามคุณสมบัติเท่านั้น

ตัวอย่าง - การจัดกลุ่มคลัสเตอร์

ตัวอย่างเช่น สมมติว่านักพฤกษศาสตร์สังเกตการณ์ดอกไม้ตัวอย่าง และบันทึกจํานวนใบและกลีบดอกไม้บนดอกไม้แต่ละดอก:

ไดอะแกรมของดอกไม้

ไม่มีป้ายกำกับที่รู้จักในชุดข้อมูล มีเพียงคุณสมบัติสองรายการเท่านั้น เป้าหมายคือไม่ระบุชนิดต่างๆ (สายพันธุ์) ของดอกไม้ เพียงแค่จัดกลุ่มดอกไม้ที่คล้ายกันไว้ด้วยกันตามจํานวนใบและกลีบดอกไม้

ใบ (x₁)	กลีบ (x₂)
0	5
0	6
1	3
1	3
1	6
1	8
2	3
2	7
2	8

การฝึกโมเดลการจัดกลุ่มคลัสเตอร์

มีหลายอัลกอริทึมที่คุณสามารถใช้สําหรับการจัดกลุ่มคลัสเตอร์ได้ หนึ่งในอัลกอริทึมที่ใช้บ่อยที่สุดคือการจัดกลุ่มคลัสเตอร์ K-Means ซึ่งประกอบด้วยขั้นตอนต่อไปนี้:

ค่าคุณสมบัติ (x) เป็นเวกเตอร์เพื่อกําหนดพิกัดแบบn-มิติ (โดยที่ n คือจํานวนคุณสมบัติ) ในตัวอย่างดอกไม้นี้ เรามีสองคุณสมบัติ ได้แก่ จํานวนใบ (x₁) และจํานวนกลีบ (x₂) ดังนั้นเวกเตอร์คุณสมจึงมีสองพิกัดที่เราสามารถใช้เพื่อลงจุดข้อมูลในพื้นที่สองมิติได้ตามแนวคิด ([x₁,x₂])
คุณตัดสินใจว่าต้องใช้คลัสเตอร์มากแค่ไหนในการจัดกลุ่มดอกไม้ โดยเรียกค่านี้ว่า k ตัวอย่างเช่น เมื่อต้องสร้างคลัสเตอร์สามกลุ่ม คุณจะต้องใช้ค่า k เป็น 3 จากนั้น จุด k จะถูกลงจุดที่พิกัดแบบสุ่ม จุดเหล่านี้จะกลายเป็นจุดกึ่งกลางสําหรับแต่ละคลัสเตอร์ ดังนั้นจึงเรียกว่าจุดศูนย์กลาง
แต่ละจุดข้อมูล (ในกรณีนี้คือดอกไม้) จะถูกกําหนดให้กับจุดศูนย์กลางที่ใกล้ที่สุด
จุดศูนย์กลางแต่ละจุดจะถูกย้ายไปยังศูนย์กลางของจุดข้อมูลที่กําหนดไว้โดยขึ้นอยู่กับระยะห่างระหว่างจุด
หลังจากที่มีการย้ายจุดศูนย์กลาง จุดข้อมูลอาจเข้าใกล้จุดศูนย์กลางที่แตกต่างกันไปมากขึ้น ดังนั้นจุดข้อมูลจะถูกกําหนดใหม่ไปยังคลัสเตอร์ที่ยึดตามจุดศูนย์กลางใหม่ที่ใกล้ที่สุด
ขั้นตอนการย้ายจุดศูนย์กลางและการกำหนดคลัสเตอร์ใหม่นี้จะวนซ้ำไปจนกว่าคลัสเตอร์จะมีความเสถียรหรือถึงจํานวนการวนซ้ำสูงสุดที่กําหนดไว้แล้ว

ภาพเคลื่อนไหวต่อไปนี้จะแสดงถึงกระบวนการนี้:

ไดอะแกรมของภาพเคลื่อนไหวที่แสดงกระบวนการจัดกลุ่มคลัสเตอร์ k-means

การประเมินโมเดลการจัดกลุ่มคลัสเตอร์

เนื่องจากไม่มีป้ายกำกับที่รู้จักในการเปรียบเทียบการกําหนดคลัสเตอร์ที่คาดการณ์ การประเมินแบบโมเดลการจัดกลุ่มคลัสเตอร์จะขึ้นอยู่กับว่าคลัสเตอร์ผลลัพธ์ถูกแยกออกจากกันอย่างไร

มีหลายเมตริกที่คุณสามารถใช้เพื่อประเมินการแยกคลัสเตอร์ ได้แก่:

ระยะทางเฉลี่ยไปยังศูนย์กลางคลัสเตอร์: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์มากน้อยเพียงใด
ระยะทางเฉลี่ยไปยังศูนย์กลางอื่น: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์อื่นทั้งหมดมากน้อยเพียงใด
ระยะห่างสูงสุดไปยังศูนย์กลางคลัสเตอร์: ระยะห่างสูงสุดระหว่างจุดหนึ่งในคลัสเตอร์ไปยังจุดศูนย์กลาง
ค่าความใกล้เคียง: ค่าระหว่าง -1 ถึง 1 ที่สรุปอัตราส่วนระยะห่างระหว่างจุดต่างๆ ในคลัสเตอร์เดียวกันและจุดต่างๆ ในคลัสเตอร์อื่น (ยิ่งใกล้เคียงกับ 1 การแยกคลัสเตอร์ยิ่งดี)

การจัดกลุ่มคลัสเตอร์

ตัวอย่าง - การจัดกลุ่มคลัสเตอร์

การฝึกโมเดลการจัดกลุ่มคลัสเตอร์

การประเมินโมเดลการจัดกลุ่มคลัสเตอร์

คำติชม