การจัดกลุ่มคลัสเตอร์
การจัดกลุ่มคลัสเตอร์คือรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล ซึ่งการสังเกตการณ์จะถูกจัดกลุ่มลงในคลัสเตอร์ตามความคล้ายคลึงกันในค่าข้อมูลหรือคุณสมบัติ การเรียนรู้ของเครื่องประเภทนี้ถือว่าไม่ได้รับการดูแล เนื่องจากไม่ได้ใช้ค่าป้ายกำกับที่รู้จักก่อนหน้านี้ในการฝึกโมเดล ในโมเดลการจัดกลุ่มคลัสเตอร์ ป้ายกำกับคือคลัสเตอร์ที่มีการกําหนดการสังเกตการณ์ตามคุณสมบัติเท่านั้น
ตัวอย่าง - การจัดกลุ่มคลัสเตอร์
ตัวอย่างเช่น สมมติว่านักพฤกษศาสตร์สังเกตการณ์ดอกไม้ตัวอย่าง และบันทึกจํานวนใบและกลีบดอกไม้บนดอกไม้แต่ละดอก:
ไม่มีป้ายกำกับที่รู้จักในชุดข้อมูล มีเพียงคุณสมบัติสองรายการเท่านั้น เป้าหมายคือไม่ระบุชนิดต่างๆ (สายพันธุ์) ของดอกไม้ เพียงแค่จัดกลุ่มดอกไม้ที่คล้ายกันไว้ด้วยกันตามจํานวนใบและกลีบดอกไม้
ใบ (x1) | กลีบ (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
การฝึกโมเดลการจัดกลุ่มคลัสเตอร์
มีหลายอัลกอริทึมที่คุณสามารถใช้สําหรับการจัดกลุ่มคลัสเตอร์ได้ หนึ่งในอัลกอริทึมที่ใช้บ่อยที่สุดคือการจัดกลุ่มคลัสเตอร์ K-Means ซึ่งประกอบด้วยขั้นตอนต่อไปนี้:
- ค่าคุณสมบัติ (x) เป็นเวกเตอร์เพื่อกําหนดพิกัดแบบn-มิติ (โดยที่ n คือจํานวนคุณสมบัติ) ในตัวอย่างดอกไม้นี้ เรามีสองคุณสมบัติ ได้แก่ จํานวนใบ (x1) และจํานวนกลีบ (x2) ดังนั้นเวกเตอร์คุณสมจึงมีสองพิกัดที่เราสามารถใช้เพื่อลงจุดข้อมูลในพื้นที่สองมิติได้ตามแนวคิด ([x1,x2])
- คุณตัดสินใจว่าต้องใช้คลัสเตอร์มากแค่ไหนในการจัดกลุ่มดอกไม้ โดยเรียกค่านี้ว่า k ตัวอย่างเช่น เมื่อต้องสร้างคลัสเตอร์สามกลุ่ม คุณจะต้องใช้ค่า k เป็น 3 จากนั้น จุด k จะถูกลงจุดที่พิกัดแบบสุ่ม จุดเหล่านี้จะกลายเป็นจุดกึ่งกลางสําหรับแต่ละคลัสเตอร์ ดังนั้นจึงเรียกว่าจุดศูนย์กลาง
- แต่ละจุดข้อมูล (ในกรณีนี้คือดอกไม้) จะถูกกําหนดให้กับจุดศูนย์กลางที่ใกล้ที่สุด
- จุดศูนย์กลางแต่ละจุดจะถูกย้ายไปยังศูนย์กลางของจุดข้อมูลที่กําหนดไว้โดยขึ้นอยู่กับระยะห่างระหว่างจุด
- หลังจากที่มีการย้ายจุดศูนย์กลาง จุดข้อมูลอาจเข้าใกล้จุดศูนย์กลางที่แตกต่างกันไปมากขึ้น ดังนั้นจุดข้อมูลจะถูกกําหนดใหม่ไปยังคลัสเตอร์ที่ยึดตามจุดศูนย์กลางใหม่ที่ใกล้ที่สุด
- ขั้นตอนการย้ายจุดศูนย์กลางและการกำหนดคลัสเตอร์ใหม่นี้จะวนซ้ำไปจนกว่าคลัสเตอร์จะมีความเสถียรหรือถึงจํานวนการวนซ้ำสูงสุดที่กําหนดไว้แล้ว
ภาพเคลื่อนไหวต่อไปนี้จะแสดงถึงกระบวนการนี้:
การประเมินโมเดลการจัดกลุ่มคลัสเตอร์
เนื่องจากไม่มีป้ายกำกับที่รู้จักในการเปรียบเทียบการกําหนดคลัสเตอร์ที่คาดการณ์ การประเมินแบบโมเดลการจัดกลุ่มคลัสเตอร์จะขึ้นอยู่กับว่าคลัสเตอร์ผลลัพธ์ถูกแยกออกจากกันอย่างไร
มีหลายเมตริกที่คุณสามารถใช้เพื่อประเมินการแยกคลัสเตอร์ ได้แก่:
- ระยะทางเฉลี่ยไปยังศูนย์กลางคลัสเตอร์: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์มากน้อยเพียงใด
- ระยะทางเฉลี่ยไปยังศูนย์กลางอื่น: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์อื่นทั้งหมดมากน้อยเพียงใด
- ระยะห่างสูงสุดไปยังศูนย์กลางคลัสเตอร์: ระยะห่างสูงสุดระหว่างจุดหนึ่งในคลัสเตอร์ไปยังจุดศูนย์กลาง
- ค่าความใกล้เคียง: ค่าระหว่าง -1 ถึง 1 ที่สรุปอัตราส่วนระยะห่างระหว่างจุดต่างๆ ในคลัสเตอร์เดียวกันและจุดต่างๆ ในคลัสเตอร์อื่น (ยิ่งใกล้เคียงกับ 1 การแยกคลัสเตอร์ยิ่งดี)