การจัดกลุ่มคลัสเตอร์

เสร็จสมบูรณ์เมื่อ

การจัดกลุ่มคลัสเตอร์คือรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล ซึ่งการสังเกตการณ์จะถูกจัดกลุ่มลงในคลัสเตอร์ตามความคล้ายคลึงกันในค่าข้อมูลหรือคุณสมบัติ การเรียนรู้ของเครื่องประเภทนี้ถือว่าไม่ได้รับการดูแล เนื่องจากไม่ได้ใช้ค่าป้ายกำกับที่รู้จักก่อนหน้านี้ในการฝึกโมเดล ในโมเดลการจัดกลุ่มคลัสเตอร์ ป้ายกำกับคือคลัสเตอร์ที่มีการกําหนดการสังเกตการณ์ตามคุณสมบัติเท่านั้น

ตัวอย่าง - การจัดกลุ่มคลัสเตอร์

ตัวอย่างเช่น สมมติว่านักพฤกษศาสตร์สังเกตการณ์ดอกไม้ตัวอย่าง และบันทึกจํานวนใบและกลีบดอกไม้บนดอกไม้แต่ละดอก:

ไดอะแกรมของดอกไม้

ไม่มีป้ายกำกับที่รู้จักในชุดข้อมูล มีเพียงคุณสมบัติสองรายการเท่านั้น เป้าหมายคือไม่ระบุชนิดต่างๆ (สายพันธุ์) ของดอกไม้ เพียงแค่จัดกลุ่มดอกไม้ที่คล้ายกันไว้ด้วยกันตามจํานวนใบและกลีบดอกไม้

ใบ (x1) กลีบ (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

การฝึกโมเดลการจัดกลุ่มคลัสเตอร์

มีหลายอัลกอริทึมที่คุณสามารถใช้สําหรับการจัดกลุ่มคลัสเตอร์ได้ หนึ่งในอัลกอริทึมที่ใช้บ่อยที่สุดคือการจัดกลุ่มคลัสเตอร์ K-Means ซึ่งประกอบด้วยขั้นตอนต่อไปนี้:

  1. ค่าคุณสมบัติ (x) เป็นเวกเตอร์เพื่อกําหนดพิกัดแบบn-มิติ (โดยที่ n คือจํานวนคุณสมบัติ) ในตัวอย่างดอกไม้นี้ เรามีสองคุณสมบัติ ได้แก่ จํานวนใบ (x1) และจํานวนกลีบ (x2) ดังนั้นเวกเตอร์คุณสมจึงมีสองพิกัดที่เราสามารถใช้เพื่อลงจุดข้อมูลในพื้นที่สองมิติได้ตามแนวคิด ([x1,x2])
  2. คุณตัดสินใจว่าต้องใช้คลัสเตอร์มากแค่ไหนในการจัดกลุ่มดอกไม้ โดยเรียกค่านี้ว่า k ตัวอย่างเช่น เมื่อต้องสร้างคลัสเตอร์สามกลุ่ม คุณจะต้องใช้ค่า k เป็น 3 จากนั้น จุด k จะถูกลงจุดที่พิกัดแบบสุ่ม จุดเหล่านี้จะกลายเป็นจุดกึ่งกลางสําหรับแต่ละคลัสเตอร์ ดังนั้นจึงเรียกว่าจุดศูนย์กลาง
  3. แต่ละจุดข้อมูล (ในกรณีนี้คือดอกไม้) จะถูกกําหนดให้กับจุดศูนย์กลางที่ใกล้ที่สุด
  4. จุดศูนย์กลางแต่ละจุดจะถูกย้ายไปยังศูนย์กลางของจุดข้อมูลที่กําหนดไว้โดยขึ้นอยู่กับระยะห่างระหว่างจุด
  5. หลังจากที่มีการย้ายจุดศูนย์กลาง จุดข้อมูลอาจเข้าใกล้จุดศูนย์กลางที่แตกต่างกันไปมากขึ้น ดังนั้นจุดข้อมูลจะถูกกําหนดใหม่ไปยังคลัสเตอร์ที่ยึดตามจุดศูนย์กลางใหม่ที่ใกล้ที่สุด
  6. ขั้นตอนการย้ายจุดศูนย์กลางและการกำหนดคลัสเตอร์ใหม่นี้จะวนซ้ำไปจนกว่าคลัสเตอร์จะมีความเสถียรหรือถึงจํานวนการวนซ้ำสูงสุดที่กําหนดไว้แล้ว

ภาพเคลื่อนไหวต่อไปนี้จะแสดงถึงกระบวนการนี้:

ไดอะแกรมของภาพเคลื่อนไหวที่แสดงกระบวนการจัดกลุ่มคลัสเตอร์ k-means

การประเมินโมเดลการจัดกลุ่มคลัสเตอร์

เนื่องจากไม่มีป้ายกำกับที่รู้จักในการเปรียบเทียบการกําหนดคลัสเตอร์ที่คาดการณ์ การประเมินแบบโมเดลการจัดกลุ่มคลัสเตอร์จะขึ้นอยู่กับว่าคลัสเตอร์ผลลัพธ์ถูกแยกออกจากกันอย่างไร

มีหลายเมตริกที่คุณสามารถใช้เพื่อประเมินการแยกคลัสเตอร์ ได้แก่:

  • ระยะทางเฉลี่ยไปยังศูนย์กลางคลัสเตอร์: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์มากน้อยเพียงใด
  • ระยะทางเฉลี่ยไปยังศูนย์กลางอื่น: โดยเฉลี่ยแล้ว แต่ละจุดในคลัสเตอร์จะอยู่ใกล้กับจุดศูนย์กลางของคลัสเตอร์อื่นทั้งหมดมากน้อยเพียงใด
  • ระยะห่างสูงสุดไปยังศูนย์กลางคลัสเตอร์: ระยะห่างสูงสุดระหว่างจุดหนึ่งในคลัสเตอร์ไปยังจุดศูนย์กลาง
  • ค่าความใกล้เคียง: ค่าระหว่าง -1 ถึง 1 ที่สรุปอัตราส่วนระยะห่างระหว่างจุดต่างๆ ในคลัสเตอร์เดียวกันและจุดต่างๆ ในคลัสเตอร์อื่น (ยิ่งใกล้เคียงกับ 1 การแยกคลัสเตอร์ยิ่งดี)