יצירת אשכולות

10 דקות

הערה

עיין בכרטיסייה טקסט ותמונות לפרטים נוספים!

קיבוץ באשכולות הוא צורה של למידת מכונה ללא פיקוח שבה תצפיות מקובצות באשכולות בהתבסס על נקודות דמיון של ערכי הנתונים שלהם, או תכונות. למידת מכונה מסוג זה נחשבת ללא פיקוח מכיוון שהיא אינה משתמשת ערכי תוויות ידועים בעבר כדי להכשיר מודל. במודל קיבוץ באשכולות, התווית היא האשכול שאליו מוקצית התצפית, בהתבסס על התכונות שלה בלבד.

דוגמה - קיבוץ באשכולות

לדוגמה, נניח שבותנייסט מבחין במדגם של פרחים ומקליט את מספר העלים ועלי הכותרת על כל פרח:

דיאגרמה של פרחים מסוימים.

אין תוויות ידועות בערכת הנתונים, שתי תכונות בלבד. המטרה היא לא לזהות את הסוגים השונים (מינים) של פרח; רק כדי לקבץ פרחים דומים יחד בהתבסס על מספר העלים ועלי הכותרת.

עלים (x₁)	עלי כותרת (x₂)
0	5
0	6
1	3
1	3
1	6
1	8
2	3
2	7
2	8

הדרכת מודל קיבוץ באשכולות

קיימים אלגוריתמים מרובים שבהם ניתן להשתמש לקיבוץ באשכולות. אחד האלגוריתמים הנפוצים ביותר הוא קיבוץ באשכולות K-Means , המורכב מהפעולות הבאות:

ערכי התכונה (x) מתווקטורים להגדרת קואורדינטות n-ממדיות (כאשר n הוא מספר התכונות). בדוגמה של הפרח, יש לנו שתי תכונות: מספר העלים (x₁) ומספר עלי הכותרת (x₂). לכן, הווקטור של התכונה כולל שתי קואורדינטות שניתן להשתמש בהן כדי להתוות באופן מושגי את נקודות הנתונים בחלל דו-ממדי ([x_1,x₂])
אתה מחליט בכמה אשכולות ברצונך להשתמש כדי לקבץ את הפרחים - קרא לערך k זה. לדוגמה, כדי ליצור שלושה אשכולות, השתמש בערך k של 3. לאחר k נקודות מתווות בקואורדינטות אקראיות. נקודות אלה הופכות לנקודות מרכזיות עבור כל אשכול, כך שהן נקראות centroid.
כל נקודת נתונים (במקרה זה פרח) מוקצית ל- centroid הקרוב ביותר שלה.
כל centroid מועבר למרכז נקודות הנתונים שהוקצו לו בהתבסס על המרחק הממוצע בין הנקודות.
לאחר העברת ה- centroid, ייתכן שנקודות הנתונים יהיו קרובות יותר ל- centroid אחר, כך שנקודות הנתונים יוקנו מחדש לאשכולות בהתבסס על ה- centroid החדש הקרוב ביותר.
שלבי המיקום מחדש של התנועה והאשכולות של centroid חוזרים עד שהאשכולות הופכות ליציבות או למספר איטראציות מרבי שהוגדר מראש.

ההנפשה הבאה מציגה תהליך זה:

דיאגרמה של הנפשה המציגה את תהליך הקיבוץ באשכולות של k.

הערכת מודל קיבוץ באשכולות

מאחר שאין תווית ידועה שבה ניתן להשוות בין הקצאות האשכולות החזויות, הערכת מודל קיבוץ באשכולות מבוססת על האופן שבו האשכולות המתוצאות מופרדות זו מזה.

קיימים מדדים מרובים שבהם ניתן להשתמש כדי להעריך הפרדת אשכולות, כולל:

מרחק ממוצע למרכז האשכולות: כמה קרוב, בממוצע, כל נקודה באשכול היא ל- centroid של האשכול.
מרחק ממוצע למרכז אחר: כמה קרוב, בממוצע, כל נקודה באשכול היא ל- centroid של כל האשכולות האחרות.
מרחק מרבי למרכז האשכולות: המרחק הגדול ביותר בין נקודה באשכול וה- centroid שלה.
צללית: ערך בין -1 ל- 1 המסכם את היחס בין נקודות באותו אשכול ונקודות באשכולות שונים (ככל שהערך קרוב יותר ל- 1, כך הפרדת האשכול טובה יותר).

משוב

האם עמוד זה היה מועיל?