वर्गीकरण मॉडल का मूल्यांकन करें
एक वर्गीकरण मॉडल की प्रशिक्षण सटीकता नए, अनदेखी डेटा दिए जाने पर उस मॉडल की तुलना में बहुत कम महत्वपूर्ण है कि वह मॉडल कितनी अच्छी तरह काम करेगा। आखिरकार, हम मॉडल को प्रशिक्षित करते हैं ताकि उनका उपयोग वास्तविक दुनिया में मिलने वाले नए डेटा पर किया जा सके। इसलिए, एक वर्गीकरण मॉडल को प्रशिक्षित करने के बाद, हम मूल्यांकन करेंगे कि यह नए, अनदेखी डेटा के सेट पर कैसा प्रदर्शन करता है।
पिछली इकाइयों में, हमने एक मॉडल बनाया जो भविष्यवाणी करेगा कि किसी रोगी को मधुमेह है या नहीं, उनके रक्त शर्करा के स्तर के आधार पर। अब, जब कुछ डेटा पर लागू किया जाता है जो प्रशिक्षण सेट का हिस्सा नहीं था, तो हमें निम्नलिखित भविष्यवाणियां मिलती हैं।
| x | y | ŷ |
|---|---|---|
| 83 | 0 | 0 |
| 119 | 1 | 1 |
| 104 | 1 | 0 |
| 105 | 0 | 1 |
| 86 | 0 | 0 |
| 109 | 1 | 1 |
याद रखें कि एक्स रक्त शर्करा के स्तर को संदर्भित करता है, वाई को संदर्भित करता है कि क्या वे वास्तव में मधुमेह हैं, और मॉडल की भविष्यवाणी को संदर्भित करता है कि वे मधुमेह हैं या नहीं।
केवल यह गणना करना कि कितनी भविष्यवाणियां सही थीं, कभी-कभी भ्रामक या हमारे लिए वास्तविक दुनिया में त्रुटियों के प्रकार को समझने के लिए बहुत सरल होता है। अधिक विस्तृत जानकारी प्राप्त करने के लिए, हम परिणामों को एक संरचना में सारणीबद्ध कर सकते हैं जिसे भ्रम मैट्रिक्स कहा जाता है, इस तरह:
भ्रम मैट्रिक्स मामलों की कुल संख्या दिखाता है जहां:
- मॉडल ने 0 की भविष्यवाणी की और वास्तविक लेबल 0 है (सच्चे नकारात्मक, ऊपर बाएं)
- मॉडल ने 1 की भविष्यवाणी की और वास्तविक लेबल 1 है (सही सकारात्मक, नीचे दाएं)
- मॉडल ने 0 की भविष्यवाणी की और वास्तविक लेबल 1 है (झूठी नकारात्मक, नीचे बाएं)
- मॉडल ने 1 की भविष्यवाणी की और वास्तविक लेबल 0 है (झूठी सकारात्मक, ऊपर दाएं)
एक भ्रम मैट्रिक्स में कोशिकाओं को अक्सर छायांकित किया जाता है ताकि उच्च मूल्यों में गहरी छाया हो। इससे ऊपरी-बाएँ से नीचे-दाएँ तक एक मजबूत विकर्ण प्रवृत्ति देखना आसान हो जाता है, उन कक्षों को हाइलाइट करना जहाँ पूर्वानुमानित मूल्य और वास्तविक मान समान होते हैं।
इन मुख्य मानों से, आप अन्य मीट्रिक की एक श्रृंखला की गणना कर सकते हैं जो मॉडल के प्रदर्शन का मूल्यांकन करने में आपकी सहायता कर सकते हैं। उदाहरण के लिए:
- सटीकता: (TP+TN)/(TP+TN+FP+FN) - सभी भविष्यवाणियों में से, कितनी सही थीं?
- याद करें: TP/(TP+FN) - उन सभी मामलों में से जो सकारात्मक हैं, मॉडल ने कितने की पहचान की?
- प्रेसिजन: टीपी/(टीपी+एफपी) - मॉडल ने जिन सभी मामलों के सकारात्मक होने की भविष्यवाणी की थी, उनमें से वास्तव में कितने सकारात्मक हैं?