वर्गीकरण मॉडल का मूल्यांकन करें

4 मिनट्स

एक वर्गीकरण मॉडल की प्रशिक्षण सटीकता नए, अनदेखी डेटा दिए जाने पर उस मॉडल की तुलना में बहुत कम महत्वपूर्ण है कि वह मॉडल कितनी अच्छी तरह काम करेगा। आखिरकार, हम मॉडल को प्रशिक्षित करते हैं ताकि उनका उपयोग वास्तविक दुनिया में मिलने वाले नए डेटा पर किया जा सके। इसलिए, एक वर्गीकरण मॉडल को प्रशिक्षित करने के बाद, हम मूल्यांकन करेंगे कि यह नए, अनदेखी डेटा के सेट पर कैसा प्रदर्शन करता है।

पिछली इकाइयों में, हमने एक मॉडल बनाया जो भविष्यवाणी करेगा कि किसी रोगी को मधुमेह है या नहीं, उनके रक्त शर्करा के स्तर के आधार पर। अब, जब कुछ डेटा पर लागू किया जाता है जो प्रशिक्षण सेट का हिस्सा नहीं था, तो हमें निम्नलिखित भविष्यवाणियां मिलती हैं।

x	y	ŷ
83	0	0
119	1	1
104	1	0
105	0	1
86	0	0
109	1	1

याद रखें कि एक्स रक्त शर्करा के स्तर को संदर्भित करता है, वाई को संदर्भित करता है कि क्या वे वास्तव में मधुमेह हैं, और मॉडल की भविष्यवाणी को संदर्भित करता है कि वे मधुमेह हैं या नहीं।

केवल यह गणना करना कि कितनी भविष्यवाणियां सही थीं, कभी-कभी भ्रामक या हमारे लिए वास्तविक दुनिया में त्रुटियों के प्रकार को समझने के लिए बहुत सरल होता है। अधिक विस्तृत जानकारी प्राप्त करने के लिए, हम परिणामों को एक संरचना में सारणीबद्ध कर सकते हैं जिसे भ्रम मैट्रिक्स कहा जाता है, इस तरह:

एक भ्रम मैट्रिक्स 2 सत्य-नकारात्मक, 2 सत्य-सकारात्मक, 1 झूठी-नकारात्मक और 1 गलत-सकारात्मक दिखा रहा है।

भ्रम मैट्रिक्स मामलों की कुल संख्या दिखाता है जहां:

मॉडल ने 0 की भविष्यवाणी की और वास्तविक लेबल 0 है (सच्चे नकारात्मक, ऊपर बाएं)
मॉडल ने 1 की भविष्यवाणी की और वास्तविक लेबल 1 है (सही सकारात्मक, नीचे दाएं)
मॉडल ने 0 की भविष्यवाणी की और वास्तविक लेबल 1 है (झूठी नकारात्मक, नीचे बाएं)
मॉडल ने 1 की भविष्यवाणी की और वास्तविक लेबल 0 है (झूठी सकारात्मक, ऊपर दाएं)

एक भ्रम मैट्रिक्स में कोशिकाओं को अक्सर छायांकित किया जाता है ताकि उच्च मूल्यों में गहरी छाया हो। इससे ऊपरी-बाएँ से नीचे-दाएँ तक एक मजबूत विकर्ण प्रवृत्ति देखना आसान हो जाता है, उन कक्षों को हाइलाइट करना जहाँ पूर्वानुमानित मूल्य और वास्तविक मान समान होते हैं।

इन मुख्य मानों से, आप अन्य मीट्रिक की एक श्रृंखला की गणना कर सकते हैं जो मॉडल के प्रदर्शन का मूल्यांकन करने में आपकी सहायता कर सकते हैं। उदाहरण के लिए:

सटीकता: (TP+TN)/(TP+TN+FP+FN) - सभी भविष्यवाणियों में से, कितनी सही थीं?
याद करें: TP/(TP+FN) - उन सभी मामलों में से जो सकारात्मक हैं, मॉडल ने कितने की पहचान की?
प्रेसिजन: टीपी/(टीपी+एफपी) - मॉडल ने जिन सभी मामलों के सकारात्मक होने की भविष्यवाणी की थी, उनमें से वास्तव में कितने सकारात्मक हैं?

प्रतिक्रिया

क्या यह पेज मददगार था?