क्या वर्गीकरण के लिए औसत चुकता त्रुटि का उपयोग किया जा सकता है?


14

मुझे पता है कि चुकता त्रुटि फार्मूला और इसकी गणना कैसे की जाती है। जब हम एक प्रतिगमन के बारे में बात करते हैं तो हम औसत चुकता त्रुटि की गणना कर सकते हैं। हालांकि हम एक वर्गीकरण समस्या के लिए एक एमएसई के बारे में बात कर सकते हैं और इसकी गणना कैसे करें?

जवाबों:


12

कई क्लासिफायर निरंतर स्कोर की भविष्यवाणी कर सकते हैं। अक्सर, निरंतर स्कोर मध्यवर्ती परिणाम होते हैं जो केवल वर्गीकरण के अंतिम चरण के रूप में वर्ग लेबल (आमतौर पर थ्रेशोल्ड) में परिवर्तित होते हैं। अन्य मामलों में, उदाहरण के लिए, वर्ग सदस्यता के लिए पिछली संभावनाओं की गणना की जा सकती है (जैसे विवेकाधीन विश्लेषण, लॉजिस्टिक प्रतिगमन)। आप क्लास लेबल के बजाय इन निरंतर स्कोर का उपयोग करके MSE की गणना कर सकते हैं। इसका लाभ यह है कि आप द्विभाजन के कारण सूचना के नुकसान से बचते हैं।
जब निरंतर स्कोर एक संभावना है, तो MSE मीट्रिक को ब्रियर का स्कोर कहा जाता है।

हालांकि, वहाँ भी वर्गीकरण समस्याएं हैं जो भेस में प्रतिगमन समस्याएं हैं। मेरे क्षेत्र में उदाहरण के लिए मामलों को वर्गीकृत किया जा सकता है या नहीं, किसी पदार्थ की एकाग्रता एक कानूनी सीमा से अधिक है या नहीं (जो कि द्विआधारी / भेदभावपूर्ण दो-स्तरीय समस्या है)। यहाँ, MSE कार्य के अंतर्निहित प्रतिगमन प्रकृति के कारण एक स्वाभाविक पसंद है।

इस पत्र में हम इसे एक और सामान्य ढांचे के हिस्से के रूप में समझाते हैं: सी। बेलेइट्स, आर। सैल्जर और वी। सेर्गो:
सॉफ्ट क्लासिफिकेशन मॉडल की मान्यता आंशिक वर्ग सदस्यता का उपयोग करते हुए: संवेदनशीलता और कंपनी के एक विस्तारित अवधारणा एस्ट्रोसाइटोमा ऊतकों के ग्रेडिंग पर लागू
Chemom। Intell। लैब। सिस्ट।, 122 (2013), 12 - 22।

इसकी गणना कैसे करें: यदि आप R में काम करते हैं, तो एक कार्यान्वयन पैकेज "सॉफ्टक्लास्वल", http: /softclassval.r-forge.r-project.org है।


@ seanv507: बहुत धन्यवाद!
SX

1

मैं यह नहीं देखता कि कैसे ... सफल वर्गीकरण एक द्विआधारी चर (सही या नहीं) है, इसलिए यह देखना मुश्किल है कि आप क्या वर्गाकार करेंगे।

आमतौर पर वर्गीकरणों को प्रतिशत सही जैसे संकेतकों पर मापा जाता है, जब एक वर्गीकरण जिसे प्रशिक्षण सेट से अनुमानित किया गया है, एक परीक्षण सेट पर लागू किया जाता है जो पहले अलग सेट किया गया था।

औसत वर्ग त्रुटि निश्चित रूप से पूर्वानुमान के लिए गणना की जा सकती है (और है) या निरंतर चर के अनुमानित मूल्यों, लेकिन मुझे लगता है कि वर्गीकरण के लिए नहीं।


0

π^

L=iπ^iyi(1π^i)1yi

यह संभावना एक द्विआधारी प्रतिक्रिया के लिए है, जिसे बर्नौली वितरण माना जाता है।

L


0

तकनीकी रूप से आप कर सकते हैं, लेकिन बाइनरी वर्गीकरण के लिए एमएसई फ़ंक्शन गैर-उत्तल है। इस प्रकार, यदि बाइनरी वर्गीकरण मॉडल को MSE लागत फ़ंक्शन के साथ प्रशिक्षित किया जाता है, तो यह लागत फ़ंक्शन को कम करने की गारंटी नहीं है । इसके अलावा, MSE को एक लागत फ़ंक्शन के रूप में उपयोग करने से गॉसियन वितरण होता है जो बाइनरी वर्गीकरण के मामले में नहीं है।


1
MSE गॉसियन वितरण क्यों मानेंगे? (जैसा कि कहें, विरोध करें, कम से कम वर्ग प्रतिगमन नुकसान के रूप में MSE का उपयोग करता है, और हम दिखा सकते हैं कि यह सामान्य रूप से वितरित अवशिष्ट के साथ प्रतिगमन समस्याओं के लिए इष्टतम है)
SX

यह बाइनरी वर्गीकरण के लिए इष्टतम नहीं है, लेकिन प्रतिगमन के लिए इष्टतम है। सवाल बाइनरी के लिए था।
मुस्तफा नखाई

सवाल बाइनरी वर्गीकरण नहीं कहता है। यह भेदभावपूर्ण वर्गीकरण भी नहीं कहता है। और यह इष्टतमता के बारे में नहीं पूछता है (जिसके लिए आपको अभी भी स्थिति के बारे में अधिक विशिष्ट होना चाहिए यहां तक ​​कि द्विआधारी या 2 वर्गों के साथ भेदभाव से भी), एमएसई का उपयोग किया जा सकता है। इसके अलावा, ब्रायर का स्कोर पूर्वानुमान के लिए कड़ाई से उचित स्कोरिंग नियम है, इसलिए गैर-इष्टतमता का अधिक विस्तृत विवरण निश्चित रूप से मददगार होगा (और संभवत: जब यह गैर-इष्टतमता लागू होती है, तो बहुत रोशन होती है)।
SX
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.