"दृढ़ संकल्प के गुणांक" और "औसत चुकता त्रुटि" के बीच अंतर क्या है?


32

प्रतिगमन समस्या के लिए, मैंने देखा है कि लोग "चयन के गुणांक" (उर्फ आर स्क्वार्ड) का उपयोग मॉडल चयन करने के लिए करते हैं, उदाहरण के लिए, नियमितीकरण के लिए उपयुक्त दंड गुणांक का पता लगाना।

हालाँकि, प्रतिगमन सटीकता के माप के रूप में "माध्य चुकता त्रुटि" या "मूल माध्य चुकता त्रुटि" का उपयोग करना भी आम है।

तो इन दोनों में मुख्य अंतर क्या है? क्या उनका उपयोग "नियमितीकरण" और "प्रतिगमन" कार्यों के लिए एक-दूसरे से किया जा सकता है? और व्यवहार में प्रत्येक का मुख्य उपयोग क्या है, जैसे कि मशीन सीखना, डेटा खनन कार्य?

जवाबों:


40

, जहाँSSE, चुकता त्रुटि (रिग्रेशन लाइन से अवशिष्ट या विचलन)का योग हैऔरSST, आश्रित केYमाध्यसे वर्ग विचलन का योगहै।आर2=1-एसएसएसएसटीएसएसएसएसटीY

, जहांnनमूना आकार है औरmमॉडल में मापदंडों की संख्या है (अवरोधन, यदि कोई हो तो सहित)।एमएस=एसएसn-मीटरnमीटर

नमूना में पूर्वानुमेयता, या फिट की डिग्री का एक मानकीकृत उपाय है। M S E जनसंख्या में अवशिष्ट, या गैर-फिट के विचरण का अनुमान है। दो उपाय स्पष्ट रूप से संबंधित हैं, जैसा किसमायोजित आर 2 (आबादी के लिए आर 2 का अनुमान) के लिएसबसे सामान्य सूत्र में देखा गया है:आर2एमएस आर2आर2

आरj2=1-(1-आर2)n-1n-मीटर=1-एसएस/(n-मीटर)एसएसटी/(n-1)=1-एमएसσy2


2
मुझे लगा कि MSE त्रुटियों का औसत है, जिसका अर्थ है MSE = SSE / n, हम किन अवसरों पर MSE = SSE / (nm) का उपयोग करते हैं? कृपया समझाएँ। धन्यवाद
Sincole Brans

@SincoleBrans कृपया en.wikipedia.org/wiki/Mean_squared_error , अनुभाग "रिग्रेशन" देखें।
ttnphns

मैं थोड़ा उलझन में हूँ। Martin-thoma.com/regression में परिणाम दिखाते हैं कि R ^ 2 के साथ एक मॉडल (कुछ अन्य मॉडलों की तुलना में) अच्छा हो सकता है, लेकिन एक ही समय में MSE के साथ खराब हो सकता है। आप समझा सकते हैं?
मार्टिन थोमा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.