त्रुटि उपायों की व्याख्या कैसे करें?


41

मैं एक निश्चित डेटासेट के लिए वीका में वर्गीकृत कर रहा हूं और मैंने देखा है कि अगर मैं नाममात्र मूल्य की भविष्यवाणी करने की कोशिश कर रहा हूं तो आउटपुट विशेष रूप से सही और गलत तरीके से अनुमानित मूल्यों को दिखाता है। हालाँकि, अब मैं इसे संख्यात्मक विशेषता के लिए चला रहा हूँ और आउटपुट है:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

मैं इसकी व्याख्या कैसे करूं? मैंने प्रत्येक धारणा को देखने की कोशिश की है, लेकिन मुझे समझ में नहीं आता क्योंकि मेरी विशेषज्ञता के क्षेत्र में आँकड़े बिल्कुल नहीं हैं। मैं आँकड़ों के संदर्भ में एक ELI5 प्रकार के उत्तर की बहुत सराहना करूंगा।

जवाबों:


52

आइए रूप में ब्याज के सही मूल्य और रूप में कुछ एल्गोरिथ्म का उपयोग करके अनुमानित मूल्य को निरूपित करें ।θθ^

सहसंबंध आपको बताता है कि कितने और संबंधित हैं। यह और बीच मान देता है , जहां कोई संबंध नहीं है, बहुत मजबूत है, रैखिक संबंध और एक व्युत्क्रम रैखिक संबंध है (यानी बड़े मूल्य , या इसके विपरीत के छोटे मूल्यों को इंगित करते हैं। विपरीत)। नीचे आपको सहसंबंध का सचित्र उदाहरण मिलेगा।θθ^11011θθ^

सहसंबंध उदाहरण

(स्रोत: http://www.mathsisfun.com/data/correlation.html )

मतलब पूर्ण त्रुटि है:

MAE=1Ni=1N|θ^iθi|

मूल माध्य वर्ग त्रुटि है:

RMSE=1Ni=1N(θ^iθi)2

सापेक्ष पूर्ण त्रुटि :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

जहां का मतलब है एक मूल्य है ।θ¯θ

रूट सापेक्ष चुकता त्रुटि:

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

जैसा कि आप देखते हैं, सभी आंकड़े अपने मूल्यों के लिए सच्चे मूल्यों की तुलना करते हैं, लेकिन इसे थोड़ा अलग तरीके से करते हैं। वे सभी आपको " के वास्तविक मूल्य" से आपके अनुमानित मूल्य "कितनी दूर" बताते हैं । कभी कभी वर्ग जड़ों उपयोग किया जाता है और कभी-कभी पूर्ण मान - इस वजह से जब वर्ग जड़ों का उपयोग कर चरम मानों परिणाम के बारे में अधिक प्रभाव है (देखें क्यों वर्ग के बजाय मानक विचलन में निरपेक्ष मान लेने का अंतर या पर Mathoverflow )।θ

में और आप बस उन दो मानों के बीच "औसत अंतर" देखो - ताकि आप उन्हें अपने valiable के पैमाने पर, (यानी की तुलना में व्याख्या 1 अंक की है बीच 1 बिंदु का अंतर और )।MAERMSEMSEθθ^θ

में और आप की भिन्नता से उन मतभेदों को विभाजित तो वे 0 से 1 तक और यदि आप गुणा आप 0-100 पैमाने में समानता प्राप्त 100 द्वारा इस मूल्य पैमाने है (यानी प्रतिशत )। मानों का याआपको बताएंगे कि इसका मूल्य कितना अलग है - तो आप यह बता सकते हैं कि यह कितना है। यह स्वयं से भिन्न है ( विचरण की तुलना में )। उस कारण से उपायों को "सापेक्ष" नाम दिया गया है - वे आपको के पैमाने से संबंधित परिणाम देते हैं ।RAERRSEθ(θ¯θi)2|θ¯θi|θθθ

उन स्लाइड्स को भी देखें ।


आपके विवरण के लिए धन्यवाद! मैं विभिन्न एल्गोरिदम के प्रदर्शन का मूल्यांकन करने की कोशिश कर रहा हूं। उदाहरण के लिए, यदि मुझे यह अन्य आउटपुट (सहसंबंध: 0.3044, MAE: 10.832, MSE: 47.2971, RAE: 83.163%, RSE: 95.2797%) मिलता है और मैं इसकी तुलना पहले वाले से करने की कोशिश करता हूं, जिसे मैं कह सकता हूं कि मैंने प्रदर्शन किया। बेहतर है?
फ्लिइंचु

5
आपको मॉडल को बड़े सहसंबंध और छोटे त्रुटि अनुमानों के साथ चुनना चाहिए। जैसा कि आप देखते हैं, मॉडल प्रदर्शन के कई उपाय हैं (और वे केवल कुछ ही हैं) और कभी-कभी वे अलग-अलग उत्तर देते हैं। यह लगभग "हाँ / नहीं" उत्तर आपको कभी नहीं मिलता है। मॉडल चयन का कार्य आसान हो जाता है यदि आप सिद्धांत के साथ पकड़ लेते हैं, तो आप उदाहरण के लिए उन व्याख्यानों की जांच कर सकते हैं ।
टिम

आपका बहुत बहुत धन्यवाद! मैंने आगे बढ़कर आपके उत्तर को उत्तर के रूप में चिह्नित किया क्योंकि आपने मेरी बहुत मदद की है!
फ्लिआंचु

1
@ समय मतलब पूर्ण त्रुटि शायद MAE :) के रूप में संक्षिप्त होनी चाहिए
एंटोनी

1
@ मेवएक्स आप किस तरह के संदर्भों की तलाश कर रहे हैं? यह मूल रूप से एक आरएमएसई है। इसके बारे में कहने के लिए बहुत कुछ नहीं है ...
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.