जड़ माध्य चुकता त्रुटि और माध्य बायस विचलन की अवधारणात्मक समझ


13

मैं रूट मीन स्क्वार्ड एरर (RMSE) और मीन बायस डेविएशन (MBD) की एक वैचारिक समझ हासिल करना चाहूंगा। डेटा की अपनी तुलना के लिए इन उपायों की गणना करने के बाद, मुझे अक्सर यह पता चलता है कि आरएमएसई उच्च है (उदाहरण के लिए, 100 किग्रा), जबकि एमबीडी कम है (उदाहरण के लिए, 1% से कम)।

विशेष रूप से, मैं एक संदर्भ (ऑनलाइन नहीं) की तलाश कर रहा हूं जो इन उपायों के गणित को सूचीबद्ध करता है और चर्चा करता है। इन दो उपायों की गणना के लिए सामान्य रूप से स्वीकृत तरीका क्या है, और मुझे उन्हें एक जर्नल लेख पेपर में कैसे रिपोर्ट करना चाहिए?

इस पोस्ट के संदर्भ में "खिलौना" डेटासेट का उपयोग करना वास्तव में उपयोगी होगा, जिसका उपयोग इन दो उपायों की गणना का वर्णन करने के लिए किया जा सकता है।

उदाहरण के लिए, मान लें कि मैं एक असेंबली लाइन द्वारा उत्पादित 200 विगेट्स का द्रव्यमान (किलोग्राम में) ढूंढ रहा हूं। मेरे पास एक गणितीय मॉडल भी है जो इन विगेट्स के द्रव्यमान का अनुमान लगाने का प्रयास करेगा। मॉडल का अनुभवजन्य होना आवश्यक नहीं है, और यह शारीरिक रूप से आधारित हो सकता है। मैं वास्तविक माप और मॉडल के बीच RMSE और MBD की गणना करता हूं, यह पता लगाता है कि RMSE 100 किलोग्राम है और MBD 1% है। वैचारिक रूप से इसका क्या अर्थ है, और मैं इस परिणाम की व्याख्या कैसे करूंगा?

अब मान लीजिए कि मुझे इस प्रयोग के परिणाम से पता चलता है कि आरएमएसई 10 किलो है, और एमबीडी 80% है। इसका क्या मतलब है, और मैं इस प्रयोग के बारे में क्या कह सकता हूं?

इन उपायों का क्या मतलब है, और उन दोनों को (एक साथ लिया) क्या मतलब है? RMSE के साथ विचार करने पर MBD क्या अतिरिक्त जानकारी देता है?


2
क्या आपने हमारी साइट, निकोलस के आसपास देखा है? आँकड़ों पर शुरू करने पर विचार करें ।stackexchange.com / a / 17545 और फिर उन कुछ टैग्स का पता लगाएं, जिन्हें मैंने आपके प्रश्न में जोड़ा है।
whuber

@ शुभंकर: धन्यवाद whuber !. मैंने साइट के चारों ओर देखा है, लेकिन मेरे लिए मुझे अभी भी यह समझना थोड़ा चुनौतीपूर्ण है कि वास्तव में मेरे अपने शोध के संदर्भ में क्या मतलब है।
निकोलस किन्नर

जवाबों:


21

मुझे लगता है कि इन अवधारणाओं की व्याख्या करना आसान है। इसलिए मैं यहां केवल इसका वर्णन करूंगा। मुझे यकीन है कि कई प्राथमिक सांख्यिकी पुस्तकें इसमें मेरी पुस्तक "चिकित्सकों, नर्सों और चिकित्सकों के लिए आवश्यक वस्तुएं" शामिल हैं।

बीच में एक बैल-आँख के साथ एक लक्ष्य के बारे में सोचो। औसत वर्ग त्रुटि लक्ष्य और केंद्र पर एक तीर से औसत चुकता दूरी का प्रतिनिधित्व करती है। अब यदि आपके तीर समान रूप से केंद्र को घेरे रहते हैं तो निशानेबाज का कोई लक्ष्य नहीं होता है और माध्य वर्ग त्रुटि वैरिएंट की तरह ही होती है।

लेकिन सामान्य तौर पर तीर लक्ष्य से एक बिंदु के आसपास दूर तक बिखर सकता है। तीर के केंद्र से तीरों की औसत चुकता दूरी विचरण है। इस केंद्र को निशानेबाजों के लक्ष्य बिंदु के रूप में देखा जा सकता है। इस निशानेबाज के केंद्र से दूरी या लक्ष्य के केंद्र के बीच स्थित पूर्वाग्रह का पूर्ण मूल्य है।

एक सही त्रिकोण के बारे में सोचना जहां कर्ण का वर्ग दो पक्षों के वर्ग के योग है। अतः तीर से लक्ष्य तक एक वर्ग दूरी, तीर से लक्ष्य बिंदु की दूरी और लक्ष्य के केंद्र के बीच की दूरी का वर्ग और समीपस्थ वर्ग है। इन सभी वर्ग दूरीों को बदलने से पूर्वाग्रह चुकता और विचरण के योग के रूप में माध्य वर्ग त्रुटि मिलती है।


धन्यवाद; यह बहुत सराहना की है। मुझे अभी भी यह समझना थोड़ा चुनौतीपूर्ण है कि RMSE और MBD में क्या अंतर है। जैसा कि मैं इसे समझता हूं, आरएमएसई यह बताता है कि एक मॉडल प्रयोगात्मक डेटा के कितना करीब है, लेकिन एमबीडी की भूमिका क्या है? शायद मेरी गलतफहमी सिर्फ शब्दावली से जुड़ी है।
निकोलस किन्नर

1
मतलब पूर्वाग्रह विचलन जैसा कि आप कहते हैं यह मेरे द्वारा वर्णित पूर्वाग्रह शब्द है। यह मापता है कि लक्ष्य से कितनी दूर है। बायस शॉट को गलत बनाने में योगदान देता है।
माइकल आर। चेरिक

धन्यवाद फिर से, माइकल। तो एक उच्च RMSE और एक कम MBD का मतलब है कि यह एक अच्छा मॉडल है?
निकोलस किन्नर

कोई भी उच्च RMSE और कम MBD यह नहीं कहता कि मॉडल एक बड़े पूर्वाग्रह के बजाय एक बड़े परिवर्तन के कारण खराब है। RMSE वह संख्या है जो यह तय करती है कि मॉडल कितना अच्छा है।
माइकल आर। चेरिक

1
@bbadyalina: वे सूचना के स्वतंत्र टुकड़े हैं, उसी तरह से ऊपर / नीचे और बाएं / दाएं स्वतंत्र हैं। आपका प्रश्न यह पूछने जैसा है कि "यदि कोई बिंदु लंबवत केंद्रित है, और बाईं ओर से रास्ता है, तो क्या यह बीच में है?" , या "यदि एक बिंदु उच्च है, लेकिन केंद्र में क्षैतिज रूप से है, तो क्या यह बीच में है?"
n

1

RMSE यह मापने का एक तरीका है कि वास्तविक डेटा के मुकाबले हमारा भविष्य कहनेवाला मॉडल कितना अच्छा है, छोटा RMSE मॉडल के बेहतर तरीके का व्यवहार कर रहा है, अगर हमने यह परीक्षण किया है कि एक नए डेटा सेट पर (हमारे प्रशिक्षण सेट पर नहीं) लेकिन फिर 0 से 1 की सीमा पर 0.37 का एक RMSE, एक बेहतर मॉडल के रूप में 0.01 की RMSE बनाम बहुत सारी त्रुटियों के लिए जिम्मेदार है। BIAS अधिक या कम करके आंकने के लिए है।


क्या आप अधिक विवरण और एक उदाहरण के लिए काम कर सकते हैं? ओपी, अपने अनुमान समस्या के खिलाफ, 100 के एक आरएमएसई के अर्थ का सहज विवरण तलाश रहा है।
शीआन

यह बहुत अंतर्ज्ञान देने के लिए प्रतीत नहीं होता है। क्या आप और अधिक व्याख्या कर सकते हैं?
Glen_b -Reinstate मोनिका

0

जहां तक ​​मैं समझ सकता हूं, एक RMSE मॉडल और प्रेक्षित के बीच त्रुटि का अधिक सटीक मूल्य देता है, हालांकि BIAS, त्रुटि का मान देने के अलावा (RMSE से कम सटीक), यह निर्धारित भी कर सकता है कि क्या मॉडल है सकारात्मक पूर्वाग्रह या नकारात्मक पूर्वाग्रह, अगर मॉडल को कम करके आंका गया है या मनाया मूल्यों को कम करके आंका गया है।


नहीं, आप RMSE को एक मॉडल की "परिशुद्धता" के रूप में सोच सकते हैं - उदाहरण के लिए, भविष्यवाणियों की त्रुटियों में कितना प्रसार मौजूद है (ध्यान दें: सटीक विचरण का व्युत्क्रम है - उच्च विचरण = कम परिशुद्धता)। और आप मॉडल में व्यवस्थित त्रुटि के रूप में पूर्वाग्रह के बारे में सोच सकते हैं - उदाहरण के लिए सभी त्रुटियों का औसत मूल्य। काम "सटीकता" उन दोनों का एक अस्पष्ट संयोजन है, और इसलिए बहुत भ्रम का कारण बनता है।
n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.