अवशिष्ट "अनुमानित माइनस वास्तविक" या "वास्तविक माइनस की भविष्यवाणी" हैं


46

मैंने "अवशिष्ट" को विभिन्न रूप से परिभाषित किया है जैसा कि "अनुमानित माइनस वास्तविक मूल्यों" या "वास्तविक माइनस प्रेड्यूस्ड वैल्यूज़" के रूप में परिभाषित किया गया है। चित्रण प्रयोजनों के लिए, यह दिखाने के लिए कि दोनों सूत्र व्यापक रूप से उपयोग किए जाते हैं, निम्न वेब खोजों की तुलना करें:

व्यवहार में, यह लगभग कभी कोई फर्क नहीं पड़ता है, क्योंकि अविभाज्य अवशेषों का संकेत आमतौर पर मायने नहीं रखता (जैसे कि अगर वे चुकता हैं या पूर्ण मान लिया जाता है)। हालांकि, मेरा सवाल यह है: इन दो संस्करणों में से एक है (भविष्यवाणी पहले बनाम वास्तविक पहले) "मानक" माना जाता है? मैं अपने उपयोग में सुसंगत रहना पसंद करता हूं, इसलिए यदि एक अच्छी तरह से स्थापित पारंपरिक मानक है, तो मैं इसका पालन करना पसंद करूंगा। हालांकि, अगर कोई मानक नहीं है, तो मुझे यह स्वीकार करने में खुशी हो रही है कि एक जवाब के रूप में, अगर यह आश्वस्त रूप से प्रदर्शित किया जा सकता है कि कोई मानक हस्तक्षेप नहीं है।


8
के बाद से अवशिष्ट मॉडल की त्रुटि से जुड़ा है, जब हम लिखने यह हमें लगता है कि बनाता है y एक "स्थिर भाग" के साथ साथ एक "यादृच्छिक हिस्सा" तो अवशिष्ट है y शून्य से एक + बी एक्सy=a+bx+ϵyya+bx
एडम

अनुमानित शून्य से वास्तविक या वास्तविक शून्य से भविष्यवाणी की होगी भविष्यवाणी त्रुटि (या नकारात्मक क्या है), जबकि फिट शून्य से वास्तविक या वास्तविक शून्य से सज्जित अवशिष्ट होगा (या उसके नकारात्मक)। स्टीफन कोलासा के जवाब में एक कारण के लिए त्रुटियों का पूर्वानुमान है
रिचर्ड हार्डी

मुझे लगता है कि (पूर्वानुमानित-वास्तविक) काम करने के लिए अधिक सुविधाजनक है। अक्सर आपको कुछ मापदंडों के संबंध में अवशिष्ट के डेरिवेटिव की गणना करने की आवश्यकता होती है। यदि आप (वास्तविक-पूर्वानुमानित) का उपयोग करते हैं, तो माइनस संकेत दिखाई देते हैं कि आपको अपनी शेष गणनाओं पर नज़र रखनी होगी, और अधिक कोष्ठकों के उपयोग की आवश्यकता होगी, जो होने पर दोहरे नकारात्मक प्रभावों को रद्द करना सुनिश्चित करें, और आगे। मेरे अनुभव में, यह अधिक त्रुटियों की ओर जाता है
निक अल्जीरिया

जवाबों:


42

अवशिष्ट हमेशा वास्तविक माइनस की भविष्यवाणी की जाती है। मॉडल हैं: इसलिए बच ε , जो त्रुटियों के अनुमान हैं ε : ε = y - y

y=f(x;β)+ε
ε^ε
ε^=yy^y^=f(x;β^)

मैं @whuber से सहमत हूं कि साइन वास्तव में गणितीय रूप से मायने नहीं रखता है। हालांकि यह एक सम्मेलन होना अच्छा है। और वर्तमान सम्मेलन मेरे उत्तर में है।

चूंकि ओपी ने इस विषय पर मेरे अधिकार को चुनौती दी है, इसलिए मैं कुछ संदर्भ जोड़ रहा हूं:


3
मैंने अपने प्रश्न को कुछ नमूना वेब खोजों को जोड़ने के लिए संपादित किया जो स्पष्ट रूप से दर्शाते हैं कि अवशिष्ट वास्तविक पूर्वानुमान नहीं हैं; वैकल्पिक भी काफी लगातार है - इसलिए मेरा भ्रम। मेरा सवाल यह है कि क्या सही सम्मेलन का एक आधिकारिक दस्तावेज है, जो दुर्भाग्य से, आपका उत्तर प्रदान नहीं करता है।
त्रिपिटियो

5
मेरे पठन में देखा गया है अनुमानित आंकड़ों में बहुसंख्यक आधुनिक सम्मेलन है। हालांकि, यह उल्लेखनीय है कि गॉस ने विपरीत सम्मेलन का इस्तेमाल किया: स्वाभाविक रूप से चुकता अवशिष्ट, कम से कम वर्गों, वर्गों के टुकड़ों या माध्य वर्गों के संदर्भ में एक ही तरीका है। यद्यपि व्यक्तिगत अवशेषों को देखने के लिए 19 वीं शताब्दी और पूर्ववर्ती मिसालें हैं, लेकिन 1960 के दशक की शुरुआत तक देखभाल और विशेष रूप से साजिश रचने वाले अवशेष व्यापक और नियमित नहीं होने लगे। यही है, यह केवल तब है जब अवशेषों का संकेत दृष्टि में है कि किसी को भी परवाह करने की आवश्यकता है कि यह क्या है।
निक कॉक्स

18
+1। अवशिष्ट की अवधारणा "एक शेष है; जो पीछे छूट गया है" से उपजी है : दूसरे शब्दों में, भविष्यवाणी के बाद डेटा में क्या रहता है, इसका हिसाब लगाया गया है। इससे पता चलता है कि जिसने भी इन राशियों को "अवशिष्ट" का नाम दिया, उसकी परिभाषा "डेटा वैल्यू माइनस फिटेड वैल्यू" थी।
whuber

3
@NickCox, क्या आप कृपया उद्धरण के साथ अपनी टिप्पणियों को एक उत्तर के रूप में औपचारिक रूप दे सकते हैं? मेरा प्रश्न आंकड़ों के बारे में वास्तव में इतना अधिक नहीं है क्योंकि यह वैज्ञानिक सम्मेलन के बारे में है, इसलिए आपकी टिप्पणी में जिस तरह के ऐतिहासिक और उपयोग की अंतर्दृष्टि दी गई है, वे उस तरह के उत्तर हैं जो मैं देख रहा हूं।
त्रिपिटियो

6
यह शब्द अवशिष्ट लंबा, लंबा साल्सेबर्ग से पहले का है। मेरा कहना है कि उनकी पुस्तक, हालांकि कभी-कभी मनोरंजक, आधिकारिक से बहुत दूर है। यदि आप रुचि रखते हैं, तो आप बायोमेट्रिक्स jstor.org/stable/3068274
निक कॉक्स

22

मैं बस में आए एक बाध्यकारी कारण होने के लिए एक ही जवाब के लिए सही।

प्रतिगमन (और किसी भी प्रकार के सबसे सांख्यिकीय मॉडल) चिंता करते हैं कि प्रतिक्रिया की सशर्त वितरण व्याख्यात्मक चर पर कैसे निर्भर करती है। उन वितरणों के लक्षण वर्णन का एक महत्वपूर्ण तत्व कुछ माप है जिसे आमतौर पर "तिरछापन" कहा जाता है (भले ही विभिन्न और विभिन्न सूत्र पेश किए गए हों): यह सबसे बुनियादी तरीके को संदर्भित करता है जिसमें वितरण आकार समरूपता से प्रस्थान करता है। यहाँ द्विभाजित डेटा (एक प्रतिक्रिया का एक उदाहरण हैyx

! [चित्रा 1: एक स्कैटरप्लॉट कम से कम वर्गों की रेखा के साथ।

नीले रंग का वक्र साधारण से छोटा वर्ग है। यह फिट किए गए मूल्यों को प्लॉट करता है।

yy^

चित्र 2: अवशिष्ट बनाम अनुमानित मूल्य।

यह एक मानक डायग्नोस्टिक प्लॉट है जिसमें दिखाया गया है कि शिफ्ट किए गए सशर्त वितरण कैसे अनुमानित मूल्यों के साथ भिन्न होते हैं। ज्यामितीय रूप से, यह पिछले स्कैल्पलॉट के "जब तक" जैसा ही है।

y^y,

चित्रा 3: अवशिष्ट के साथ पिछला भूखंड उपेक्षित

यह पिछली मात्रा के समान मात्रा दिखाता है, लेकिन डेटा को उनके फिट से घटाकर अवशिष्टों की गणना की गई है - जो निश्चित रूप से पिछले अवशिष्टों को नकारने के समान है।

यद्यपि दोनों पूर्ववर्ती आंकड़े गणितीय रूप से हर मामले में बराबर हैं - एक को नीले क्षितिज में बिंदुओं को फ़्लिप करके दूसरे में परिवर्तित किया जाता है - उनमें से एक मूल भूखंड के लिए अधिक प्रत्यक्ष दृश्य संबंध रखता है।

नतीजतन, यदि हमारा लक्ष्य मूल डेटा की विशेषताओं के अवशेषों के वितरण संबंधी विशेषताओं से संबंधित है - और यह लगभग हमेशा मामला है - तो प्रतिक्रियाओं को स्थानांतरित करने और उन्हें उलटने के बजाय बस बेहतर है।

yy^.


1
मुझे नहीं लगता कि मैं यहाँ पर तिरछेपन के बारे में क्या खास करता हूँ - मूल भूखंड से मेल खाने वाले अवशेषों के बारे में आपका तर्क अपने आप से दूर नहीं है?
माइकलचिरिको

2
@ मिचेल आप काफी सही हैं। तिरछापन उपयोगी है, हालांकि, बिंदु को चित्रित करने के लिए क्योंकि यह वितरण के आकार को स्पष्ट रूप से अपने नकारात्मक के आकार से अलग करता है।
whuber

10

पूर्वानुमान त्रुटियों के लिए छोटे प्रश्न पर एक छोटे से सर्वेक्षण पर ग्रीन एंड टैशमैन (2008, दूरदर्शिता ) की रिपोर्ट। मैं उनके द्वारा बताए गए अधिवेशन के लिए तर्क प्रस्तुत करता हूँ:

"वास्तविक-अनुमानित" के लिए तर्क

  1. y=y^+ϵ
  2. भूकंपीय विज्ञान से कम से कम एक उत्तरदाता ने लिखा कि यह भूकंपीय लहर यात्रा के समय के लिए मॉडलिंग सम्मेलन भी है। "जब वास्तविक भूकंपीय लहर मॉडल द्वारा अनुमानित समय से पहले आती है तो हमारे पास नकारात्मक यात्रा समय अवशिष्ट (त्रुटि) होता है।" ( sic )

  3. y^

  4. +

"अनुमानित-वास्तविक" के लिए तर्क

  1. y=y^ϵ

    संबंधित रूप से, यदि एक सकारात्मक पूर्वाग्रह को सकारात्मक अपेक्षित त्रुटियों के रूप में परिभाषित किया जाता है , तो इसका मतलब होगा कि इस सम्मेलन के साथ पूर्वानुमान औसतन बहुत अधिक हैं।

    और यह बहुत ही एकमात्र तर्क है जो इस सम्मेलन के लिए दिया गया है। फिर, गलतफहमी को देखते हुए अन्य सम्मेलन (सकारात्मक त्रुटियों = बहुत कम पूर्वानुमान) को जन्म दे सकता है, यह एक मजबूत है।

अंत में, मैं यह तर्क दूंगा कि यह आपके अवशिष्टों से संवाद करने के लिए किसके नीचे आता है। और यह देखते हुए कि इस चर्चा के दो पक्ष हैं, यह स्पष्ट रूप से नोट करता है कि आप किस अधिवेशन का अनुसरण करते हैं।


7
x

3
@ नाइकॉक्स: बिल्कुल, आप सही हैं। हालांकि, बड़ी संख्या में लोगों से पूछें और उनसे पूछें: "आज के तापमान के लिए मौसम का पूर्वानुमान एक बड़ी सकारात्मक त्रुटि थी। क्या आप मानते हैं कि पूर्वानुमान (ए) बहुत अधिक था या (बी) बहुत कम था ?" मुझे लगता है कि मैं अनुमान लगा सकता हूं कि कौन सा (ए) या (बी) भारी बहुमत का चयन करेगा।
एस। कोलासा - मोनिका

6
हाँ - और यदि आप वाक्यांश के लिए गए थे कि के रूप में सवाल "क्या आपको विश्वास है तापमान (ए) था उच्च या (बी) को कम पूर्वानुमान की तुलना में," तुम बहुत अच्छी तरह से वास्तव में प्राप्त कर सकते विपरीत जवाब! एक "सकारात्मक त्रुटि" का जिक्र केवल "क्या त्रुटि है," का सवाल उठाता है और जो हमें लाता है - एक बिल्कुल परिपत्र फैशन में - मूल प्रश्न पर वापस।
whuber

2
@whuber कि सवाल का एक बल्कि अप्राकृतिक phrasing है। यह देखते हुए कि "मनाया गया" "निश्चित" है, इसके लिए मॉडल का संबंध दूसरे तरीके से अधिक स्वाभाविक लगता है। मुझे बहुत तेजी से जाने के लिए तेजी से टिकट मिलता है, बल्कि "गति सीमा मेरी गति से नीचे थी"। प्राकृतिक भाषा के तर्कों का निश्चित रूप से तकनीकी शब्दों / भाषा के लिए एक सीमित अनुप्रयोग है, हालांकि /
mbrig

2
@whuber मैं जो कह रहा हूं, वह यह है कि सवाल पूछने का एक तरीका स्पष्ट रूप से अधिक स्वाभाविक है (कम से कम अंग्रेजी में)।
mbrig

4

विभिन्न शब्दावली अलग-अलग सम्मेलनों का सुझाव देती है। शब्द "अवशिष्ट" का तात्पर्य यह है कि सभी व्याख्यात्मक चर को वास्तविक खाते में ले जाने के बाद इसे छोड़ दिया गया है। "प्रीडिक्शन एरर" का तात्पर्य यह है कि यह भविष्यवाणी वास्तविक, यानी पूर्व-वास्तविक से कितनी भिन्न है।

X=x1,x2...yy^

yy^Xyy^y^yy^y^yy^ye=y^y

y^XXxf(X)f(X)+error()y^Xy2xg

y^=2xg
y=y^+error

y^yy^X

2xgy=y^+error

X

y^=f(X)
y=y^+g(?)
g=yy^


4

@ अक्षल द्वारा उत्तर पूरी तरह से सही है, लेकिन मैं सिर्फ एक अतिरिक्त तत्व जोड़ूंगा जो मुझे लगता है कि मेरी मदद करता है (और मेरे छात्रों)।

आदर्श वाक्य: सांख्यिकी "परिपूर्ण" है। जैसा कि, मैं हमेशा सही भविष्यवाणी प्रदान कर सकता हूं (मुझे पता है कि कुछ आई-ब्रो अभी के बारे में सही उठा रहे हैं ... इसलिए मुझे सुनें)।

yiy^i

yiy^i
ϵi
yi=y^i+ϵi
अब, हमारे पास "सही" भविष्यवाणी है ... हमारे "अंतिम" मूल्य हमारे देखे गए मूल्य से मेल खाते हैं।

ϵi


2
y^iyi

6
क्यों "हमारे अनुमानित मूल्य में इसे जोड़ने के लिए सबसे अच्छा"? क्यों नहीं "हमारी भविष्यवाणी से सहमत होने के लिए डेटम को समायोजित करने की आवश्यकता है" क्यों देखें? न तो दृष्टिकोण दूसरे की तुलना में अधिक स्पष्ट, सार्थक या "सहज" होने का दावा करता है।
whuber

2
@whuber एक आइटम "वास्तविक" (मनाया, ठोस) है, दूसरा एक (काल्पनिक) निर्माण है; अगर हम वजन के आधार पर ऊँचाई की मॉडलिंग कर रहे थे, तो क्या किसी को (काल्पनिक) अनुमानित मूल्य का वास्तविक / अवलोकन ऊंचाई से मिलान करने के लिए किसी को 3 इंच तक "सिकोड़ना" उचित होगा?
ग्रेग एच

2
हां - यह डेटा के बारे में सोचने का एक सामान्य तरीका है। मैं केवल इस संभावना को इंगित करने की कोशिश कर रहा हूं कि लोग इस प्रश्न को कैसे समझेंगे और "सर्वश्रेष्ठ" के अर्थ को कैसे समझेंगे, यह सट्टा और व्यक्तिपरक हो सकता है।
whuber

निष्पक्ष बिंदु ... संक्षिप्त टिप्पणी के साथ अद्यतन करेगा
ग्रीग एच

2

मैं कम से कम वर्गों के विशेष मामले का उपयोग करने जा रहा हूँ रेखीय प्रतिगमन। यदि हम अपने मॉडल को मानते हैं तो @Aksakal बताते हैं कि हम स्वाभाविक रूप से so साथ समाप्त होते हैं । यदि इसके बजाय हम ले हमारे मॉडल है, जो हम निश्चित रूप से ऐसा करने के लिए स्वतंत्र हैं के रूप में है, तो हम मिल । इस बिंदु पर से लिए अस्पष्ट प्राथमिकता से एक तरफ से एक को पसंद करने का वास्तव में कोई कारण नहीं है ।Y=Xβ+εε=YXβε^=YY^Y=Xβεε=XβYε^=Y^Y11

लेकिन अगर तब हम अपने अवशेषों को माध्यम से प्राप्त करते हैं , जहां एक मैट्रिक्स है, जो डिजाइन मैट्रिक्स के कॉलम स्पेस के लिए अंतरिक्ष ऑर्थोगोनल में पेश करता है । यदि हम इसके बजाय तो हम साथ समाप्त होते हैं । लेकिन स्वयं के रूप में । तो वास्तव में एक प्रक्षेपण मैट्रिक्स का ऋणात्मक है, जिसका नाम । इसलिए मैं इसे का उपयोग करके पेश किए गए नकारात्मक को पूर्ववत करने के रूप में देखता हूं , इसलिए पार्सिमनी के लिए यह सिर्फ उपयोग करना बेहतर हैε^=YY^(IPX)YIPXXY=Xβεε^=(PXI)YPXIपी एक्स - मैं मैं - पी एक्स वाई = एक्स β - ε Y = एक्स β + ε वाई - वाई(PXI)2=PX22PX+I=(PXI)PXIIPXY=XβεY=Xβ+ε जो हमें अवशेषों के रूप में देता है ।YY^

जैसा कि कहीं और बताया गया है कि अगर हम उपयोग करते हैं तो यह कुछ भी टूटने जैसा नहीं है , लेकिन हम इस दोहरी नकारात्मक स्थिति के साथ समाप्त होते हैं जो मुझे लगता है कि सिर्फ उपयोग करने के लिए एक अच्छा पर्याप्त कारण है ।वाई - वाईY^YYY^


लेकिन लेखन कुछ भी की विशेष मूल्यों के लक्षण के साथ कोई संबंध नहीं है किसी भी लिखने की तुलना में अधिक है, एक प्रतिबद्धता या धारणा है कि है या व्यवहार में सकारात्मक है। यह एक ही समीकरण हो सकता है लेकिन साथ साइन में उलट। y = β 0 + β 1 एक्स β 0 β 1+eey=β0+β1xβ0β1e
निक कॉक्स

@NickCox आपकी टिप्पणी के लिए धन्यवाद, मुझे लगता है कि मैंने इस धारणा पर अपना जवाब समर्पित कर दिया था कि हम अपना मॉडल लिखना चाहते हैं । मैंने इसे फिर से लिखने के लिए लिखा हैY=Xβ+ε
जेएलडी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.