रेखीय प्रतिगमन मॉडल का आत्मविश्वास और भविष्यवाणी अंतराल


9

ठीक है, इसलिए मैं रैखिक प्रतिगमन को समझने की कोशिश कर रहा हूं। मुझे एक डेटा सेट मिला है और यह बिल्कुल ठीक लग रहा है, लेकिन मैं उलझन में हूं। यह मेरा रैखिक मॉडल-सारांश है:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

इसलिए, पी-वैल्यू वास्तव में कम है, जिसका अर्थ है कि x, y के बीच सहसंबंध प्राप्त करने की संभावना बहुत कम है। अगर मैं इसे साजिश रचता हूं और फिर प्रतिगमन रेखा खींचता है तो यह इस तरह दिखता है: http://s14.directupload.net/images/120923/l83eellv.png (चित्र के रूप में था, लेकिन मैं हूं - एक नए उपयोगकर्ता के रूप में - वर्तमान में नहीं है इसे पोस्ट करने की अनुमति दी गई) नीली रेखाएं = आत्मविश्वास अंतराल ग्रीन लाइनें = भविष्यवाणी अंतराल

अब, बहुत सारे बिंदु आत्मविश्वास के अंतराल में नहीं आते हैं, ऐसा क्यों होगा? मुझे लगता है कि कोई भी डेटापॉइंट प्रतिगमन रेखा b / c पर नहीं गिरता है, वे एक-दूसरे से काफी दूर हैं, लेकिन जो मुझे यकीन नहीं है: क्या यह एक वास्तविक समस्या है? वे अभी भी प्रतिगमन रेखा के आसपास हैं और आप पूरी तरह से एक पैटर्न देख सकते हैं। लेकिन क्या इतना ही काफी है? मैं यह पता लगाने की कोशिश कर रहा हूं, लेकिन मैं बार-बार खुद से वही सवाल पूछता रहता हूं।

मैंने अब तक क्या सोचा: विश्वास अंतराल का कहना है कि यदि आप सीआई के बार-बार गणना करते हैं, तो 95% बार सही अर्थ सीआई में गिर जाता है। तो: यह कोई समस्या नहीं है कि डीपी इसमें न आए, क्योंकि ये वास्तव में साधन नहीं हैं। दूसरी ओर भविष्यवाणी अंतराल कहता है, कि यदि आप पीआई की बार-बार गणना करते हैं, तो 95% बार सही वैल्यू अंतराल में आती है। इसलिए, इसमें बिंदुओं का होना बहुत महत्वपूर्ण है (जो मेरे पास है)। फिर मैंने पढ़ा है कि पीआई में हमेशा सीआई की तुलना में एक व्यापक रेंज होती है। ऐसा क्यों है? यही है जो मैने किया है:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

और फिर मैंने इसे प्लॉट किया:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

अब, यदि मैं अतिरिक्त डेटा के लिए CI और PI की गणना करता हूं, तो इससे कोई फर्क नहीं पड़ता कि मैं कितनी विस्तृत सीमा का चयन करता हूं, मुझे ऊपर के समान सटीक लाइनें मिलती हैं। मैं समझ नहीं सकता। इसका क्या मतलब है? यह तब होगा:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

नए x के लिए मैंने अलग-अलग क्रम चुने। यदि मेरे प्रतिगमन में चर की तुलना में अनुक्रम का एक अलग # अवलोकन है, तो मुझे एक चेतावनी मिल रही है। ऐसा क्यों होगा?

जवाबों:


3

मैं आपके कुछ सवालों को समझता हूं लेकिन अन्य स्पष्ट नहीं हैं। मुझे कुछ तथ्यों का जवाब देने और बताने की जरूरत है और शायद इससे आपका भ्रम दूर हो जाएगा।

आपके पास जो फिट है वह उल्लेखनीय रूप से अच्छा है। विश्वास अंतराल बहुत तंग होना चाहिए। विश्वास क्षेत्रों के दो टाइपिया हैं, जिन पर विचार किया जा सकता है, bsimultanoues क्षेत्र, जो दिए गए आत्मविश्वास स्तर के साथ पूरे सच्चे प्रतिगमन समारोह को कवर करने के लिए है।

दूसरे जो आप देख रहे हैं वह फिट किए गए प्रतिगमन बिंदुओं के लिए आत्मविश्वास अंतराल हैं। वे केवल कोवरिएट (ओं) के दिए गए मूल्य (ओं) पर y के फिट किए गए मूल्य को कवर करने के लिए अभिप्रेत हैं। वे कोविरेट के अन्य मूल्यों पर y मूल्यों को कवर करने के लिए अभिप्रेत नहीं हैं। वास्तव में यदि अंतराल बहुत तंग है क्योंकि उन्हें आपके मामले में होना चाहिए तो वे बहुत से कवर नहीं करेंगे यदि कोई भी डेटा बिंदुओं के रूप में आप कोवरिएट (ओं) के निश्चित मूल्य (ओं) से दूर हो जाते हैं। उस प्रकार के कवरेज के लिए आपको एक साथ विश्वास प्राप्त करने की आवश्यकता है (ऊपरी और निचले बाध्य वक्र)।

अब यह सच है कि यदि आप एक कोवरिएट के दिए गए मान पर ay की भविष्यवाणी करते हैं और आप भविष्यवाणी अंतराल के लिए वही विश्वास स्तर चाहते हैं जैसा कि आपने covariate के दिए गए मूल्य पर y के लिए विश्वास अंतराल के लिए उपयोग किया था तो अंतराल व्यापक होगा। कारण यह है कि मॉडल आपको बताता है कि इसमें परिवर्तनशीलता जोड़ी जाएगी क्योंकि एक नई y की अपनी स्वतंत्र त्रुटि होगी जिसका अंतराल में हिसाब होना चाहिए। वह त्रुटि घटक फिट में उपयोग किए गए डेटा के आधार पर अनुमानों में प्रवेश नहीं करता है।


मुझे क्षमा करें, मुझे अभी भी काफी समझ नहीं है। आपने 2 प्रकार के आत्मविश्वास अंतराल की व्याख्या की है, लेकिन जब आप कहते हैं कि आप "जिन्हें मैं देख रहा हूं" उनका क्या मतलब है? b / c मैंने भविष्यवाणी और विश्वास अंतराल दोनों की साजिश रची है, और मुझे अंतर समझने में समस्या है। इसके अलावा, मैंने अपने प्रचलित पोस्ट में कुछ आर-कमांड जोड़कर स्पष्ट किया कि मैं क्या कर रहा हूं
लिसा

घटता यह स्पष्ट नहीं करता है कि क्या विश्वास बैंड एक साथ आत्मविश्वास घटता का निर्माण करके प्राप्त कर रहे हैं या नहीं, बस व्यक्तिगत आत्मविश्वास अंतराल की एक चिकनी कनेक्ट बनाते हैं। यदि वे एक साथ होते तो आप वक्र के बाहर इतने सारे फिट नहीं होते। लेकिन जैसा कि मैंने बताया कि यह व्यक्तिगत अंतराल के साथ हो सकता है। मैंने अभी तक उस एड को नहीं देखा है जिसमें आर कोड शामिल है।
माइकल आर। चेरनिक

मैं R विशिष्ट प्रश्नों का उत्तर देने के लिए R को पर्याप्त रूप से नहीं जानता। मुझे नहीं पता कि एक आर विशेषज्ञ आपको बता सकता है कि क्या आत्मविश्वास घटता है और भविष्यवाणी वक्र व्यक्तिगत विश्वास अंतराल को जोड़ रहे हैं या एक साथ घटता उत्पन्न कर रहे हैं। आपका कोड भी वही करता है जो आप उसे करने का इरादा रखते हैं?
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.