ठीक है, इसलिए मैं रैखिक प्रतिगमन को समझने की कोशिश कर रहा हूं। मुझे एक डेटा सेट मिला है और यह बिल्कुल ठीक लग रहा है, लेकिन मैं उलझन में हूं। यह मेरा रैखिक मॉडल-सारांश है:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
इसलिए, पी-वैल्यू वास्तव में कम है, जिसका अर्थ है कि x, y के बीच सहसंबंध प्राप्त करने की संभावना बहुत कम है। अगर मैं इसे साजिश रचता हूं और फिर प्रतिगमन रेखा खींचता है तो यह इस तरह दिखता है: http://s14.directupload.net/images/120923/l83eellv.png (चित्र के रूप में था, लेकिन मैं हूं - एक नए उपयोगकर्ता के रूप में - वर्तमान में नहीं है इसे पोस्ट करने की अनुमति दी गई) नीली रेखाएं = आत्मविश्वास अंतराल ग्रीन लाइनें = भविष्यवाणी अंतराल
अब, बहुत सारे बिंदु आत्मविश्वास के अंतराल में नहीं आते हैं, ऐसा क्यों होगा? मुझे लगता है कि कोई भी डेटापॉइंट प्रतिगमन रेखा b / c पर नहीं गिरता है, वे एक-दूसरे से काफी दूर हैं, लेकिन जो मुझे यकीन नहीं है: क्या यह एक वास्तविक समस्या है? वे अभी भी प्रतिगमन रेखा के आसपास हैं और आप पूरी तरह से एक पैटर्न देख सकते हैं। लेकिन क्या इतना ही काफी है? मैं यह पता लगाने की कोशिश कर रहा हूं, लेकिन मैं बार-बार खुद से वही सवाल पूछता रहता हूं।
मैंने अब तक क्या सोचा: विश्वास अंतराल का कहना है कि यदि आप सीआई के बार-बार गणना करते हैं, तो 95% बार सही अर्थ सीआई में गिर जाता है। तो: यह कोई समस्या नहीं है कि डीपी इसमें न आए, क्योंकि ये वास्तव में साधन नहीं हैं। दूसरी ओर भविष्यवाणी अंतराल कहता है, कि यदि आप पीआई की बार-बार गणना करते हैं, तो 95% बार सही वैल्यू अंतराल में आती है। इसलिए, इसमें बिंदुओं का होना बहुत महत्वपूर्ण है (जो मेरे पास है)। फिर मैंने पढ़ा है कि पीआई में हमेशा सीआई की तुलना में एक व्यापक रेंज होती है। ऐसा क्यों है? यही है जो मैने किया है:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
और फिर मैंने इसे प्लॉट किया:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
अब, यदि मैं अतिरिक्त डेटा के लिए CI और PI की गणना करता हूं, तो इससे कोई फर्क नहीं पड़ता कि मैं कितनी विस्तृत सीमा का चयन करता हूं, मुझे ऊपर के समान सटीक लाइनें मिलती हैं। मैं समझ नहीं सकता। इसका क्या मतलब है? यह तब होगा:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
नए x के लिए मैंने अलग-अलग क्रम चुने। यदि मेरे प्रतिगमन में चर की तुलना में अनुक्रम का एक अलग # अवलोकन है, तो मुझे एक चेतावनी मिल रही है। ऐसा क्यों होगा?