एक बहुपद प्रतिगमन से विश्वास बैंड को समझना


14

मैं नीचे दिए गए मेरे ग्राफ में दिखाई देने वाले परिणाम को समझने की कोशिश कर रहा हूं। आमतौर पर, मैं एक्सेल का उपयोग करता हूं और एक रेखीय-प्रतिगमन लाइन प्राप्त करता हूं, लेकिन नीचे के मामले में मैं आर का उपयोग कर रहा हूं और मुझे कमांड के साथ एक बहुपद प्रतिगमन मिलता है:

ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth()

तो मेरे प्रश्न इस पर उबलते हैं:

  1. नीले प्रतिगमन रेखा के चारों ओर ग्रे क्षेत्र (तीर # 1) क्या है? क्या यह बहुपद प्रतिगमन का मानक विचलन है?

  2. क्या मैं यह कह सकता हूं कि ग्रे एरिया (तीर # 2) के बाहर जो कुछ भी है वह 'आउटलाइयर' है और ग्रे एरिया (एरो # 3) के अंदर जो कुछ भी गिरता है वह मानक विचलन के भीतर है।

यहाँ छवि विवरण दर्ज करें

जवाबों:


14

ग्रे बैंड रिग्रेशन लाइन के लिए एक आत्मविश्वास बैंड है। मैं यह जानने के लिए ggplot2 के साथ पर्याप्त रूप से परिचित नहीं हूं कि यह 1 SE कॉन्फिडेंस बैंड या 95% कॉन्फिडेंस बैंड है, लेकिन मेरा मानना ​​है कि यह पूर्व है ( संपादित करें: जाहिर है कि यह 95% CI है )। एक विश्वास बैंड आपके प्रतिगमन लाइन के बारे में अनिश्चितता का प्रतिनिधित्व प्रदान करता है। एक अर्थ में, आप सोच सकते हैं कि सच्चा प्रतिगमन रेखा उस बैंड के शीर्ष के रूप में उच्च है, नीचे के रूप में कम है, या बैंड के भीतर अलग तरह से लड़ रहा है। (ध्यान दें कि इस स्पष्टीकरण का उद्देश्य सहज होना है, और तकनीकी रूप से सही नहीं है, लेकिन अधिकांश लोगों का अनुसरण करने के लिए पूरी तरह से सही व्याख्या कठिन है।)

आपको प्रतिगमन लाइन के बारे में समझने / सोचने में मदद करने के लिए आत्मविश्वास बैंड का उपयोग करना चाहिए। आपको कच्चे डेटा बिंदुओं के बारे में सोचने के लिए इसका उपयोग नहीं करना चाहिए। याद रखें कि प्रतिगमन रेखा X के प्रत्येक बिंदु पर के माध्य का प्रतिनिधित्व करती है (यदि आपको इसे और अधिक पूरी तरह से समझने की आवश्यकता है, तो इससे आपको मेरा जवाब यहां पढ़ने में मदद मिल सकती है: सशर्त गौसियन वितरण के पीछे अंतर्ज्ञान क्या है? )। दूसरी ओर, आप निश्चित रूप से हर देखे गए डेटा बिंदु को सशर्त माध्य के बराबर होने की उम्मीद नहीं करते हैं। दूसरे शब्दों में, आपको इस बात का आकलन करने के लिए विश्वास बैंड का उपयोग नहीं करना चाहिए कि क्या एक डेटा बिंदु एक बाहरी है। Yएक्स


( संपादित करें: यह नोट मुख्य प्रश्न का परिधीय है, लेकिन ओपी के लिए एक बिंदु स्पष्ट करना चाहता है। )

एक बहुपद प्रतिगमन एक गैर-रेखीय प्रतिगमन नहीं है, भले ही आपको जो मिलता है वह एक सीधी रेखा की तरह नहीं दिखता है। गणितीय संदर्भ में 'रैखिक' शब्द का एक बहुत विशिष्ट अर्थ है, विशेष रूप से, यह कि आप जिन मापदंडों का अनुमान लगा रहे हैं - बेटास - सभी गुणांक हैं। एक बहुपद प्रतिगमन का मतलब है कि आपके सहसंयोजक , एक्स 2 , एक्स 3 , आदि हैं, अर्थात, उनका एक दूसरे से गैर-रैखिक संबंध है, लेकिन आपके बेट अभी भी गुणांक हैं, इस प्रकार यह अभी भी एक रैखिक मॉडल है। यदि आपके बेटास, एक्सपोर्टर कहते हैं, तो आपके पास एक गैर-रेखीय मॉडल होगा। एक्सएक्स2एक्स3

एक्सएक्स2एक्स2एक्स1एक्स2एक्स(एक्स, Y)


Y=β0+β1एक्स+ε
ln(π(Y)1-π(Y))=β0+β1एक्स
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
βββलॉगिट और प्रोबेट मॉडल के बीच अंतर ।)

+1 दस्तावेज़ीकरण में उदाहरण मुझे विश्वास दिलाता है कि विश्वास बहुत अधिक है, शायद 95%।
whuber

@ उत्तर विस्तृत जवाब के लिए धन्यवाद (आपको भी एक चेक मिला!)। मैंने आपका पहला बयान पढ़ा और मैं थोड़ा उलझन में हूँ। क्या आप इसके बारे में अधिक विस्तार से बता सकते हैं। यदि परिणामी रेखा सीधी रेखा नहीं है (y = mx + b) तो यह क्या रैखिक बनाती है? उत्तर के लिए फिर से धन्यवाद।
adhg

Docs.ggplot2.org/0.9.3.1/stat_smooth.html पर डॉक्स यह प्रतिगमन वक्र के लिए 95% विश्वास बैंड का दावा करता है।
whuber

2
मुझे लगता है कि बहुपद प्रतिगमन के बजाय डिफ़ॉल्ट चिकनी लूज़ यहाँ उपयोग में है?
xan

@ हडग, मैंने सोचा कि मैंने रैखिक बनाम गैर-रैखिक को कहीं और कवर किया था, लेकिन मुझे यह नहीं मिला। इसलिए मैंने यहां कुछ अतिरिक्त सामग्री जोड़ी। HTH
गुंग - को पुनः स्थापित मोनिका

11

पहले से मौजूद उत्तरों में जोड़ने के लिए, बैंड माध्य के एक आत्मविश्वास अंतराल का प्रतिनिधित्व करता है, लेकिन आपके प्रश्न से आप स्पष्ट रूप से एक पूर्ववर्ती अंतराल की तलाश कर रहे हैं । भविष्यवाणी अंतराल एक सीमा है कि यदि आप एक नया बिंदु आकर्षित करते हैं तो वह बिंदु सैद्धांतिक रूप से उस समय की सीमा X% (जहाँ आप X का स्तर निर्धारित कर सकते हैं) में समाहित हो जाएगा।

library(ggplot2)
set.seed(5)
x <- rnorm(100)
y <- 0.5*x + rt(100,1)
MyD <- data.frame(cbind(x,y))

हम आपके आरंभिक प्रश्न में उसी प्रकार के कथानक को उत्पन्न कर सकते हैं जो कि स्मूद लूप रिग्रेशन लाइन (डिफ़ॉल्ट 95% विश्वास अंतराल) के माध्यम से एक आत्मविश्वास अंतराल के साथ दिखाया गया है।

ConfiMean <- ggplot(data = MyD, aes(x,y)) + geom_point() + geom_smooth()
ConfiMean

यहाँ छवि विवरण दर्ज करें

भविष्यवाणी अंतराल के एक त्वरित और गंदे उदाहरण के लिए, यहां मैं चिकनाई के साथ रैखिक प्रतिगमन का उपयोग करके एक भविष्यवाणी अंतराल उत्पन्न करता हूं (इसलिए यह आवश्यक रूप से एक सीधी रेखा नहीं है)। नमूना डेटा के साथ यह बहुत अच्छा करता है, 100 बिंदुओं के लिए केवल 4 सीमा के बाहर हैं (और मैंने भविष्यवाणी पर 90% अंतराल निर्दिष्ट किया है)।

#Now getting prediction intervals from lm using smoothing splines
library(splines)
MyMod <- lm(y ~ ns(x,4), MyD)
MyPreds <- data.frame(predict(MyMod, interval="predict", level = 0.90))
PredInt <- ggplot(data = MyD, aes(x,y)) + geom_point() + 
           geom_ribbon(data=MyPreds, aes(x=fit,ymin=lwr, ymax=upr), alpha=0.5)
PredInt

यहाँ छवि विवरण दर्ज करें

अब कुछ और नोट। मैं लाडीस्लाव से सहमत हूं कि आपको समय श्रृंखला के पूर्वानुमान के तरीकों पर विचार करना चाहिए क्योंकि आपके पास 2007 में कुछ समय के बाद से एक नियमित श्रृंखला है और यह आपके कथानक से स्पष्ट है यदि आप कठिन दिखते हैं तो मौसमी है (बिंदुओं को जोड़ने से यह बहुत स्पष्ट हो जाएगा)। इसके लिए मैं पूर्वानुमान पैकेज में पूर्वानुमान.स्टल फ़ंक्शन की जांच करने का सुझाव दूंगा जहां आप एक मौसमी खिड़की चुन सकते हैं और यह Loess का उपयोग करके मौसमी और प्रवृत्ति का एक मजबूत अपघटन प्रदान करता है। मैं मजबूत तरीकों का उल्लेख करता हूं क्योंकि आपके डेटा में कुछ ध्यान देने योग्य स्पाइक्स हैं।

यदि आप कभी-कभार आउटलेर्स के साथ डेटा रखते हैं तो आम तौर पर गैर-श्रृंखला श्रृंखला डेटा के लिए मैं अन्य मजबूत तरीकों पर विचार करूंगा। मुझे नहीं पता कि सीधे Loess का उपयोग करके भविष्यवाणी अंतराल कैसे उत्पन्न किया जाता है, लेकिन आप मात्रात्मक प्रतिगमन पर विचार कर सकते हैं (यह निर्भर करता है कि भविष्यवाणी अंतराल कितना चरम है)। अन्यथा यदि आप केवल संभावित गैर-रेखीय होना चाहते हैं, तो आप फ़ंक्शन को x से भिन्न होने देने के लिए स्प्लिन पर विचार कर सकते हैं।


4

खैर, नीली रेखा एक चिकनी स्थानीय प्रतिगमन है । आप spanपैरामीटर (0 से 1 तक) द्वारा लाइन की विगल्गनेस को नियंत्रित कर सकते हैं । लेकिन आपका उदाहरण एक "समय-श्रृंखला" है, इसलिए विश्लेषण के कुछ और उचित तरीकों की तलाश करने की कोशिश करें, केवल एक चिकनी वक्र फिट करने के लिए (जो कि संभव प्रवृत्ति प्रकट करने के लिए केवल सेवा करनी चाहिए)।

प्रलेखन के अनुसार ggplot2(और नीचे टिप्पणी में पुस्तक): stat_smooth ग्रे में दिखाए गए चिकनी का एक आत्मविश्वास अंतराल है । यदि आप विश्वास अंतराल को बंद करना चाहते हैं, तो se = FALSE का उपयोग करें ।


1
(१) मुझे आपके संदर्भ में यह नहीं दिखाई देता है कि यह दावा करता है कि ग्रे क्षेत्र बिंदुवार आत्मविश्वास अंतराल है। यह उदाहरणों से बहुत स्पष्ट लगता है कि ग्रे क्षेत्र वक्र के लिए एक आत्मविश्वास अंतराल है । (2) किसी को भी ग्रे क्षेत्र से परे अंकों के बड़े अनुपात को "आउटलेर" घोषित नहीं किया जाएगा; उनमें से बहुत सारे हैं।
whuber

(1) मेरी गलती है, यहाँ मैं एक पुस्तक जोड़ता हूँ जो "बिंदु-वार आत्मविश्वास अंतराल" को संदर्भित करता है: डेटा विश्लेषण के लिए विकम एच (2009) ggplot2 एलिगेंट ग्राफिक्स। मीडिया 212. (पृष्ठ 14)। (२) मैं सहमत हूँ।
लादिस्लाव नाओ

क्या आपका कोई भी संदर्भ बताता है कि डिफ़ॉल्ट आत्मविश्वास स्तर क्या निर्धारित है?
whuber

नहीं, मुझे डिफ़ॉल्ट सेटिंग के बारे में कोई संदर्भ नहीं मिल रहा है।
लादिस्लाव नाओ

मुझे आपके संदर्भ के पहले पृष्ठ पर डिफ़ॉल्ट मिला: "(डिफ़ॉल्ट रूप से 0.95)।" इसका मतलब है कि या तो इस चिकना में गंभीर कीड़े हैं या फिर आपके संदर्भ की व्याख्या गलत है: क्योंकि डेटा बिंदुओं का इतना बड़ा अनुपात आमतौर पर ग्रे क्षेत्र से परे होता है और यह मानते हुए कि कोड सही है, ग्रे क्षेत्र को एक विश्वास क्षेत्र होना चाहिए भविष्यवाणी के लिए (फिट वक्र) और अंकों के लिए एक विश्वास क्षेत्र नहीं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.