रैखिक प्रतिगमन भविष्यवाणी अंतराल


24

यदि मेरे डेटा बिंदुओं में सबसे अच्छा रैखिक सन्निकटन (कम से कम वर्गों का उपयोग करके) लाइन , तो मैं सन्निकटन त्रुटि की गणना कैसे कर सकता हूं? यदि मैं टिप्पणियों और भविष्यवाणियों के बीच अंतर के मानक विचलन की गणना करता हूं , तो क्या मैं बाद में कह सकता हूं कि एक वास्तविक (लेकिन मनाया नहीं गया) मूल्य अंतराल से संबंधित है ( ) प्रायिकता के साथ ~ 68%, सामान्य वितरण मानते हुए?मैं = आर एक एल ( एक्स मैं ) - ( मीटर x मैं + ) y आर = आर एक एल ( एक्स 0 ) [ y पी - σ , y पी + σ ] y पी = एम एक्स 0 + बीy=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

स्पष्टीकरण देना:

मैंने एक फ़ंक्शन बारे में कुछ बिंदुओं मूल्यांकन करके अवलोकन किया । मैं इन टिप्पणियों को एक पंक्ति फिट करता हूं । लिए, मैंने अवलोकन नहीं किया, मैं जानना चाहता हूं कि कितना बड़ा हो सकता है। उपरोक्त विधि का उपयोग करना, क्या यह सही है कि को प्रो के साथ कहना सही है । ~ 68%?f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
मुझे लगता है कि आप भविष्यवाणी अंतराल के बारे में पूछ रहे हैं। ध्यान दें, हालांकि, आप " " के बजाय " " का उपयोग करते हैं । क्या यह एक टाइपो है? हम s की भविष्यवाणी नहीं करते हैंxiyix
गंग -

@gung: मैं उदाहरण समय के लिए निरूपित करने के लिए का उपयोग करता हूं , और उस समय कुछ चर का मान करता हूं , इसलिए अर्थ है कि मैंने समय में एक अवलोकन बनाया है । मैं जानना चाहता हूं कि y के वास्तविक मूल्यों से फिटिंग फ़ंक्शन भविष्यवाणियां कितनी दूर हो सकती हैं। क्या इसका कोई मतलब है? समारोह के "सही" मान देता है पर , और मेरे डेटा बिंदुओं से मिलकर । y y = f ( x ) y x r e a l ( x i ) y x i ( x i , r e e a l ( x i ) )xyy=f(x)yएक्सreal(xi)yxi(xi,real(xi))
bmx

1
जो पूरी तरह से उचित लगता है। मैं जिन भागों पर ध्यान केंद्रित कर रहा हूं, जैसे, " ", आमतौर पर हम reg मॉडल में त्रुटियों / अवशिष्टों के बारे में सोचते हैं जैसे " e_i = y_i- (m__i + b) " । बच के एसडी करता भविष्यवाणी अंतराल की गणना में एक भूमिका निभाते हैं। यह " x_i " है जो मेरे लिए अजीब है; मैं सोच रहा था कि क्या यह एक टाइपो है, या आप कुछ के बारे में पूछ रहे हैं जो मैं नहीं जानता। e i = y i - ( m x i + b )ei=real(xi)(mxi+b)ei=yi(mxi+b)xi
गंग -

मुझे लगता है कि मैं देख रहा हूं; मुझे आपका संपादन याद आ गया। इससे पता चलता है कि सिस्टम पूरी तरह से निर्धारक है और यदि आपके पास वास्तविक अंतर्निहित फ़ंक्शन तक पहुंच है , तो आप हमेशा पूरी तरह से w / o त्रुटि की भविष्यवाणी कर सकते हैं । यह वैसा नहीं है जैसा हम आमतौर पर रेग मॉडल के बारे में सोचते हैं। yi
गंग -

4
bmx, यह मुझे ऐसा लगता है जैसे आपको अपने प्रश्न का स्पष्ट विचार और कुछ मुद्दों के बारे में अच्छी जानकारी है। आप तीन बारीकी से संबंधित थ्रेड्स की समीक्षा करने के लिए इच्छुक हो सकते हैं। आंकड़े.stackexchange.com/questions/17773 गैर-तकनीकी शब्दों में भविष्यवाणी अंतराल का वर्णन करता है; आंकड़े.stackexchange.com/questions/26702 अधिक गणितीय विवरण देता है; और आँकड़ो में .stackexchange.com / questions / 9131 , Rob Hyndman वह सूत्र प्रदान करता है जो आप चाहते हैं। यदि ये आपके प्रश्न का पूरी तरह से उत्तर नहीं देते हैं, तो कम से कम वे आपको इसे स्पष्ट करने के लिए एक मानक अंकन और शब्दावली दे सकते हैं।
whuber

जवाबों:


30

@ शुभकर्ता ने आपको तीन अच्छे उत्तर दिए हैं, लेकिन शायद मैं अभी भी कुछ मूल्य लिख सकता हूं। आपका स्पष्ट प्रश्न, जैसा कि मैं समझता हूँ, यह है:

मेरी फिट यह देखते हुए y मैं = मीटर x मैं + y^i=m^xi+b^ (नोटिस मैं 'टोपी' जोड़ा) , और मेरे बच सामान्य रूप से वितरित मानते हैं, , मैं अभी तक के रूप में एक है कि भविष्यवाणी कर सकते हैं अप्रत्यक्ष प्रतिक्रिया, y एन डब्ल्यू , के साथ एक ज्ञात कारक मूल्य, एक्स एन डब्ल्यू , अंतराल के भीतर गिर जाएगी ( y - σ , y + σN(0,σ^e2)ynewxnew , प्रायिकता ६%% के साथ?(y^σe,y^+σe)

सहज रूप से, उत्तर ऐसा लगता है कि यह 'हाँ' होना चाहिए, लेकिन सही उत्तर शायद है । इस मामले में हो जाएगा जब मानकों (यानी, और σ ) जाना जाता है और बिना किसी त्रुटि के। चूंकि आपने इन मापदंडों का अनुमान लगाया है, इसलिए हमें उनकी अनिश्चितता को ध्यान में रखना होगा। m,b,σ

आइए पहले अपने अवशिष्टों के मानक विचलन के बारे में सोचें। क्योंकि यह आपके डेटा से अनुमानित है, इसलिए अनुमान में कुछ त्रुटि हो सकती है। नतीजतन, आपके द्वारा अपनी भविष्यवाणी अंतराल बनाने के लिए उपयोग किए जाने वाले वितरण को सामान्य नहीं, बल्कि होना चाहिए । हालांकि, चूंकि टी तेजी से सामान्य में परिवर्तित हो जाता है, इसलिए व्यवहार में यह समस्या होने की संभावना कम है। tdf errort

तो, हम सिर्फ उपयोग कर सकते हैं y नई ± टी ( 1 - α / 2 , df त्रुटि ) एस के बजाय y नई ± z ( 1 - α / 2 ) एस , और हमारे प्रमुदित तरीके के बारे में जाना? दुर्भाग्यवश नहीं। बड़ा मुद्दा वहाँ अनिश्चितता की वजह से उस स्थान पर प्रतिक्रिया की सशर्त मतलब के अपने अनुमान के बारे में अनिश्चितता है कि अपने अनुमानों में है हूँ और । इस प्रकार,y^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^आपकी भविष्यवाणियों के मानक विचलन को केवल से अधिक शामिल करने की आवश्यकता हैserror । क्योंकि प्रसरण जोड़ने , भविष्यवाणियों की अनुमानित विचरण हो जाएगा: सूचना है कि " एक्स " नए के लिए विशिष्ट मूल्य का प्रतिनिधित्व करने के subscripted है अवलोकन, और कहा कि " एस 2 " तदनुसार subscripted है। यही है, आपका पूर्वानुमान अंतराल एक्स के साथ नए अवलोकन के स्थान पर आकस्मिक है

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2xएक्सिस। आपके पूर्वानुमानों के मानक विचलन को निम्नलिखित सूत्र के साथ अधिक आसानी से अनुमान लगाया जा सकता है: के रूप में एक दिलचस्प ओर ध्यान दें, हम इस समीकरण से भविष्यवाणी अंतराल के बारे में कुछ तथ्यों अनुमान लगा सकते हैं। सबसे पहले, भविष्यवाणी अंतराल अधिक डेटा हम था जब हम (इस में कम अनिश्चितता है क्योंकि भविष्यवाणी मॉडल बनाया संकरा हो जाएगामीटरऔर)। दूसरा, भविष्यवाणियां सबसे सटीक होंगी यदि वे आपकेमूल्यों को अपने मॉडल को विकसित करने के लिए उपयोग किए जाने वालेxमानों केमाध्यम से किए जाते हैं, क्योंकि तीसरे पद के लिए अंश0होगा। कारण यह है कि सामान्य परिस्थितियों में,एक्सके मतलब में अनुमानित ढलान के बारे में अनिश्चितता नहीं है
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0x, प्रतिगमन लाइन की सही ऊर्ध्वाधर स्थिति के बारे में कुछ अनिश्चितता। इस प्रकार, भविष्यवाणी मॉडल के निर्माण के लिए सीखे जाने वाले कुछ सबक हैं: अधिक डेटा सहायक है, न कि 'महत्व' खोजने के साथ, बल्कि भविष्य की भविष्यवाणियों की सटीकता में सुधार के साथ; और आपको अंतराल पर अपने डेटा संग्रह प्रयासों को केंद्र में रखना चाहिए जहां आपको भविष्य में (उस अंश को कम करने के लिए) भविष्यवाणियां करने की आवश्यकता होगी, लेकिन टिप्पणियों को उस केंद्र से व्यापक रूप से फैलाएं जैसा कि आप कर सकते हैं (उस भाजक को अधिकतम करने के लिए)।

इस तरह से सही मूल्य की गणना करने के बाद हम फिर उचित साथ उपयोग कर सकते हैं वितरण जैसा कि ऊपर उल्लेख। t

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.