रैखिक प्रतिगमन एक साधारण निर्धारक अनुक्रम के परिणाम की भविष्यवाणी करने में सक्षम क्यों नहीं है?


9

मेरे एक सहयोगी ने मुझे इस समस्या को स्पष्ट रूप से इंटरनेट पर गोल करने के लिए भेजा:

If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?

जवाब 200 का लगता है।

3*6  
4*8  
5*10  
6*12  
7*14  
8*16  
9*18  
10*20=200  

जब मैं R में एक रैखिक प्रतिगमन करता हूं:

data     <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))  
lm1      <- lm(b~a, data=data)  
new.data <- data.frame(a=c(10,20,30))  
predict  <- predict(lm1, newdata=new.data, interval='prediction')  

मुझे मिला:

  fit      lwr      upr  
1 154 127.5518 180.4482  
2 354 287.0626 420.9374  
3 554 444.2602 663.7398  

तो मेरा रैखिक मॉडल भविष्यवाणी कर रहा है ।10=154

जब मैं डेटा को प्लॉट करता हूं तो यह रैखिक दिखता है ... लेकिन जाहिर है मैंने कुछ ऐसा माना है जो सही नहीं है।

मैं सीखने की कोशिश कर रहा हूं कि आर में रैखिक मॉडल का सबसे अच्छा उपयोग कैसे किया जाए। इस श्रृंखला का विश्लेषण करने का उचित तरीका क्या है? मुझसे कहां गलती हो गई?


7
अहम । (i) समस्या की अभिव्यक्ति निरर्थक है। 3 = 18 कैसे हो सकता है? निश्चित रूप से आशय कुछ इस तरह है ; (ii) यदि आप , if आदि लिखने के लिए पर्याप्त देख सकते हैं , तो निश्चित रूप से आप उनमें से प्रत्येक ( ,) में दूसरे पद को विभाजित करने के लिए पर्याप्त देख सकते हैं । , और इसी तरह) तब लिखने के लिए: , , आदि, और तुरंत द्विघात, हाजिर करें। । (आपने कठिन भाग किया, अगला कदम और भी सरल है!)f(3)=1818=3×632=4×86=3×28=4×218=3×3×232=4×4×2f(x)=2x2
Glen_b -Reinstate Monica

4
इसके अतिरिक्त, क्या समस्या ने उत्तर पर न्यूनतम सूचना सामग्री मानदंड निर्दिष्ट किया है? अगर मुझे अपना गणित सही ढंग से याद है, तो इन बिंदुओं को फिट करने वाले कार्यों की एक बेशुमार अनंत संख्या है, सभी लिए अलग-अलग उत्तर देते हैं । मैं आमतौर पर पांडित्य नहीं हूं, लेकिन टाइम-वेस्टर ईमेल इसके लायक हैं। f(10)
उज्ज्वल-तारा

1
@TrevorAlexander अगर आपको लगता है कि यह सवाल समय की बर्बादी है, तो इसका जवाब देने की जहमत क्यों उठाते हैं? स्पष्ट रूप से कुछ लोगों को यह दिलचस्प लगता है।
jwg

जवाबों:


23

एक प्रतिगमन मॉडल, जैसे कि एक lm()अनुमान के अनुसार फिट है कि अंतर्निहित डेटा जनरेट करने की प्रक्रिया संभाव्य है । आप यह मान रहे हैं कि आप जिस नियम के लिए प्रयास कर रहे हैं वह नियतात्मक है । इसलिए, आप जो करने की कोशिश कर रहे हैं और आप इसे करने की कोशिश कर रहे हैं, उसके बीच एक बेमेल संबंध है।

अन्य सॉफ़्टवेयर हैं (यानी, आर नहीं) जो स्पष्ट रूप से नियतात्मक डेटा (एक उदाहरण यूरेका होगा ) के लिए सबसे सरल फ़ंक्शन को खोजने / फिट करने के लिए डिज़ाइन किया गया है । उस के लिए एक आर पैकेज हो सकता है (जो मुझे पता नहीं है), लेकिन आर संभाव्य डेटा के सांख्यिकीय मॉडलिंग के लिए है।

जवाब के लिए जो lm()आपको दिया, वह उचित लगता है, और सही हो सकता है। हालांकि, मैं उस संदर्भ को इकट्ठा करता हूं जिसमें इस समस्या को दृढ़ता से प्रस्तुत किया गया था कि इसे नियतात्मक के रूप में समझा जाना चाहिए। अगर ऐसा नहीं हुआ होता, और आप सोच रहे थे कि क्या फिट उचित था, तो एक बात जो आप नोटिस कर सकते हैं, वह यह है कि दो चरम डेटा बिंदु रिग्रेशन लाइन से ऊपर हैं, जबकि मध्य डेटा इसके नीचे हैं। यह एक गलत-निर्दिष्ट कार्यात्मक रूप बताता है। यह भी अवशेष बनाम फिट प्लॉट ( plot(lm1, which=1) में देखा जा सकता है :

यहाँ छवि विवरण दर्ज करें

@AlexWilliams द्वारा फिट किए गए मॉडल के लिए, यह बहुत बेहतर दिखता है:

यहाँ छवि विवरण दर्ज करें


17
+1 अवशिष्ट प्लॉट कहानी को इस तरह से बताता है कि कोई इसे याद नहीं कर सकता है। वास्तव में, यह दिखाता है कि ओपी का 'लीनियर क्यों दिखता है' अक्सर भ्रामक होता है - कई घुमावदार कार्य 'लगभग सीधे' दिख सकते हैं यदि हम केवल कुछ बिंदुओं को देखते हैं जो एक मोड़ के करीब नहीं हैं। यदि आपको लगता है कि यह रैखिक है, तो उस रेखा को बाहर निकालें और देखें कि क्या बचा है!
Glen_b -Reinstate मोनिका

1
अविश्वसनीय रूप से उपयोगी जानकारी! धन्यवाद, मैं वास्तव में इसकी सराहना करता हूं
ब्रेट फिन्नी

1
यह पूरी तरह से संभाव्य और नियतात्मक डेटा के बीच अंतर के साथ कुछ नहीं करना है। रैखिक प्रतिगमन फिट होता है और अगर यह रैखिक था, तो निर्धारक डेटा को एक्सट्रपलेट किया जाएगा। यह संभाव्य डेटा के लिए अच्छी तरह से भविष्यवाणी करने में विफल होगा यदि अंतर्निहित मॉडल द्विघात था।
jwg

3
@jwg: इसके साथ बहुत कुछ करना है। या आप हमेशा के एक क्रम फिट होगाn एक के साथ टिप्पणियों (n-1)वें डिग्री बहुपद जब कोई कम डिग्री बहुपद एक सही फिट नहीं दिया?
Scortchi - को पुनः स्थापित मोनिका

मुझे नहीं लगता कि वह एक सही फिट की तलाश में है। वह यह समझने की कोशिश कर रहा है कि अतिरिक्त मूल्य इतनी दूर क्यों है।
jwg

22

प्रवृत्ति द्विघात नहीं है। प्रयत्न:

lm1 <- lm(b~I(a^2), data=data)

अद्यतन: यहाँ कोड है।

data <- data.frame(a=c(3,4,5,6,7),b=c(18,32,50,72,98))
lm1 <- lm(b~I(a^2), data=data)
new.data <- data.frame(a=c(10,20,30))
predict(lm1, newdata = new.data, interval='prediction')

और आउटपुट:

   fit  lwr  upr
1  200  200  200
2  800  800  800
3 1800 1800 1800

यह उत्तर मुझे थोड़ा गोलाकार लगता है: समस्या का पूरा बिंदु द्विघात व्यवहार को पहचानना है। आप सही ढंग से इंगित करते हैं कि एक बार द्विघात व्यवहार निर्दिष्ट होने के बाद, रैखिक प्रतिगमन गुणांक प्राप्त कर सकते हैं। लेकिन वास्तव में आपने पहले ही महत्वपूर्ण विश्लेषण कर लिया था जब तक आप इस उत्तर की पहली पंक्ति को लिखते थे।
whuber

5
@whuber - सवाल यह है कि एक रैखिक मॉडल विफल क्यों होता है। यह विफल हो जाता है क्योंकि कार्यात्मक रूप रैखिक नहीं है, यह द्विघात है। मैं उत्तर को सरल और बिंदु पर देना चाहता था। गंग का जवाब विवरण में जाने का एक अच्छा काम करता है, और दिखाता है कि आप बेहतर मॉडल के साथ आने के लिए अवशिष्ट भूखंडों का उपयोग कैसे कर सकते हैं। (मैंने इसे सिर्फ कलम और कागज पर लिखा है।) मैं मानता हूं कि उनका जवाब अधिक विस्तृत और पूर्ण है और मैंने इसे उकेरा है।
एलेक्स विलियम्स

13

मैं एलेक्स विलियम्स और गंग द्वारा दिए गए उत्कृष्ट उत्तरों को जोड़ने में संकोच करता हूं, लेकिन एक और बिंदु है जो मुझे लगता है कि बनाया जाना चाहिए। प्रश्न 'लीनियर रिग्रेशन' और 'लीनियर मॉडल' वाक्यांशों का उपयोग करता है, संभवतः यह सुझाव देता है कि उनका मतलब समान है। हालांकि, 'रैखिक प्रतिगमन' का सामान्य अर्थ शास्त्रीय रैखिक प्रतिगमन मॉडल (सीएलआरएम) को संदर्भित करता है जिसमें 'रैखिक' का अर्थ है 'मापदंडों में रैखिक'। यह मापदंडों पर एक शर्त है, स्वतंत्र चर पर नहीं। तो एक द्विघात मॉडल जैसे:

Yमैं=β1+β2एक्समैं2

सीएलआरएम के अर्थ में अभी भी रैखिक है, क्योंकि यह मापदंडों में रैखिक है β1 तथा β2। इसके विपरीत, मॉडल:

Yमैं=β1+β2एक्समैं

अपने मापदंडों में रैखिक है और में भी रैखिक है एक्समैं। इसे एक रैखिक मॉडल कहने के बजाय, एक अधिक सटीक कथन यह है कि यह अपने मापदंडों में रैखिक है और इसमें रैखिक कार्यात्मक रूप है। तो यह कहा जा सकता है कि श्रृंखला का विश्लेषण एक मॉडल द्वारा किया जा सकता है जो अपने मापदंडों में रैखिक है, बशर्ते इसका द्विघात कार्यात्मक रूप है (जैसा कि एलेक्स विलियम्स द्वारा दिखाया गया है), लेकिन रैखिक कार्यात्मक रूप वाले मॉडल द्वारा नहीं।


1
मुझे इसे याद रखने में हमेशा कठिन समय लगता है। यह अन्य उत्तरों के लिए एक बढ़िया अतिरिक्त है।
naught101
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.