लीनियर रिग्रेशन मॉडल में इंटरसेप्ट को हटाना कब ठीक है?


118

मैं रैखिक प्रतिगमन मॉडल चला रहा हूं और सोच रहा हूं कि अवरोधन शब्द को हटाने के लिए क्या स्थितियां हैं।

दो अलग-अलग रजिस्टरों से परिणामों की तुलना करने में जहां एक में इंटरसेप्ट होता है और दूसरे में नहीं, मैं देखता हूं कि इंटरसेप्ट के बिना फ़ंक्शन का बहुत अधिक है। क्या कुछ शर्तें या धारणाएं हैं जिनका पालन करना मुझे यह सुनिश्चित करने के लिए होना चाहिए कि इंटरसेप्ट टर्म को हटाना वैध है?आर2


1
@ मेरे सवाल को संपादित करने के लिए धन्यवाद। क्या ऐसी चीजें हैं जिन्हें मुझे भविष्य के किसी भी प्रश्न में स्पष्ट या पुन: दर्ज करना चाहिए?
analyticsPierce

3
आपका प्रश्न अच्छी तरह से कहा गया है। @chl कृपया कुछ स्वरूपण में सुधार किया, यह सब है। इसमें TeXifying "R ^ 2" शामिल था (इसे R ^ 2 में बदल दिया गया था , जो रूप में प्रस्तुत होता है )। $ आर 2$$आर2
whuber

1
आपके मॉडल में इंटरसेप्ट का क्या अर्थ होगा? आपके प्रश्न की जानकारी से, ऐसा लगता है कि यह आपकी प्रतिक्रिया का अपेक्षित मूल्य होगा जब sqft = 0 और lot = = और स्नान = 0 हो जाता है। क्या वास्तव में ऐसा होने वाला है?
समय

1
इसके बजाय y = a + b1 X1 + b2 x2 + b3x3, क्या मैं a को छोड़ सकता हूं?
ट्रेविस

3
एनबी : इनमें से कुछ टिप्पणियां और उत्तर अनिवार्य रूप से एक ही प्रश्न (एक आवास मूल्य प्रतिगमन के संदर्भ में फंसाया गया) को संबोधित करते हैं जिसे इस डुप्लिकेट के रूप में मिला दिया गया था।
whuber

जवाबों:


87

सबसे छोटा उत्तर: कभी नहीं , जब तक कि आप सुनिश्चित न हों कि डेटा उत्पन्न करने की प्रक्रिया (लीनियर रिग्रेशन मॉडल) के आपके रैखिक सन्निकटन या तो कुछ सैद्धांतिक या किसी अन्य कारणों से मूल के माध्यम से जाने के लिए मजबूर हैं । यदि अन्य प्रतिगमन मापदंडों को पक्षपाती नहीं किया जाएगा, भले ही अवरोधन सांख्यिकीय रूप से महत्वहीन हो (अजीब है, लेकिन ऐसा है, उदाहरण के लिए ब्रूक्स इंट्रोडक्टरी इकोनेट्रिक्स से परामर्श करें )। अंत में, जैसा कि मैं अक्सर अपने छात्रों को समझाता हूं, इंटरसेप्ट टर्म को छोड़कर आप यह सुनिश्चित करते हैं कि अवशिष्ट शब्द शून्य-माध्य है।

आपके दो मॉडल मामले के लिए हमें और अधिक संदर्भ की आवश्यकता है। ऐसा हो सकता है कि रैखिक मॉडल यहां उपयुक्त नहीं है। उदाहरण के लिए, यदि मॉडल गुणक है तो आपको पहले ट्रांसफॉर्म लॉग इन करना होगा। तेजी से बढ़ती प्रक्रियाओं के बाद कभी-कभी ऐसा हो सकता है कि अवरोधन के बिना मॉडल के लिए "बहुत" अधिक है।आर2

डेटा को स्क्रीन करें, RESET टेस्ट या किसी अन्य रैखिक विनिर्देश परीक्षण के साथ मॉडल का परीक्षण करें, यह देखने में मदद कर सकता है कि क्या मेरा अनुमान सही है। और, मॉडल उच्चतम का निर्माण अंतिम सांख्यिकीय गुणों में से एक है, जिनके बारे में मैं वास्तव में चिंता करता हूं, लेकिन उन लोगों के लिए प्रस्तुत करना अच्छा है जो अर्थमिति से अच्छी तरह परिचित नहीं हैं (1 के करीब निर्धारण करने के लिए कई गंदी चालें हैं। :))।आर2


3
-1 "कभी नहीं" के लिए, यहोशू के उत्तर का उदाहरण 1 देखें
उत्सुक

4
@Curious, "never" को "जब तक" के साथ नहीं लिखा जाता है, नीचे दिए गए उदाहरण केवल अपवादों को दिखाते हैं, जब अवरोधन को हटाने के लिए कानूनी है। जब आप डेटा जनरेटिंग प्रक्रिया या सिद्धांत को नहीं जानते हैं, या मानकीकरण या किसी अन्य विशेष मॉडल द्वारा मूल के माध्यम से जाने के लिए मजबूर नहीं किया जाता है, तो इसे रखें। इंटरसेप्ट रखते हुए, लीनियर सन्निकटन और अन्य सरलीकरणों के कारण होने वाली सभी विकृतियों को इकट्ठा करने के लिए कचरा बिन का उपयोग करना पसंद है। पुनश्च व्यावहारिक रूप से प्रतिक्रिया से पता चलता है कि आपने सबसे छोटा पढ़ा है :) विस्तारित उदाहरणों के लिए यहोशू (+1) को बहुत धन्यवाद।
पापी सेलोव

3
आप यहोशू उदाहरण 1 के बिंदु से चूक गए और अभी भी इसे पूरी तरह से अनदेखा कर रहे हैं। श्रेणीबद्ध कोओवरेट वाले मॉडल में केवल अलग-अलग पैरामीरीज़ेशन के साथ एक ही मॉडल में अवरोधन परिणामों को हटाने। यह एक वैध मामला है जब अवरोधन को हटाया जा सकता है।
जिज्ञासु

2
@ गंभीर, जोशुआ उदाहरण 1 में, आपको पहले से आधारभूत समझे जाने वाले श्रेणीगत चर के स्तर के लिए एक नया डमी वैरिएबल जोड़ने की जरूरत है, और यह नया डमी वैरिएबल इंटरसेप्ट का मान लेगा, इसलिए आप इंटरसेप्ट को हटा नहीं रहे हैं, इसका नाम बदलने और श्रेणीबद्ध कोवरिएट के बाकी मापदंडों को फिर से सुधारना। इसलिए पैराग्राफ का तर्क है।
रूफो

59

इंटरसेप्ट को हटाना एक अलग मॉडल है, लेकिन बहुत सारे उदाहरण हैं जहां यह वैध है। अब तक के जवाबों पर पहले ही विस्तार से चर्चा की जा चुकी है, जहां सत्य अवरोधन 0. है। मैं कुछ उदाहरणों पर ध्यान केंद्रित करूंगा, जहां हम एक atypical मॉडल पैराट्रिजेशन में रुचि ले सकते हैं।

उदाहरण 1: एनोवा शैली का मॉडल। श्रेणीबद्ध चर के लिए, हम आम तौर पर द्विआधारी वैक्टर एन्कोडिंग समूह सदस्यता बनाते हैं। मानक प्रतिगमन मॉडल अवरोधन + के - 1 डमी वैक्टर के रूप में पैराट्राइज्ड है। अवरोधन "संदर्भ" समूह, या छोड़े गए वेक्टर के लिए अपेक्षित मान को कोड करता है, और शेष वैक्टर प्रत्येक समूह और संदर्भ के बीच अंतर का परीक्षण करते हैं। लेकिन कुछ मामलों में, प्रत्येक समूह का अपेक्षित मूल्य होना उपयोगी हो सकता है।

dat <- mtcars
dat$vs <- factor(dat$vs)

## intercept model: vs coefficient becomes difference
lm(mpg ~ vs + hp, data = dat)

Coefficients:
(Intercept)          vs1           hp  
   26.96300      2.57622     -0.05453  

## no intercept: two vs coefficients, conditional expectations for both groups
lm(mpg ~ 0 + vs + hp, data = dat)

Coefficients:
     vs0       vs1        hp  
26.96300  29.53922  -0.05453  

उदाहरण 2: मानकीकृत डेटा का मामला। कुछ मामलों में, कोई मानकीकृत डेटा के साथ काम कर सकता है। इस मामले में, अवरोधन डिजाइन द्वारा 0 है। मुझे लगता है कि इसका एक क्लासिक उदाहरण पुरानी शैली की संरचनात्मक समीकरण मॉडल या कारक था, जो डेटा के सहसंयोजक मैट्रिक्स पर बस संचालित होता था। नीचे दिए गए मामले में, वैसे भी अवरोधन का अनुमान लगाना एक अच्छा विचार है, यदि केवल स्वतंत्रता की अतिरिक्त डिग्री को छोड़ना है (जो आपको वास्तव में वैसे भी खोना चाहिए था क्योंकि इसका मतलब अनुमान लगाया गया था), लेकिन कुछ स्थितियों में से हैं निर्माण, साधन 0 हो सकता है (उदाहरण के लिए, कुछ प्रयोग जहां प्रतिभागी रेटिंग प्रदान करते हैं, लेकिन समान सकारात्मकता और नकारात्मकता देने के लिए विवश होते हैं)।

dat <- as.data.frame(scale(mtcars))

## intercept is 0 by design
lm(mpg ~ hp + wt, data = dat)

Coefficients:
(Intercept)           hp           wt  
  3.813e-17   -3.615e-01   -6.296e-01  

## leaving the intercept out    
lm(mpg ~ 0 + hp + wt, data = dat)

Coefficients:
     hp       wt  
-0.3615  -0.6296  

उदाहरण 3: बहुभिन्नरूपी मॉडल और छिपे हुए साक्षात्कार। यह उदाहरण कई मायनों में पहले जैसा है। इस मामले में, डेटा को ढेर कर दिया गया है ताकि दो अलग-अलग चर अब एक लंबे वेक्टर में हों। एक दूसरा चर जानकारी के बारे में जानकारी देता है कि क्या प्रतिक्रिया वेक्टर, yके अंतर्गत आता है mpgया नहीं disp। इस मामले में, प्रत्येक परिणाम के लिए अलग-अलग इंटरसेप्ट प्राप्त करने के लिए, आप समग्र अवरोधन को दबाते हैं और दोनों डमी वैक्टर को माप के लिए शामिल करते हैं। यह एक प्रकार का बहुभिन्नरूपी विश्लेषण है। यह आमतौर पर उपयोग नहीं किया जाता हैlm()क्योंकि आपके पास बार-बार के उपाय हैं और संभवत: यह अहिंसा के लिए अनुमति चाहिए। हालांकि, कुछ दिलचस्प मामले हैं जहां यह आवश्यक है। उदाहरण के लिए जब यादृच्छिक प्रभावों के साथ मध्यस्थता विश्लेषण करने की कोशिश की जाती है, तो पूर्ण विचरण सहसंयोजक मैट्रिक्स प्राप्त करने के लिए, आपको एक साथ अनुमानित दोनों मॉडल की आवश्यकता होती है, जो डेटा और डमी वैक्टर के कुछ चतुर उपयोग को स्टैक करके किया जा सकता है।

## stack data for multivariate analysis
dat <- reshape(mtcars, varying = c(1, 3), v.names = "y",
  timevar = "measure", times = c("mpg", "disp"), direction = "long")
dat$measure <- factor(dat$measure)

## two regressions with intercepts only
lm(cbind(mpg, disp) ~ 1, data = mtcars)

Coefficients:
             mpg     disp  
(Intercept)   20.09  230.72

## using the stacked data, measure is difference between outcome means
lm(y ~ measure, data = dat)

Coefficients:
(Intercept)   measurempg  
      230.7       -210.6  

## separate 'intercept' for each outcome
lm(y ~ 0 + measure, data = dat)

Coefficients:
measuredisp   measurempg  
     230.72        20.09  

मैं यह तर्क नहीं दे रहा हूं कि इंटरसेप्ट्स को आम तौर पर हटा दिया जाना चाहिए, लेकिन लचीला होना अच्छा है।


7
+1। मैंने लोगों को कठोर रूप से 'कभी नहीं' कहने के लिए नहीं लिया, लेकिन एक और परिप्रेक्ष्य होना हमेशा अच्छा है और यह एक बहुत ही स्पष्ट और विचारशील प्रतिक्रिया है। सीवी में आपका स्वागत है, समुदाय के हिस्से के रूप में यह आपके लिए बहुत अच्छा होगा।
गुंग

3
@ शुग धन्यवाद, आप सही हैं। मैंने अपने उत्तर से उस भाषा को संपादित किया है क्योंकि मुझे लगता है कि यह भड़काऊ और अनावश्यक थी।
जोशुआ

1
@ जोशुआ: क्षमा करें कि मैं लगभग 2 साल पुरानी पोस्ट पर एक प्रश्न पूछ रहा हूं, लेकिन क्या आपके पहले उदाहरण पर कोई संदर्भ हैं? मैं अपने डेटा पर नो-इंटरसेप्ट मॉडल चलाने के बारे में सोच रहा हूं जहां भविष्यवक्ता चर श्रेणीबद्ध है, और मुझे यह जानने में दिलचस्पी है कि क्या प्रत्येक स्तर 0. से अलग है धन्यवाद!
एलेक्स

@ किसी भी अच्छे प्रतिगमन पाठ को करना चाहिए (व्यवहार विज्ञान के 3 संस्करण के लिए एप्लाइड मल्टीपल रिग्रेशन / सहसंबंध विश्लेषण का अध्याय 8। इसमें कुछ को शामिल किया गया है) --- आपको इसके बारे में विरोधाभासों और डमी कोड सैद्धांतिक चर के बारे में बात करने की आवश्यकता है। इसके बारे में सोचने का एक तरीका यह है कि आप इंटरसेप्ट को छोड़ने के बजाय प्रत्येक समूह के लिए अलग-अलग इंटरसेप्ट का अनुमान लगा रहे हैं।
जोशुआ

@ जोशुआ, आपके पहले उदाहरण ने इस साइट पर कहीं और कुछ भ्रम पैदा किया है । यहां मेरी समझ यह है कि आप इंटरसेप्ट के लिए मान जोड़ने के साथ गड़बड़ करने की आवश्यकता के बिना पैरामीटर अनुमान दिखाने के लिए एक आसान ट्रिक का सुझाव दे रहे हैं, और आप यह सुझाव नहीं दे रहे हैं कि सामान्य कोर्स एनोवा का संचालन करने के लिए हटाए गए इंटरसेप्ट के साथ एक मॉडल का उपयोग करना है। आर में, बस हर मामले में, एक पारंपरिक एनोवा का संचालन करने के लिए एक अवरोधन के साथ एक मॉडल का उपयोग करेगा।
साल मंगिफ़िको

29

यहां अच्छे जवाब हैं। दो छोटी चीजें:

  1. आर2आर2आर2
  2. एक्सभले ही वास्तविक अवरोधन 0 हो

2
@ अदमो यहां # 2 के समान बिंदु बनाता है: सकारात्मक रैखिक प्रतिगमन गुणांक , लेकिन विचार को पूरी तरह से विकसित करता है।
गंग

14

आपको इंटरसेप्ट को नहीं छोड़ना चाहिए, भले ही आप संभावित रूप से शून्य के मूल्यों वाले सभी व्याख्यात्मक चर देख सकें या नहीं।

यहाँ एक बहुत ही समान प्रश्न का एक अच्छा जवाब है

यदि आप अवरोधन को हटाते हैं तो अन्य अनुमान सभी पक्षपाती हो जाते हैं। यदि अवरोधन का वास्तविक मूल्य लगभग शून्य है (जो कि आप अपने डेटा से समाप्त कर सकते हैं), तो आप ढलान के साथ चारों ओर गड़बड़ कर रहे हैं यदि आप इसे बिल्कुल शून्य होने के लिए मजबूर करते हैं ।

UNLESS - आप बहुत स्पष्ट और स्पष्ट भौतिक मॉडल के साथ कुछ माप रहे हैं जो अवरोधन शून्य होने की मांग करता है (जैसे कि आपके पास आयताकार प्रिज्म की ऊंचाई, चौड़ाई और लंबाई व्याख्यात्मक चर के रूप में है और प्रतिक्रिया चर कुछ माप त्रुटि के साथ वॉल्यूम है)। यदि आपकी प्रतिक्रिया चर घर का मूल्य है, तो आपको निश्चित रूप से अवरोधन छोड़ना होगा।


1
क्या आप समझा सकते हैं कि हमें घर की कीमत की भविष्यवाणी के लिए अवरोधक की आवश्यकता क्यों है? सभी X किसी भी घर के लिए शून्य क्यों होगा?
एल्फ

10

ठीक है, इसलिए आपने प्रश्न को बहुत बदल दिया है

जब आप यह जानते हैं कि आप इंटरसेप्ट को छोड़ सकते हैं। यह 0. है। और नहीं, आप ऐसा नहीं कर सकते क्योंकि यह 0 से बहुत अलग नहीं है, आपको यह जानना होगा कि यह 0 है या आपके अवशेष पक्षपाती हैं। और, उस स्थिति में यह 0 है तो इससे कोई फर्क नहीं पड़ेगा यदि आप इसे छोड़ देते हैं ... इसलिए, इसे कभी भी बाहर न छोड़ें।

आर2


2
जब हम एंगल / ग्रेंजर 2-स्टेप का उपयोग करते हुए संयोग के लिए परीक्षण करना चाहते हैं तो क्या होगा? en.wikipedia.org/wiki/Cointegration
Jase

5

अधिकांश एकाधिक प्रतिगमन मॉडल में एक निरंतर शब्द (यानी, अवरोधन) शामिल होता है, क्योंकि यह सुनिश्चित करता है कि मॉडल निष्पक्ष होगा - अर्थात, अवशिष्ट का मतलब बिल्कुल शून्य होगा। (एक प्रतिगमन मॉडल में गुणांक कम से कम वर्गों द्वारा अनुमानित किया जाता है - यानी, मतलब चुकता त्रुटि को कम करना। अब, मतलब चुकता त्रुटि त्रुटियों के विचरण के बराबर है और उनके मतलब के वर्ग के बराबर है: यह एक गणितीय पहचान है। मॉडल में स्थिरांक का मान त्रुटियों के माध्यम को बदल देता है, लेकिन विचरण को प्रभावित नहीं करता है। इसलिए, यदि चुकता त्रुटियों का योग कम से कम किया जाना है, तो निरंतरता को चुना जाना चाहिए ताकि त्रुटियों का मतलब शून्य हो। )

एक साधारण प्रतिगमन मॉडल में, निरंतर प्रतिगमन रेखा के Y- अवरोधन को निरूपित रूप में निरूपित करता है। एक से अधिक प्रतिगमन मॉडल में, स्थिरांक उस मान का प्रतिनिधित्व करता है जिसे आश्रित चर के लिए भविष्यवाणी की जाएगी यदि सभी स्वतंत्र चर एक साथ शून्य के बराबर होते हैं - ऐसी स्थिति जो शारीरिक या आर्थिक रूप से सार्थक नहीं हो सकती है। यदि आप विशेष रूप से इस बात में दिलचस्पी नहीं रखते हैं कि क्या होगा यदि सभी स्वतंत्र चर एक साथ शून्य थे, तो आप सामान्य रूप से मॉडल में निरंतरता को छोड़ देते हैं, भले ही इसके सांख्यिकीय महत्व की परवाह किए बिना। यह सुनिश्चित करने के अलावा कि इन-सैंपल त्रुटियां निष्पक्ष हैं, निरंतर की उपस्थिति प्रतिगमन रेखा को "अपने स्तर की तलाश" करने की अनुमति देती है और डेटा के लिए सबसे अच्छा फिट प्रदान करती है जो केवल स्थानीय रूप से रैखिक हो सकती है।

हालांकि, दुर्लभ मामलों में आप मॉडल से निरंतर को बाहर करना चाह सकते हैं। यह किसी भी सॉफ्टवेयर पैकेज में प्रतिगमन प्रक्रिया में एक मॉडल-फिटिंग विकल्प है, और इसे कभी-कभी मूल, या छोटे के लिए आरटीओ के माध्यम से प्रतिगमन के रूप में संदर्भित किया जाता है। आमतौर पर, यह तभी किया जाएगा जब:

  1. एक साथ मूल्य शून्य को संभालने वाले सभी स्वतंत्र चर की कल्पना करना संभव है, और आपको लगता है कि इस मामले में यह तार्किक रूप से पालन करना चाहिए कि निर्भर चर भी शून्य के बराबर होगा; वरना
  2. निरंतर स्वतंत्र चर के सेट के साथ बेमानी है जिसका आप उपयोग करना चाहते हैं।

मामले का एक उदाहरण (1) एक मॉडल होगा जिसमें सभी चर - निर्भर और स्वतंत्र - अन्य समय श्रृंखला के पहले मतभेदों का प्रतिनिधित्व करते हैं। यदि आप X के पहले अंतर पर Y के पहले अंतर को पुनः प्राप्त कर रहे हैं, तो आप चर के वर्तमान स्तरों के संदर्भ के बिना, X में परिवर्तन के रैखिक कार्य के रूप में सीधे Y में परिवर्तन की भविष्यवाणी कर रहे हैं। इस मामले में यह उचित हो सकता है (हालांकि आवश्यक नहीं) यह मानने के लिए कि वाई को अपरिवर्तित किया जाना चाहिए, जब भी एक्स अपरिवर्तित होता है - यानी, कि किसी भी परिवर्तन की अनुपस्थिति में वाई को ऊपर या नीचे की ओर प्रवृत्ति नहीं होनी चाहिए। X का स्तर।

मामले का एक उदाहरण (2) एक ऐसी स्थिति होगी जिसमें आप मौसमी संकेतक चर का एक पूरा सेट उपयोग करना चाहते हैं - उदाहरण के लिए, आप त्रैमासिक डेटा का उपयोग कर रहे हैं, और आप क्यू 1, क्यू 2, क्यू 3 और क्यू 4 को शामिल करना चाहते हैं। मौसमी प्रभाव। इस प्रकार, क्यू 1 1 0 0 0 1 0 0 0 ... की तरह लग सकता है, क्यू 2 0 1 0 0 0 1 0 0 ... और इसी तरह दिखाई देगा। आप इन चारों और एक ही मॉडल में एक निरंतरता का उपयोग नहीं कर सकते, क्योंकि Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1 1। । । । , जो एक स्थिर पद के समान है। यानी, पांच चर Q1, Q2, Q3, Q4 और CONSTANT रैखिक रूप से स्वतंत्र नहीं हैं: उनमें से किसी एक को अन्य चार के रैखिक संयोजन के रूप में व्यक्त किया जा सकता है। रैखिक प्रतिगमन मॉडल को फिट करने के लिए एक तकनीकी शर्त यह है कि स्वतंत्र चर को रैखिक रूप से स्वतंत्र होना चाहिए; अन्यथा न्यूनतम वर्ग के गुणांक को विशिष्ट रूप से निर्धारित नहीं किया जा सकता है,

चेतावनी का एक शब्द: आर-स्क्वैयर और एफ स्टेटिस्टिक का आरटीओ मॉडल में समान अर्थ नहीं है जैसा कि वे एक साधारण प्रतिगमन मॉडल में करते हैं, और उनकी गणना सभी सॉफ्टवेयर द्वारा एक ही तरीके से नहीं की जाती है। इस लेख को कुछ कैविएट के लिए देखें। आपको उन मॉडलों के बीच आर-स्क्वेर की तुलना करने की कोशिश नहीं करनी चाहिए जो निरंतर अवधि को शामिल करते हैं और शामिल नहीं करते हैं, हालांकि प्रतिगमन की मानक त्रुटि की तुलना करना ठीक है।

ध्यान दें कि "स्वतंत्र" शब्द का उपयोग प्रतिगमन शब्दजाल में तीन (कम से कम) तीन अलग-अलग तरीकों से किया जाता है: किसी भी एकल चर को एक स्वतंत्र चर कहा जा सकता है, अगर इसका उपयोग भविष्यवक्ता के रूप में किया जा रहा है, बल्कि भविष्यवाणी के रूप में। चर का एक समूह रैखिक रूप से स्वतंत्र होता है यदि उनमें से कोई भी अन्य के रैखिक संयोजन के रूप में बिल्कुल व्यक्त नहीं किया जा सकता है। चर की एक जोड़ी को सांख्यिकीय रूप से स्वतंत्र कहा जाता है यदि वे न केवल रैखिक रूप से स्वतंत्र हैं, बल्कि एक-दूसरे के संबंध में पूरी तरह से असंगत हैं। एक प्रतिगमन मॉडल में, आप चाहते हैं कि आपका आश्रित चर सांख्यिकीय रूप से स्वतंत्र चर पर निर्भर हो, जो कि आपस में रैखिक (लेकिन जरूरी नहीं कि सांख्यिकीय रूप से) स्वतंत्र होना चाहिए।


2
आप किस लेख का जिक्र कर रहे हैं?
गंग

2

मेरे विचारों का पूर्ण संशोधन। दरअसल इंटरसेप्ट को छोड़ने से बायस की समस्या हो जाएगी।

क्या आपने अपने डेटा को केंद्रित करने पर विचार किया है ताकि किसी अवरोधक का कुछ अर्थ हो और यह बताने से बचें कि कुछ (अनुचित) मान नकारात्मक मान कैसे दे सकते हैं? यदि आप मीन चक्रवात को घटाकर और स्नान के माध्यम से सभी तीन व्याख्यात्मक चर समायोजित करते हैं, तो इंटरसेप्ट अब औसत sdrft, लॉटिज़ और स्नान के साथ मूल्य (एक घर के?) को इंगित करेगा।

यह केंद्र स्वतंत्र चर के सापेक्ष संबंध को नहीं बदलेगा। इसलिए, केंद्रित डेटा पर मॉडल को फिट करने के बाद भी स्नान को महत्वहीन माना जाएगा। स्नान शामिल किए बिना मॉडल को परिष्कृत करें। इंटरसेप्ट के लिए आपको अभी भी एक बड़ा पी-वैल्यू मिल सकता है, लेकिन इसे शामिल किया जाना चाहिए और आपके पास फॉर्म y = a + b (sqrft) + c (lotize) का मॉडल होगा।


1

मैंने अभी कुछ समय ऐसे ही किसी अन्य व्यक्ति द्वारा पोस्ट किए गए प्रश्न का उत्तर देने में बिताया, लेकिन यह बंद था। यहाँ कुछ महान उत्तर हैं, लेकिन मैं जो उत्तर प्रदान करता हूं वह थोड़ा सरल है। यह उन लोगों के लिए अधिक अनुकूल हो सकता है जिनके पास प्रतिगमन की कमजोर समझ है।

Q1: मैं अपने मॉडल में इंटरसेप्ट की व्याख्या कैसे करूँ?

प्रतिगमन मॉडल में, लक्ष्य एक परिणाम चर में अस्पष्टीकृत विचरण की मात्रा को कम करना है:

y = b0 + b1⋅x + b

जहां y आपके परिणाम के माप का अनुमानित मूल्य है (उदाहरण के लिए, log_blood_hg), b0 इंटरसेप्ट है, b1 ढलान है, x एक भविष्य कहनेवाला चर है, और ϵ अवशिष्ट त्रुटि है।

इंटरसेप्ट (b0) सभी x = 0. का अनुमानित मूल्य है जब x = 0. दूसरे शब्दों में, यह y का आधारभूत मान है, इससे पहले कि आप किसी चर (जैसे, प्रजाति) का उपयोग करने के लिए आगे log_blood -hg में विचरण को कम या स्पष्ट करें ।

एक ढलान जोड़कर (जो अनुमान लगाता है कि कैसे एक इकाई में वृद्धि / कमी log_blood_hg में x, जैसे प्रजातियों में एक इकाई वृद्धि के साथ बदलती है), हम जोड़ते हैं कि हम पहले से ही परिणाम चर के बारे में क्या जानते हैं, जो इसका आधार मान है (अर्थात अवरोधन), दूसरे चर में परिवर्तन के आधार पर।

Q2: जब इंटरसेप्ट को शामिल करना या न करना उचित हो, खासकर इस तथ्य के संबंध में कि मॉडल बहुत अलग परिणाम देते हैं?

इस तरह के सरल मॉडल के लिए, इंटरसेप्ट को गिराना वास्तव में कभी भी उचित नहीं है।

मॉडल तब अलग-अलग परिणाम देते हैं जब आप इंटरसेप्ट को छोड़ देते हैं क्योंकि Y के आधारभूत मान में ढलान को ग्राउंड करने के बजाय, इसे y की उत्पत्ति से गुजरने के लिए मजबूर किया जाता है, जो 0. है। इसलिए, ढलान स्टिपर हो जाता है (यानी अधिक शक्तिशाली और महत्वपूर्ण) ) क्योंकि आपने मूल के माध्यम से लाइन को मजबूर किया है, इसलिए नहीं कि यह y में विचरण को कम से कम करने का बेहतर काम करता है। दूसरे शब्दों में, आपने कृत्रिम रूप से एक मॉडल बनाया है, जो आपके मॉडल के इंटरसेप्ट, या प्रारंभिक ग्राउंडिंग पॉइंट को हटाकर y में विचरण को कम करता है।

ऐसे मामले हैं जहां अवरोधन को हटाना उचित है - जैसे कि 0-अवरोधन के साथ एक घटना का वर्णन करते समय। आप यहाँ उस के बारे में पढ़ सकते हैं , साथ ही अधिक वजहों से एक अवरोधन को हटाना एक अच्छा विचार नहीं है।


1

y=α+βएक्स+ε
α=0yएक्स=0

आर2आर2आर2

निष्कर्ष: मॉडल के अंतरिम विकल्प को न छोड़ें (जब तक आप वास्तव में, वास्तव में नहीं जानते कि आप क्या कर रहे हैं)।

एक्सरों=vटी जहां कोई स्थिर नहीं हैं। लेकिन फिर भी, यदि मॉडल केवल अनुमानित है (गति वास्तव में स्थिर नहीं है), तो निरंतर में छोड़ना बेहतर हो सकता है, भले ही इसकी व्याख्या न की जा सके।

कुछ विशेष मॉडल भी हैं जो अवरोधन छोड़ते हैं। एक उदाहरण युग्मित डेटा, जुड़वां अध्ययन है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.