केन्द्रित चर पदानुक्रमिक प्रतिगमन विश्लेषण का उपयोग कर बातचीत शब्द? हमें किस चर को केंद्र में रखना चाहिए?


9

मैं एक पदानुक्रमित प्रतिगमन विश्लेषण चला रहा हूं और मुझे कुछ संदेह है:

  1. क्या हम केंद्रित चर का उपयोग करके इंटरैक्शन शब्द की गणना करते हैं?

  2. क्या हमें निर्भर चर के अलावा, सभी निरंतर चर को हमारे डेटासेट में रखना है?

  3. जब हमें कुछ चरों को लॉग करना होता है (क्योंकि उनका sd उनके माध्य से अधिक होता है), तो क्या हम उस चर को केन्द्रित करते हैं जिसे अभी लॉग किया गया है या प्रारंभिक एक?

उदाहरण के लिए: चर "टर्नओवर" ---> लॉग टर्नओवर (क्योंकि माध्य की तुलना में sd बहुत अधिक है) ---> Centered_Turnover?

या यह सीधे टर्नओवर होगा -> Centered_Turnover (और हम इस एक के साथ काम करते हैं)

धन्यवाद!!

जवाबों:


10

आपको बातचीत में शामिल शर्तों को केंद्र में रखना चाहिए, ताकि कोलिनियरिटी कम हो सके

set.seed(10204)
x1 <- rnorm(1000, 10, 1)
x2 <- rnorm(1000, 10, 1)
y <- x1 + rnorm(1000, 5, 5)  + x2*rnorm(1000) + x1*x2*rnorm(1000) 

x1cent <- x1 - mean(x1)
x2cent <- x2 - mean(x2)
x1x2cent <- x1cent*x2cent

m1 <- lm(y ~ x1 + x2 + x1*x2)
m2 <- lm(y ~ x1cent + x2cent + x1cent*x2cent)

summary(m1)
summary(m2)

आउटपुट:

> summary(m1)

Call:
lm(formula = y ~ x1 + x2 + x1 * x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  193.333    335.281   0.577    0.564
x1           -15.830     33.719  -0.469    0.639
x2           -14.065     33.567  -0.419    0.675
x1:x2          1.179      3.375   0.349    0.727

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015

> summary(m2)

Call:
lm(formula = y ~ x1cent + x2cent + x1cent * x2cent)

Residuals:
    Min      1Q  Median      3Q     Max 
-344.62  -66.29   -1.44   66.05  392.22 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)     12.513      3.203   3.907 9.99e-05 ***
x1cent          -4.106      3.186  -1.289    0.198    
x2cent          -2.291      3.198  -0.716    0.474    
x1cent:x2cent    1.179      3.375   0.349    0.727    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 101.3 on 996 degrees of freedom
Multiple R-squared:  0.002363,  Adjusted R-squared:  -0.0006416 
F-statistic: 0.7865 on 3 and 996 DF,  p-value: 0.5015


library(perturb)
colldiag(m1)
colldiag(m2)

चाहे आप अन्य चर को केंद्र में रखते हों; केंद्रित करना (मानकीकरण के विपरीत) एक चर जो एक अंतःक्रिया में शामिल नहीं होता है वह अवरोधन के अर्थ को बदल देगा, लेकिन अन्य चीजों जैसे नहीं

x1 <- rnorm(1000, 10, 1)
x2 <- x1 - mean(x1)
y <- x1 + rnorm(1000, 5, 5) 
m1 <- lm(y ~ x1)
m2 <- lm(y ~ x2)

summary(m1)
summary(m2)

आउटपुट:

> summary(m1)

Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   6.5412     1.6003   4.087 4.71e-05 ***
x1            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

> summary(m2)

Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.5288  -3.3348   0.0946   3.4293  14.0678 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  15.0965     0.1607  93.931  < 2e-16 ***
x2            0.8548     0.1591   5.373 9.63e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.082 on 998 degrees of freedom
Multiple R-squared:  0.02812,   Adjusted R-squared:  0.02714 
F-statistic: 28.87 on 1 and 998 DF,  p-value: 9.629e-08

लेकिन आपको चर का लॉग लेना चाहिए क्योंकि यह ऐसा करने के लिए समझ में आता है या क्योंकि मॉडल के अवशेषों से संकेत मिलता है कि आपको ऐसा करना चाहिए, इसलिए नहीं कि उनके पास बहुत परिवर्तनशीलता है। प्रतिगमन चर के वितरण के बारे में धारणा नहीं बनाता है, यह अवशिष्ट के वितरण के बारे में धारणा बनाता है।


1
आपकी प्रतिक्रिया के लिए धन्यवाद, पीटर! इसलिए, मैं मान लेता हूं कि पहले मुझे चर (सभी भविष्यवक्ताओं के) लॉग इन करना होगा। और उसके बाद, मैं केवल उन स्वतंत्र चर को केंद्र में रखूंगा, जो बातचीत की शर्तों की गणना करने के लिए आवश्यक हैं। एक और सवाल: क्या आप चर को केंद्र या मानकीकृत करने की सिफारिश करेंगे? फिर से, बहुत बहुत धन्यवाद !!
Phdstudent

1
हां, सेंटरिंग से पहले लॉग इन करें। विभिन्न चीजों को मानकीकृत और केंद्रित करना; न तो गलत है। मानकीकरण की तरह कुछ, मैं आमतौर पर "कच्चे" चर पसंद करते हैं।
पीटर Flom

मैं यह देखने में विफल रहता हूं कि जनरेटिंग मॉडल को कैसे परिभाषित किया जाए क्योंकि y <- x1 + rnorm(1000, 5, 5) + x2*rnorm(1000) + x1*x2*rnorm(1000)इससे उत्तर का चित्रण करने में मदद मिलती है। इस का मतलब हैएक्स1+5 और विचरण है 1+25+1+1, इसलिए जेनरेटिंग मॉडल में कोई इंटरैक्शन टर्म नहीं है।
रुफो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.