हर्गिज नहीं। गुणांक का परिमाण सीधे चर के लिए चुने गए तराजू पर निर्भर करता है, जो कि कुछ हद तक मनमाना मॉडलिंग निर्णय है।
इसे देखने के लिए, एक रेखीय प्रतिगमन मॉडल पर विचार करें जो एक आईरिस की पंखुड़ी की चौड़ाई का अनुमान लगाता है (सेंटीमीटर में) इसकी पंखुड़ी की लंबाई (सेंटीमीटर में):
summary(lm(Petal.Width~Petal.Length, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.363076 0.039762 -9.131 4.7e-16 ***
# Petal.Length 0.415755 0.009582 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
हमारा मॉडल 0.9266 के एक समायोजित आर ^ 2 मूल्य को प्राप्त करता है और पेटे.लिफ्ट चर को गुणांक मान 0.415755 प्रदान करता है।
हालांकि, सेंटीमीटर में पेटल.लिफ्ट को परिभाषित करने का विकल्प काफी मनमाना था, और हम इसके बजाय मीटर में चर को परिभाषित कर सकते थे:
iris$Petal.Length.Meters <- iris$Petal.Length / 100
summary(lm(Petal.Width~Petal.Length.Meters, data=iris))
# Call:
# lm(formula = Petal.Width ~ Petal.Length.Meters, data = iris)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.56515 -0.12358 -0.01898 0.13288 0.64272
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.36308 0.03976 -9.131 4.7e-16 ***
# Petal.Length.Meters 41.57554 0.95824 43.387 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2065 on 148 degrees of freedom
# Multiple R-squared: 0.9271, Adjusted R-squared: 0.9266
# F-statistic: 1882 on 1 and 148 DF, p-value: < 2.2e-16
बेशक, यह वास्तव में किसी भी तरह से फिट किए गए मॉडल को प्रभावित नहीं करता है - हमने केवल पेटल.लोमिट्री को 100x बड़ा गुणांक दिया है। पेटर्स (41.57554) की तुलना में हमने पेटल.लिफ्ट (0.415755) किया। मॉडल के अन्य सभी गुण (समायोजित आर ^ 2, टी-आँकड़े, पी-मान, आदि) समान हैं।
आम तौर पर जब नियमित रूप से रैखिक मॉडल को फिट किया जाता है, तो सबसे पहले चयनित तराजू के आधार पर कुछ चर के अनुकूल होने से बचने के लिए पहले चर (उदाहरण के लिए, 0 और इकाई विचरण का मतलब) को सामान्य किया जाएगा।
मान लिया गया सामान्यीकृत डेटा
यहां तक कि अगर आपने सभी चर को सामान्य किया था, तो उच्च गुणांक वाले चर अभी भी भविष्यवाणियों में उपयोगी नहीं हो सकते हैं क्योंकि स्वतंत्र चर शायद ही कभी निर्धारित होते हैं (कम विचरण होते हैं)। एक उदाहरण के रूप में, निर्भर चर Z और स्वतंत्र चर X और Y बाइनरी मान लेने वाले डेटासेट पर विचार करें
set.seed(144)
dat <- data.frame(X=rep(c(0, 1), each=50000),
Y=rep(c(0, 1), c(1000, 99000)))
dat$Z <- dat$X + 2*dat$Y + rnorm(100000)
निर्माण द्वारा, Y के लिए गुणांक लगभग X के लिए गुणांक से दोगुना होता है, जब दोनों रैखिक अभिव्यक्ति के माध्यम से Z की भविष्यवाणी करने के लिए उपयोग किए जाते हैं:
summary(lm(Z~X+Y, data=dat))
# Call:
# lm(formula = Z ~ X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.4991 -0.6749 -0.0056 0.6723 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.094793 0.031598 -3.00 0.0027 **
# X 0.999435 0.006352 157.35 <2e-16 ***
# Y 2.099410 0.031919 65.77 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.9992 on 99997 degrees of freedom
# Multiple R-squared: 0.2394, Adjusted R-squared: 0.2394
# F-statistic: 1.574e+04 on 2 and 99997 DF, p-value: < 2.2e-16
फिर भी, X, Y की तुलना में Z में भिन्नता के बारे में अधिक बताता है (X के साथ Z का अनुमान लगाने वाला रैखिक प्रतिगमन मॉडल R ^ 2 मान 0.2065 है, जबकि Y के साथ Z की भविष्यवाणी करने वाले रैखिक प्रतिगमन मॉडल का R ^ 2 मान 0.0511 है):
summary(lm(Z~X, data=dat))
# Call:
# lm(formula = Z ~ X, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.2587 -0.6759 0.0038 0.6842 4.7342
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.962629 0.004564 430.0 <2e-16 ***
# X 1.041424 0.006455 161.3 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.021 on 99998 degrees of freedom
# Multiple R-squared: 0.2065, Adjusted R-squared: 0.2065
# F-statistic: 2.603e+04 on 1 and 99998 DF, p-value: < 2.2e-16
बनाम:
summary(lm(Z~Y, data=dat))
# Call:
# lm(formula = Z ~ Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -5.0038 -0.7638 -0.0007 0.7610 5.2288
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) -0.09479 0.03529 -2.686 0.00724 **
# Y 2.60418 0.03547 73.416 < 2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.116 on 99998 degrees of freedom
# Multiple R-squared: 0.05114, Adjusted R-squared: 0.05113
# F-statistic: 5390 on 1 and 99998 DF, p-value: < 2.2e-16
मल्टी कोलिनियरिटी का मामला
एक तीसरा मामला जहां बड़े गुणांक मान हो सकते हैं धोखा दे सकता है चर के बीच महत्वपूर्ण बहु-कोलीनियरिटी के मामले में। एक उदाहरण के रूप में, एक डेटासेट पर विचार करें जहां एक्स और वाई अत्यधिक सहसंबद्ध हैं लेकिन डब्ल्यू अन्य दो से अत्यधिक सहसंबद्ध नहीं है; हम Z की भविष्यवाणी करने की कोशिश कर रहे हैं:
set.seed(144)
dat <- data.frame(W=rnorm(100000),
X=rnorm(100000))
dat$Y <- dat$X + rnorm(100000, 0, 0.001)
dat$Z <- 2*dat$W+10*dat$X-11*dat$Y + rnorm(100000)
cor(dat)
# W X Y Z
# W 1.000000e+00 5.191809e-05 5.200434e-05 0.8161636
# X 5.191809e-05 1.000000e+00 9.999995e-01 -0.4079183
# Y 5.200434e-05 9.999995e-01 1.000000e+00 -0.4079246
# Z 8.161636e-01 -4.079183e-01 -4.079246e-01 1.0000000
इन चर का बहुत अधिक मतलब (0) और भिन्नता (~ 1) है, और रैखिक प्रतिगमन एक्स (लगभग 15) और Y (मोटे तौर पर -16) की तुलना में डब्ल्यू के लिए बहुत अधिक गुणांक मान (पूर्ण मूल्य में) प्रदान करता है। लगभग 2):
summary(lm(Z~W+X+Y, data=dat))
# Call:
# lm(formula = Z ~ W + X + Y, data = dat)
#
# Residuals:
# Min 1Q Median 3Q Max
# -4.1886 -0.6760 0.0026 0.6679 4.2232
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1.831e-04 3.170e-03 0.058 0.954
# W 2.001e+00 3.172e-03 630.811 < 2e-16 ***
# X 1.509e+01 3.177e+00 4.748 2.05e-06 ***
# Y -1.609e+01 3.177e+00 -5.063 4.13e-07 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.002 on 99996 degrees of freedom
# Multiple R-squared: 0.8326, Adjusted R-squared: 0.8326
# F-statistic: 1.658e+05 on 3 and 99996 DF, p-value: < 2.2e-16
फिर भी, मॉडल डब्ल्यू में तीन चर के बीच सबसे महत्वपूर्ण है: यदि आप डब्ल्यू को पूर्ण मॉडल से हटाते हैं, तो आर ^ 2 0.833 से 0.166 तक गिरता है, जबकि यदि आप एक्स या वाई आर 2 छोड़ते हैं तो लगभग अपरिवर्तित है।