रिग्रेशन सही करने के लिए भविष्यवाणियों का चयन करने के लिए सहसंबंध मैट्रिक्स का उपयोग कर रहा है?


17

कुछ दिनों पहले, मेरे एक मनोवैज्ञानिक-शोधकर्ता ने मुझे रैखिक प्रतिगमन मॉडल के चर का चयन करने की अपनी विधि के बारे में बताया। मुझे लगता है कि यह अच्छा नहीं है, लेकिन मुझे यह सुनिश्चित करने के लिए किसी और से पूछने की आवश्यकता है। विधि है:

सभी चर के बीच सहसंबंध मैट्रिक्स को देखें (निर्भर वैरिएबल वाई सहित) और उन भविष्यवक्ताओं एक्स को चुनें, जो वाई के साथ सबसे अधिक सहसंबंध रखते हैं।

उन्होंने किसी भी कसौटी का उल्लेख नहीं किया। प्रश्न: क्या वह सही था?

[मुझे लगता है कि यह चयन पद्धति गलत है, क्योंकि कई चीजें हैं, जैसे कि यह सिद्धांत है जो कहता है कि भविष्यवक्ताओं का चयन किया जाना चाहिए, या यहां तक ​​कि चर चर (ओवीबी) को छोड़ दिया जाना चाहिए।]


मैं शीर्षक बदलने का सुझाव दूंगा "क्या सहसंबंध मैट्रिक्स का उपयोग प्रतिगमन सही के लिए भविष्यवाणियों का चयन करना है?" या अधिक जानकारीपूर्ण होने के लिए समान है। आपके प्रश्न का एक सरल प्रतिसाद एक ऐसा चर है जिस पर निर्भर चर के साथ 1 का सहसंबंध है - आप शायद अपने मॉडल में इस एक का उपयोग करना पसंद नहीं करेंगे।
टिम

3
विधि के लिए कुछ तर्क हैं, लेकिन यह केवल तभी काम करता है जब आप एक प्रतिगामी को चुनने के लिए प्रतिबंधित हों। यदि आप कुछ का चयन कर सकते हैं, तो यह विधि टूट जाती है। ऐसा इसलिए है क्योंकि कुछ एक्स के एक रैखिक संयोजन जो केवल वाई के साथ कमजोर रूप से सहसंबंधित हैं, कुछ एक्स के रैखिक संयोजन की तुलना में वाई के साथ एक बड़ा सहसंबंध हो सकता है जो वाई के साथ दृढ़ता से सहसंबद्ध हैं। याद रखें कि कई प्रतिगमन रैखिक संयोजन के बारे में हैं, न कि केवल व्यक्तिगत। प्रभाव ...
रिचर्ड हार्डी

1
सहसंबंध केवल मानकीकृत प्रतिगमन ढलान है
ρX,Y=Cov(X,Y)σXσY
एक स्वतंत्र चर के साथ सरल प्रतिगमन के लिए एक्स । तो यह दृष्टिकोण आपको ढलान पैरामीटर के लिए सबसे बड़े मूल्य के साथ स्वतंत्र चर खोजने की अनुमति देता है, लेकिन यह कई स्वतंत्र चर के साथ अधिक जटिल हो जाता है।
β^1=Cov(X,Y)σX
टिम

2
ये उत्तर इस 'विधि' के बारे में मेरे विचार की पुष्टि करते हैं, फिर भी कई मनोवैज्ञानिक इस प्रकार के परिवर्तनशील चयन का उपयोग करते हैं :(
लीलॉस्टर

यह 'लीकासो' जैसा लगता है ।
स्टीवे'ओमेरिका

जवाबों:


17

यदि, किसी कारण से, आप अपने मॉडल में केवल एक चर को शामिल करने जा रहे हैं, तो उस पूर्वानुमानक का चयन करें जिसके साथ उच्चतम सहसंबंध है है, के कई फायदे हैं। केवल एक भविष्यवक्ता के साथ संभावित प्रतिगमन मॉडल में से, यह मॉडल उच्चतममानकीकृत प्रतिगमन गुणांक केसाथ एक हैऔर यह भी (चूंकि आर 2 एक साधारण रेखीय प्रतिगमन में r का वर्ग है)निर्धारण काउच्चतमगुणांक हैyR2r

लेकिन यह स्पष्ट नहीं है कि आप अपने प्रतिगमन मॉडल को एक भविष्यवक्ता तक सीमित करना चाहते हैं यदि आपके पास कई के लिए डेटा उपलब्ध है। जैसा कि टिप्पणियों में उल्लेख किया गया है, यदि आपके मॉडल में कई चर शामिल हो सकते हैं, तो केवल सहसंबंधों को देखना काम नहीं करता है। उदाहरण के लिए, इस तितर बितर मैट्रिक्स से, आप सोच सकते हैं कि आपके मॉडल में शामिल किए जाने वाले लिए पूर्वसूचक x हैंy (सहसंबंध 0.824) और x 2 (सहसंबंध 0.782) हैं, लेकिन वह x 3 (सहसंबंध 0.134) एक उपयोगी भविष्यवक्ता नहीं है।x1x2x3

Scatter plot matrix of correlated variables

लेकिन आप गलत होंगे - वास्तव में इस उदाहरण में, दो स्वतंत्र चर x 1 और x 3 पर निर्भर करता है , लेकिन सीधे x 2 पर नहीं । हालाँकि x 2 x 1 के साथ अत्यधिक सहसंबद्ध है , जो y के साथ सहसंबंध की ओर भी ले जाता है । अलगाव में y और x 2 के बीच संबंध को देखते हुए , यह सुझाव दे सकता है कि x 2 एक अच्छा भविष्यवक्ता हैyx1x3x2x2x1yyx2x2। लेकिन एक बार के प्रभाव एक्स 1 कर रहे हैंबाहर partialledशामिल करके एक्स 1yx1x1 मॉडल में, ऐसा कोई संबंध नहीं रहता है।

require(MASS) #for mvrnorm 
set.seed(42) #so reproduces same result

Sigma <- matrix(c(1,0.95,0,0.95,1,0,0,0,1),3,3)
N <- 1e4
x <- mvrnorm(n=N, c(0,0,0), Sigma, empirical=TRUE)
data.df <- data.frame(x1=x[,1], x2=x[,2], x3=x[,3])
# y depends on x1 strongly and x3 weakly, but not directly on x2
data.df$y <- with(data.df, 5 + 3*x1 + 0.5*x3) + rnorm(N, sd=2)

round(cor(data.df), 3)
#       x1    x2    x3     y
# x1 1.000 0.950 0.000 0.824
# x2 0.950 1.000 0.000 0.782
# x3 0.000 0.000 1.000 0.134
# y  0.824 0.782 0.134 1.000
# Note: x1 and x2 are highly correlated
# Since y is highly correlated with x1, it is with x2 too
# y depended only weakly on x3, their correlation is much lower

pairs(~y+x1+x2+x3,data=data.df, main="Scatterplot matrix")
# produces scatter plot above

model.lm <- lm(data=data.df, y ~ x1 + x2 + x3)
summary(model.lm)

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  4.99599    0.02018 247.631   <2e-16 ***
# x1           3.03724    0.06462  47.005   <2e-16 ***
# x2          -0.02436    0.06462  -0.377    0.706    
# x3           0.49185    0.02018  24.378   <2e-16 ***

x1x2x2x1x3x3

और यहाँ एक उदाहरण है जो और भी बदतर है:

Sigma <- matrix(c(1,0,0,0.5,0,1,0,0.5,0,0,1,0.5,0.5,0.5,0.5,1),4,4)
N <- 1e4
x <- mvrnorm(n=N, c(0,0,0,0), Sigma, empirical=TRUE)
data.df <- data.frame(x1=x[,1], x2=x[,2], x3=x[,3], x4=x[,4])
# y depends on x1, x2 and x3 but not directly on x4
data.df$y <- with(data.df, 5 + x1 + x2 + x3) + rnorm(N, sd=2)

round(cor(data.df), 3)
#       x1    x2    x3    x4     y
# x1 1.000 0.000 0.000 0.500 0.387
# x2 0.000 1.000 0.000 0.500 0.391
# x3 0.000 0.000 1.000 0.500 0.378
# x4 0.500 0.500 0.500 1.000 0.583
# y  0.387 0.391 0.378 0.583 1.000

pairs(~y+x1+x2+x3+x4,data=data.df, main="Scatterplot matrix")

model.lm <- lm(data=data.df, y ~ x1 + x2 + x3 +x4)
summary(model.lm)
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  4.98117    0.01979 251.682   <2e-16 ***
# x1           0.99874    0.02799  35.681   <2e-16 ***
# x2           1.00812    0.02799  36.016   <2e-16 ***
# x3           0.97302    0.02799  34.762   <2e-16 ***
# x4           0.06002    0.03958   1.516    0.129

yx1x2x3x4x1x2x3x4yy वास्तव में उस चर को पा सकते हैं जो मॉडल में बिल्कुल भी नहीं है।


लेकिन ... क्या यह सब सोच स्थिति पर लागू होता है, जब यह 'साथी मनोवैज्ञानिक' चुनता है - कहते हैं - 10 में से 4 चर Xs, जो कि Y के साथ अत्यधिक सहसंबंधी हैं (सहसंबंध coefs <0.7), छह अन्य X को छोड़कर जो मामूली रूप से सहसंबद्ध हैं या नहीं Y के साथ इतना?
Lil'Lobster

1
y

0

आप एक चरण-वार प्रतिगमन विश्लेषण चला सकते हैं और सॉफ्टवेयर को F मानों के आधार पर चर का चयन करने दें। जब आप प्रति बार प्रतिगमन चलाते हैं, तो यह देखने के लिए कि आप अपने मॉडल में किसी भी नए चर को जोड़ते हैं या नहीं, आप समायोजित R ^ 2 मान को भी देख सकते हैं। यदि आप अभी सहसंबंध मैट्रिक्स से चलते हैं और मजबूत सहसंबंध वाले चर चुनते हैं, तो आपके मॉडल में मल्टीकोलिनरिटी की समस्या हो सकती है। उम्मीद है की यह मदद करेगा!


6
ओपी द्वारा वर्णित विधि के रूप में स्टेपवाइज चयन से वही समस्याएं होती हैं: stata.com/support/faqs/statistics/stepwise-regression-problems यह भी ध्यान दें कि प्रश्न इस निश्चित पद्धति के बारे में था न कि वैकल्पिक तरीकों की तलाश के बारे में।
टिम

2
यह मॉडल चयन के लिए एक बहुत ही मूल तरीका है - यदि आपका लक्ष्य सख्ती से विचरण की व्याख्या करता है, तो R2 का उपयोग करते हुए स्टेप वाइज उपयुक्त हो सकता है, लेकिन यदि आप अनुमान, भविष्यवाणी, परिकल्पना परीक्षण आदि में रुचि रखते हैं, तो आपको R2 से आगे का रास्ता सोचने की आवश्यकता है। (और शायद R2 को भी अनदेखा करें)।
रोबिन.डाटड्राइवर्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.