सार
जब भविष्यवाणियों को सहसंबद्ध किया जाता है, तो एक द्विघात शब्द और एक इंटरैक्शन शब्द समान जानकारी ले जाएगा। यह या तो द्विघात मॉडल या इंटरैक्शन मॉडल को महत्वपूर्ण बना सकता है; लेकिन जब दोनों शब्द शामिल किए जाते हैं, क्योंकि वे समान होते हैं और न ही महत्वपूर्ण हो सकते हैं। मल्टीफ़ॉलिनैरिटी के लिए मानक निदान, जैसे कि वीआईएफ, इस में से किसी का भी पता लगाने में विफल हो सकता है। यहां तक कि एक नैदानिक साजिश, विशेष रूप से बातचीत के स्थान पर एक द्विघात मॉडल का उपयोग करने के प्रभाव का पता लगाने के लिए डिज़ाइन किया गया, यह निर्धारित करने में विफल हो सकता है कि कौन सा मॉडल सबसे अच्छा है।
विश्लेषण
इस विश्लेषण का जोर, और इसकी मुख्य ताकत, प्रश्न में वर्णित स्थितियों की तरह लक्षण वर्णन करना है। इस तरह के लक्षण वर्णन के साथ यह तब व्यवहार करने वाले डेटा को अनुकरण करने के लिए एक आसान काम है।
दो भविष्यवाणियों पर विचार करें और X 2 (जो हम स्वचालित रूप से मानकीकृत करेंगे ताकि प्रत्येक का डेटासेट में इकाई विचरण हो) और मान लें कि यादृच्छिक उत्तर Y इन भविष्यवक्ताओं द्वारा निर्धारित किया गया है और उनकी सहभागिता और स्वतंत्र यादृच्छिक त्रुटि:X1X2Y
Y=β1X1+β2X2+β1,2X1X2+ε.
कई मामलों में भविष्यवाणियों को सहसंबद्ध किया जाता है। डेटासेट इस तरह दिख सकता है:
ये नमूना डेटा के साथ उत्पन्न किया गया और बीटा 1 , 2 = 0.1 । के बीच संबंध एक्स 1 और एक्स 2 है 0.85 ।β1=β2=1β1,2=0.1X1X20.85
यह जरूरी नहीं है कि हम और X 2 को यादृच्छिक चर के बोध के रूप में सोच रहे हैं : इसमें वह स्थिति शामिल हो सकती है जहां X 1 और X 2 दोनों एक डिजाइन किए गए प्रयोग में सेटिंग्स हैं, लेकिन किसी कारण से ये सेटिंग्स ओर्थोगोनल नहीं हैं।X1X2X1X2
भले ही सहसंबंध कैसे उत्पन्न होता है, इसका वर्णन करने का एक अच्छा तरीका यह है कि भविष्यवक्ता उनके औसत से कितना अलग हैं, । ये अंतर काफी छोटे होंगे (इस अर्थ में कि उनका विचरण 1 से कम है ); X 1 और X 2 के बीच अधिक से अधिक सहसंबंध , ये अंतर जितने छोटे होंगे। लेखन, फिर, एक्स 1 = एक्स 0 + δ 1 और एक्स 2 = एक्स 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1 , हम कर सकते हैं फिर से व्यक्त (माना) एक्स 2 के मामले में एक्स 1 के रूप में एक्स 2 = एक्स 1 + ( δ 2 - δ 1 ) । इसेकेवलइंटरेक्शनटर्ममें प्लग करना, मॉडल हैX2=X0+δ2X2X1X2=X1+(δ2−δ1)
Y=β1X1+β2X2+β1,2X1(X1+[δ2−δ1])+ε=(β1+β1,2[δ2−δ1])X1+β2X2+β1,2X21+ε
के मूल्यों प्रदान की अलग-अलग हो केवल एक छोटे से की तुलना में थोड़ा बीटा 1 , हम सच यादृच्छिक शर्तों से इस बदलाव इकट्ठा कर सकते हैं, लेखनβ1,2[δ2−δ1]β1
Y=β1X1+β2X2+β1,2X21+(ε+β1,2[δ2−δ1]X1)
इस प्रकार, यदि हम X 1 , X 2 , और X 2 1 के विरुद्ध को पुनः प्राप्त करते हैं, तो हम एक त्रुटि करेंगे: अवशिष्ट में भिन्नता X 1 पर निर्भर करेगी (अर्थात यह विषमलैंगिक होगा )। इसे सरल विचरण गणना के साथ देखा जा सकता है:YX1,X2X21X1
var(ε+β1,2[δ2−δ1]X1)=var(ε)+[β21,2var(δ2−δ1)]X21.
हालांकि, अगर में ठेठ भिन्नता काफी हद तक में ठेठ भिन्नता से अधिक β 1 , 2 [ δ 2 - δ 1 ] एक्स 1 , कि heteroscedasticity हो जाएगा तो कम के रूप में undetectable होने के लिए (और एक अच्छा मॉडल उपज चाहिए)। (जैसा कि नीचे दिखाया गया है, प्रतिगमन मान्यताओं के इस उल्लंघन को देखने का एक तरीका यह है कि एक्स 1 के पूर्ण मूल्य के खिलाफ अवशिष्टों के निरपेक्ष मान की साजिश की जाए - यदि आवश्यक हो तो एक्स 1 को मानकीकृत करने के लिए पहले इकट्ठा करें ।) यह वह लक्षण है जो हम चाहते थे। ।εβ1,2[δ2−δ1]X1X1X1
यह याद रखना कि और X 2 को इकाई विचरण के लिए मानकीकृत माना गया था, इसका मतलब है कि δ 2 - δ 1 का विचरण अपेक्षाकृत छोटा होगा। मनाया व्यवहार को पुनः करने के लिए, तो, इसके लिए एक छोटा सा निरपेक्ष मान लेने के लिए पर्याप्त होना चाहिए β 1 , 2 , लेकिन यह बड़ा पर्याप्त बनाने के (या एक बड़ा पर्याप्त डाटासेट का उपयोग करें) इतना है कि यह महत्वपूर्ण हो जाएगा।X1X2δ2−δ1β1,2
संक्षेप में, जब भविष्यवक्ता सहसंबद्ध होते हैं और अंतःक्रिया छोटी होती है लेकिन बहुत छोटी नहीं होती है, तो द्विघात शब्द (अकेले या भविष्यवक्ता में) और एक संवादात्मक शब्द एक दूसरे के साथ व्यक्तिगत रूप से महत्वपूर्ण लेकिन भ्रमित होते हैं। सांख्यिकीय तरीके अकेले हमें यह तय करने में मदद करने की संभावना नहीं रखते हैं कि कौन सा उपयोग करना बेहतर है।
उदाहरण
चलो कई मॉडल फिटिंग करके नमूना डेटा के साथ इसे देखें। याद रखें कि इन डेटा का अनुकरण करते समय को 0.1 पर सेट किया गया था । हालांकि यह छोटा है (पिछले बिखरावों में द्विघात व्यवहार भी दिखाई नहीं देता है), 150 डेटा बिंदुओं के साथ हमारे पास इसका पता लगाने का एक मौका है।β1,20.1150
सबसे पहले, द्विघात मॉडल :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03363 0.03046 1.104 0.27130
x1 0.92188 0.04081 22.592 < 2e-16 ***
x2 1.05208 0.04085 25.756 < 2e-16 ***
I(x1^2) 0.06776 0.02157 3.141 0.00204 **
Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808
0.068β1,2=0.1
x1 x2 I(x1^2)
3.531167 3.538512 1.009199
5
अगला, एक बातचीत के साथ मॉडल लेकिन कोई द्विघात शब्द:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02887 0.02975 0.97 0.333420
x1 0.93157 0.04036 23.08 < 2e-16 ***
x2 1.04580 0.04039 25.89 < 2e-16 ***
x1:x2 0.08581 0.02451 3.50 0.000617 ***
Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811
x1 x2 x1:x2
3.506569 3.512599 1.004566
सभी परिणाम पिछले वाले के समान हैं। दोनों समान रूप से अच्छे हैं (इंटरैक्शन मॉडल के लिए बहुत छोटे लाभ के साथ)।
अंत में, आइए बातचीत और द्विघात दोनों को शामिल करें :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02572 0.03074 0.837 0.404
x1 0.92911 0.04088 22.729 <2e-16 ***
x2 1.04771 0.04075 25.710 <2e-16 ***
I(x1^2) 0.01677 0.03926 0.427 0.670
x1:x2 0.06973 0.04495 1.551 0.123
Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981
x1 x2 I(x1^2) x1:x2
3.577700 3.555465 3.374533 3.359040
X1X2X21X1X2
यदि हमने द्विघात मॉडल (पहले एक) में विषमलैंगिकता का पता लगाने की कोशिश की थी, तो हम निराश होंगे:
|X1|