इसके कारण स्वतंत्र चर के बीच बहुत कम सहसंबंध होता है।
यह देखने के लिए कि, निम्नलिखित प्रयास करें:
गुणांक iid मानक सामान्य के साथ दस वैक्टर के 50 सेट बनाएं ।(x1,x2,…,x10)
कंप्यूट के लिएमैं=1,2,...,9। इस बनाता हैyमैंव्यक्तिगत रूप से मानक सामान्य लेकिन उनमें कुछ सह-संबंध के साथ।yi=(xi+xi+1)/2–√i=1,2,…,9yi
कंप्यूट । ध्यान दें कि डब्ल्यू = √w=x1+x2+⋯+x10।w=2–√(y1+y3+y5+y7+y9)
लिए कुछ सामान्य रूप से वितरित त्रुटि जोड़ें । एक छोटे से प्रयोग के साथ मुझे लगता है कि पाया जेड = w + ε साथ ε ~ एन ( 0 , 6 ) बहुत अच्छी तरह से काम करता है। इस प्रकार, जेड का योग है एक्स मैं प्लस कुछ त्रुटि। यह भी का योग है में से कुछ y मैं प्लस एक ही त्रुटि।wz= w + εε ~ एन( 0 , 6 )zएक्समैंyमैं
हम विचार करेंगे स्वतंत्र चर और होना करने के लिए जेड निर्भर चर।yमैंz
इस तरह के एक डेटासेट का एक मैट्रिक्स है, जो शीर्ष और बाईं ओर साथ है और y i क्रम में आगे बढ़ रहा है।zyमैं
के बीच की उम्मीद सहसंबंध और y ञ हैं 1 / 2 जब | मैं - जे | = 1 और 0 अन्यथा। एहसास सहसंबंध 62% तक होता है। वे विकर्ण के बगल में तंग तितर बितर के रूप में दिखाते हैं।yमैंyजे1 / 2| मैं-जे | =10
के प्रतिगमन को देखो के खिलाफ y मैं :zyमैं
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
एफ आँकड़ा अत्यधिक महत्वपूर्ण है लेकिन स्वतंत्र चर में से कोई भी नहीं है, यहां तक कि उन सभी 9 के लिए किसी भी समायोजन के बिना।
zyमैं
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
इनमें से कुछ वैरिएबल अत्यधिक महत्वपूर्ण हैं, यहां तक कि एक बोनफेरोनी समायोजन के साथ भी। (इन परिणामों को देखकर बहुत कुछ कहा जा सकता है, लेकिन यह हमें मुख्य बिंदु से दूर ले जाएगा।)
zy2, वाई4, वाई6, वाई8z
yमैं
एक निष्कर्ष हम इससे आकर्षित कर सकते हैं कि जब बहुत से चर एक मॉडल में शामिल किए जाते हैं तो वे वास्तव में महत्वपूर्ण लोगों को मुखौटा बना सकते हैं। इसका पहला संकेत व्यक्तिगत गुणांक के लिए अत्यधिक-महत्वपूर्ण टी-परीक्षण के साथ अत्यधिक महत्वपूर्ण समग्र एफ स्टेटिस्टिक है। (यहां तक कि जब कुछ चर व्यक्तिगत रूप से महत्वपूर्ण होते हैं, तो इसका मतलब यह नहीं है कि दूसरे लोग नहीं हैं। यह स्टेपवाइज रिग्रेशन रणनीतियों के बुनियादी दोषों में से एक है: वे इस मास्किंग समस्या के शिकार होते हैं।) संयोग से, प्रसरण मुद्रास्फीति कारक।4.79 के औसत के साथ 2.55 से 6.09 के पहले प्रतिगमन रेंज में: अंगूठे के सबसे रूढ़िवादी नियमों के अनुसार बस कुछ बहुसंस्कृति का निदान करने की सीमा पर; अन्य नियमों के अनुसार थ्रेशोल्ड के नीचे (जहां 10 एक ऊपरी कटऑफ है)।