मल्टीकोलिनरिटी जब व्यक्तिगत प्रतिगमन महत्वपूर्ण होते हैं, लेकिन वीआईएफ कम होते हैं


13

मेरे पास 6 चर ( ) हैं जिनका उपयोग मैं भविष्यवाणी करने के लिए कर रहा हूं । अपना डेटा विश्लेषण करते समय, मैंने पहली बार कई रैखिक प्रतिगमन की कोशिश की। इसमें से केवल दो चर महत्वपूर्ण थे। हालाँकि, जब मैंने प्रत्येक चर की व्यक्तिगत रूप से से तुलना करते हुए एक रेखीय प्रतिगमन चलाया , लेकिन सभी महत्वपूर्ण थे ( 0.01 से कम 0.001 से कम तक कहीं भी)। यह सुझाव दिया गया था कि यह बहुरंगीता के कारण था। y y px1...x6yyp

इस पर मेरा प्रारंभिक शोध वीआईएफ का उपयोग करके मल्टीकोलिनरिटी के लिए जाँच का सुझाव देता है । मैंने आर से उपयुक्त पैकेज डाउनलोड किया, और परिणामी VIF के साथ समाप्त हुआ: 3.35, 3.59, 2.64, 2.24, और 5.56। ऑनलाइन विभिन्न स्रोतों के अनुसार, जिस बिंदु पर आपको अपने VIF के साथ बहुरंगीता के बारे में चिंतित होना चाहिए, वह 4 या 5 पर है।

मैं अब इस बारे में स्तब्ध हूं कि मेरे डेटा के लिए इसका क्या मतलब है। क्या मुझे मल्टीकोलिनरिटी की समस्या है या नहीं? अगर मैं करता हूं, तो मुझे कैसे आगे बढ़ना चाहिए? (मैं अधिक डेटा एकत्र नहीं कर सकता, और चर एक मॉडल का हिस्सा हैं जो स्पष्ट रूप से संबंधित नहीं हैं) अगर मुझे यह समस्या नहीं है, तो मुझे अपने डेटा से क्या लेना चाहिए, विशेष रूप से इस तथ्य से कि ये चर अत्यधिक महत्वपूर्ण हैं संयुक्त रूप से व्यक्तिगत रूप से, लेकिन महत्वपूर्ण नहीं।

संपादित करें: डेटासेट के संबंध में कुछ प्रश्न पूछे गए हैं, और इसलिए मैं विस्तार करना चाहूंगा ...

इस विशेष मामले में, हम यह समझने की कोशिश कर रहे हैं कि विशिष्ट सामाजिक संकेत (हावभाव, टकटकी इत्यादि) किसी अन्य व्यक्ति द्वारा किसी अन्य क्यू का उत्पादन करने की संभावना को कैसे प्रभावित करते हैं। हम अपने मॉडल को सभी महत्वपूर्ण विशेषताओं को शामिल करना चाहते हैं, इसलिए मुझे लगता है कि कुछ अनावश्यक को हटाने में असहज हूं।

अभी इसके साथ कोई परिकल्पना नहीं हैं। इसके बजाय, समस्या अनसुनी है, और हम इस बात की बेहतर समझ हासिल करना चाहते हैं कि क्या विशेषताएँ महत्वपूर्ण हैं। जहाँ तक मैं बता सकता हूँ, इन विशेषताओं को एक दूसरे से अपेक्षाकृत स्वतंत्र होना चाहिए (आप केवल यह नहीं कह सकते कि टकटकी और इशारे एक ही हैं, या दूसरे का सबसेट)। सब कुछ के लिए पी मूल्यों की रिपोर्ट करने में सक्षम होना अच्छा होगा, क्योंकि हम अन्य शोधकर्ताओं को यह समझना चाहेंगे कि क्या देखा गया है।

संपादित करें 2: चूँकि यह कहीं नीचे आया था, मेरा 24 है।n


मान लें कि आपके पास मल्टीकोलिनरिटी है, तो क्या आप विस्तार कर सकते हैं, जैसा कि मॉडल के इच्छित उद्देश्य पर @ rolando2 बताता है? क्या यह मामला है कि सभी भविष्यवक्ता अन्य जांचकर्ताओं के लिए महत्वपूर्ण हैं (जिस स्थिति में आप उनमें से प्रत्येक के लिए महत्व के स्तर की रिपोर्ट करना चाहते हैं), या क्या आप उनमें से एक या दो को बाहर निकाल सकते हैं?

@jlovegren मैंने ऊपर कुछ जानकारी जोड़ी - अगर आपको अधिक जानकारी चाहिए तो मुझे बताएं।
cryptic_star

क्या व्याख्यात्मक चर निरंतर पैमाने पर मापा जाता है? उस मामले में, अवशिष्ट बनाने के तरीके हैं जो बहुत मुश्किल नहीं हैं। यदि वे स्पष्ट हैं, तो मुझे नहीं पता, लेकिन मुझे आशा है कि कोई और होगा (मैंने इस साइट पर एक समान प्रश्न पूछा है )।

@jlovegren छह चर में से पांच की गिनती होती है।
cryptic_star

एक और बात, बस यकीन है। क्या मायने रखता है कि एक ऊपरी ऊपरी सीमा है जो अक्सर हासिल की जाती है, या अगर सिद्धांत में बिना गिनती के अधिकतम मूल्य है?

जवाबों:


18

यह समझने के लिए कि क्या चल सकता है, यह वर्णित (और विश्लेषण) डेटा उत्पन्न करने के लिए है जो वर्णित तरीके से व्यवहार करता है।

सरलता के लिए, हम उस छठे स्वतंत्र चर के बारे में भूल जाते हैं। तो, सवाल पांच स्वतंत्र चर विरुद्ध एक आश्रित चर प्रतिगमन का वर्णन करता है , जिसमेंx 1 , x 2 , x 3 , x 4 , x 5yx1,x2,x3,x4,x5

  • प्रत्येक साधारण प्रतिगमन से से कम के स्तर पर महत्वपूर्ण है । 0.01 0.001yxi0.010.001

  • एकाधिक प्रतिगमन महत्वपूर्ण गुणांक केवल और ।एक्स 1 एक्स 2yx1++x5x1x2

  • सभी विचरण मुद्रास्फीति कारक (VIF) कम होते हैं, जो डिज़ाइन मैट्रिक्स में अच्छी कंडीशनिंग का संकेत देते हैं (अर्थात, बीच समरूपता की कमी है )।xi

आइए इसे इस प्रकार बनाते हैं:

  1. उत्पन्न के लिए सामान्य रूप से वितरित मूल्यों और । (हम बाद में चुनेंगे ।)x 1 x 2 nnx1x2n

  2. आज्ञा दें जहां मतलब की स्वतंत्र सामान्य त्रुटि है । लिए एक उपयुक्त मानक विचलन खोजने के लिए कुछ परीक्षण और त्रुटि की आवश्यकता होती है ; ठीक काम करता है (और नहीं बल्कि नाटकीय है: है बेहद अच्छी तरह से साथ सहसंबद्ध और , भले ही यह केवल मामूली साथ जोड़ा जाता है और व्यक्तिगत रूप से)।ε 0 ε 1 / 100 y एक्स 1 एक्स 2 एक्स 1 एक्स 2y=x1+x2+εε0ε1/100yx1x2x1x2

  3. आज्ञा दें = , , जहां स्वतंत्र मानक सामान्य त्रुटि है। यह केवल पर थोड़ा निर्भर करता है । हालांकि, और बीच तंग सहसंबंध के माध्यम से , यह और इन बीच एक छोटे से सहसंबंध को प्रेरित करता है ।एक्स 1 / 5 + δ j = 3 , 4 , 5 δ एक्स 3 , x 4 , x 5 x 1 x 1 y y एक्स जेxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

यहाँ रगड़ना है: अगर हम पर्याप्त रूप से बड़ा बनाते हैं , तो इन मामूली सहसंबंधों के परिणामस्वरूप महत्वपूर्ण गुणांक होंगे, हालांकि केवल पहले दो चर द्वारा को लगभग पूरी तरह से "समझाया गया" है।वाईny

मैंने पाया कि रिपोर्ट किए गए पी-वैल्यू को पुन: पेश करने के लिए ठीक काम करता है। यहाँ सभी छह चर का एक स्कैप्लॉट मैट्रिक्स दिया गया है:n=500

एसपीएम

सही कॉलम (या नीचे पंक्ति) का निरीक्षण करके आप देख सकते हैं कि में और साथ एक अच्छा (सकारात्मक) सहसंबंध है लेकिन अन्य चर के साथ थोड़ा स्पष्ट सहसंबंध है। इस मैट्रिक्स के बाकी का निरीक्षण करके, आप देख सकते हैं कि स्वतंत्र चरों परस्पर प्रतीत असहसंबद्ध (यादृच्छिक बहुत कुछ नहीं है - कोई असाधारण डेटा कर रहे हैं छोटे निर्भरता हम जानते हैं कि देखते हैं मुखौटा।) उच्च लाभ उठाने के साथ या। हिस्टोग्राम्स बताते हैं कि सभी छह चर लगभग सामान्य रूप से वितरित किए जाते हैं, वैसे: ये डेटा सामान्य और "सादे वेनिला" के रूप में हैं, जो संभवतः चाहते हैं।x 1 x 2 x 1 , ... , एक्स 5 δyx1x2x1,,x5δ

के प्रतिगमन में के खिलाफ और , पी-मूल्यों अनिवार्य रूप से 0. के अलग-अलग प्रतिगमन में हैं के खिलाफ , तो के खिलाफ , और के खिलाफ , पी-मूल्यों 0.0024, 0.0083, और .००,०६४ क्रमशः : अर्थात्, वे "अत्यधिक महत्वपूर्ण हैं।" लेकिन पूर्ण एकाधिक प्रतिगमन में, संबंधित p- मान क्रमशः .46, .36, और .52 तक बढ़ते हैं: बिल्कुल भी महत्वपूर्ण नहीं है। इसका कारण यह है कि एक बार को और विरुद्ध प्राप्त कर लिया गया हैyx1x2yx3yx4yx5yx1x2, केवल "समझाना" के लिए छोड़ा गया सामान अवशिष्ट में त्रुटि की छोटी मात्रा है, जो अनुमानित , और यह त्रुटि शेष से लगभग पूरी तरह से असंबंधित है । ("लगभग" सही है: इस तथ्य से प्रेरित एक बहुत छोटा संबंध है कि अवशेषों को और और के मूल्यों से भाग में गणना की गई थी , , के लिए कुछ कमजोर संबंध हैं और । यह अवशिष्ट संबंध व्यावहारिक रूप से , हालांकि, जैसा कि हमने देखा।)εxix1x2xii=3,4,5x1x2

डिज़ाइन मैट्रिक्स की कंडीशनिंग संख्या केवल 2.17 है: यह बहुत कम है, जो उच्च मल्टीकोलिनरिटी का कोई संकेत नहीं दिखाता है (कुलीनता की पूर्ण कमी 1 की कंडीशनिंग संख्या में परिलक्षित होगी, लेकिन व्यवहार में यह केवल कृत्रिम और डिज़ाइन किए गए प्रयोगों के साथ देखा जाता है। 1-6 की श्रेणी में कंडीशनिंग संख्या (या इससे भी अधिक, अधिक चर के साथ) बेहद अचूक हैं। यह अनुकरण पूरा करता है: इसने समस्या के हर पहलू को सफलतापूर्वक पुन: पेश किया है।

इस विश्लेषण प्रस्ताव में महत्वपूर्ण अंतर्दृष्टि शामिल हैं

  1. पी-वैल्यू कोलीनिटी के बारे में सीधे हमें कुछ नहीं बताते हैं। वे डेटा की मात्रा पर दृढ़ता से निर्भर करते हैं।

  2. कई रजिस्ट्रियों में पी-वैल्यू और संबंधित रिग्रेशन में पी-वैल्यू के बीच संबंध (स्वतंत्र चर के उपसमुच्चय) जटिल और आमतौर पर अप्रत्याशित हैं।

नतीजतन, जैसा कि दूसरों ने तर्क दिया है, पी-मानों को मॉडल चयन के लिए आपका एकमात्र मार्गदर्शक (या यहां तक ​​कि आपका प्रमुख मार्गदर्शक) नहीं होना चाहिए।


संपादित करें

इन घटनाओं को प्रदर्शित होने के लिए लिए जितना बड़ा होना आवश्यक नहीं है । 500n500 प्रश्न में अतिरिक्त जानकारी से प्रेरित होकर, निम्नलिखित एक डाटासेट के साथ इसी तरह से निर्माण किया है (इस मामले में के लिए )। यह और बीच 0.38 से 0.73 के सहसंबंध बनाता है । डिज़ाइन मैट्रिक्स की स्थिति संख्या 9.05 है: थोड़ा अधिक है, लेकिन भयानक नहीं है। ( अंगूठे के कुछ नियम कहते हैं कि 10 तक संख्याएँ ठीक हैं।) विरुद्ध व्यक्तिगत प्रतिगमन केएक्स जे = 0.4 x 1 + 0.4 एक्स 2 + δ j = 3 , 4 , 5 एक्स 1 - 2 एक्स 3 - 5 एक्स 3 , x 4 , x 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35x3,x4,x50.002, 0.015 और 0.008: अत्यधिक महत्वपूर्ण हैं। इस प्रकार, कुछ बहुस्तरीयता शामिल है, लेकिन यह इतनी बड़ी नहीं है कि कोई इसे बदलने के लिए काम करे। मूल अंतर्दृष्टि एक ही रहती है : महत्व और बहुरूपता अलग-अलग चीजें हैं; केवल हल्के गणितीय बाधाओं के बीच पकड़; और यह एक एकल चर के समावेश या बहिष्कार के लिए भी संभव है, गंभीर बहुसांस्कृतिकता के बिना सभी पी-मूल्यों पर गहरा प्रभाव पड़ता है।

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

यह देखते हुए कि मैं इन चरों के बीच संबंधों को समझाने और y की भविष्यवाणी करने में उनके महत्व पर काम कर रहा हूं, क्या कोलीनियरिटी की कमी मुझे अनिवार्य रूप से बताती है कि प्रारंभिक कई रैखिक प्रतिगमन ने मुझे क्या बताया: केवल दो चर महत्वपूर्ण हैं? यदि चरों ने संपार्श्विकता दिखाई, तो क्या इसका अर्थ यह होगा कि कई महत्वपूर्ण हैं, लेकिन समान जानकारी प्रदान करते हैं? कृपया मुझे बताएं कि क्या मुझे पूरी तरह से याद आ रही है - मैं किसी भी तरह से एक विशेषज्ञ विशेषज्ञ नहीं हूं।
cryptic_star

ओह, और मैं इसे अपने मूल पोस्ट में जोड़ दूंगा, लेकिन मेरा एन 24 है (मानव विषय काम करते हैं, इसलिए यह बहुत अधिक है)। आपकी पोस्ट के आधार पर, मैं यह मान सकता हूं कि इसीलिए मल्टीकोलिनरिटी के लोग अधिक डेटा प्राप्त करने का सुझाव देते हैं - बेहतर हाइलाइट मतभेदों को।
cryptic_star

मैं एक नया उदाहरण प्रदान करता हूं जिसमें दिखाया गया है कि होने पर भी आपकी घटना कैसे हो सकती है । इसे आसानी से संशोधित किया जा सकता है ताकि इसमें शामिल सभी संख्याएं सकारात्मक पूर्ण संख्याएं हों: मायने रखता है, अर्थात। n=24
whuber

1
अपनी पहली टिप्पणी फिर से करें: कोलिनियरिटी से पता चलता है कि कुछ व्याख्यात्मक चर (IVs) निरर्थक हो सकते हैं, लेकिन ऐसा जरूरी नहीं है । आईवी और आश्रित चर (डीवी) के बीच क्या संबंध हैं। IVs में से एक के लिए अन्य IV पर बहुत अधिक निर्भर होना संभव है, फिर भी DV से संबंधित विशिष्ट उपयोगी जानकारी है। यह एक महत्वपूर्ण अवधारणा है: IVs के बीच संबंधों के विश्लेषण का कोई राशि अकेले में बताने के लिए जो चर सबसे अच्छा समझाने डीवी जा रहा है। समरैखिकता की कमी - एक संपत्ति केवल IVs की - नहीं करता है के बारे में कुछ भी डीवी प्रकट करते हैं।
whuber

9

क्या मुझे मल्टीकोलिनरिटी की समस्या है या नहीं? अगर मैं करता हूं, तो मुझे कैसे आगे बढ़ना चाहिए?

यह या तो स्थिति नहीं है। और मुझे "4 या 5" दिशानिर्देश के बारे में संदेह है। आपके प्रत्येक भविष्यवक्ता के लिए, गुणांक की मानक त्रुटि 2.2 और 5.6 गुना के बीच है क्योंकि यह होगा यदि भविष्यवक्ता दूसरों के साथ असंबद्ध था। और किसी दिए गए भविष्यवक्ता के हिस्से को दूसरों द्वारा समझाया नहीं जा सकता है जो 1 / 2.2 से 1 / 5.6, या 18% से 45% तक है। कुल मिलाकर, यह काफी भारी मात्रा में मिलीभगत लगती है।

लेकिन चलो एक मिनट के लिए वापस कदम। क्या आप वास्तव में * Y * की भविष्यवाणी करने की कोशिश कर रहे हैं , जैसा कि इसे समझाने की कोशिश की जा रही है ? यदि पूर्व, तो मुझे नहीं लगता कि आपको इस बात की परवाह है कि किसी अन्य मॉडल में मौजूद होने पर किसी परिवर्तनशील चर का महत्व बदल जाता है या नहीं। आपकी नौकरी वास्तव में बहुत आसान है अगर यह सच स्पष्टीकरण की आवश्यकता होती है।

यदि स्पष्टीकरण आपका लक्ष्य है, तो आपको इन चरों के परस्पर संबंध के तरीके पर विचार करने की आवश्यकता होगी - ऐसा कुछ जो सांख्यिकीय जानकारी से अधिक आवश्यक हो। स्पष्ट रूप से वे उस तरह से ओवरलैप करते हैं जिस तरह से वे वाई से संबंधित हैं , और इस कोलीनियरिटी को स्थापित करना मुश्किल होगा, उदाहरण के लिए, वाई के लिए लेखांकन में उनके रैंक क्रम का महत्व । इस स्थिति में आपके लिए कोई भी स्पष्ट रास्ता नहीं है।

किसी भी मामले में, मुझे आशा है कि आप क्रॉसवैलिडेशन के तरीकों पर विचार कर रहे हैं।


यह जवाब, जॉन की तरह, उच्च सहसंबंध के साथ कम पी-मूल्यों को भ्रमित करने के लिए प्रकट होता है। याद रखें: गुणांक की मानक त्रुटियां डेटा की बढ़ती मात्रा के साथ कम हो जाती हैं ( कैटरिस पेरिबस ), इसलिए कम पी-मान प्राप्त किया जा सकता है जिसमें लगभग कोई सहसंबंध नहीं होता है, बशर्ते कि पर्याप्त अवलोकन मौजूद हों।
whuber

उच्च सहसंबंध के साथ कम पी-मूल्यों को भ्रमित करें? पास डु टाउट!
rolando2

फिर कृपया बताएं कि एक कड़ाई से पी-मूल्य अवधारणा ("गुणांक की मानक त्रुटि 2.2 और 5.6 के बीच कितनी बड़ी है, क्योंकि यह होगा यदि भविष्यवक्ता दूसरों के साथ असंबद्ध थे") आपको निष्कर्ष निकालने की ओर ले जाता है "जो एक बहुत अच्छा लगता है कोलीनियरिटी की मात्रा, "जो दृढ़ता से सहसंबंध से संबंधित है (कोलिनेरिटी के उपाय चर के मानकीकरण के गुण हैं जब चर को मानकीकृत किया जाता है)।"
whuber

इस बारे में मेरा नज़रिया यूं है। जब VIF 5.6 है, तो उस पूर्वानुमानक में 82% विचरण का अनुमान अन्य भविष्यवक्ताओं द्वारा लगाया जा सकता है। मैं यह नहीं देख सकता कि यह N
rolando2

1
इस निराशावादी मूल्यांकन के प्रतिरूप के रूप में (जिसके अंगूठे के नियमों में कुछ औचित्य है जैसे कि 5-10 बार चर के रूप में कई टिप्पणियों की आवश्यकता होती है), यह उल्लेखनीय है कि मॉडलिंग और डेटा विश्लेषण के पूरे क्षेत्र समस्याओं के आसपास बड़े हुए हैं: अवलोकन और कई भविष्यवाणियां, जैसे DACE (कंप्यूटर प्रयोगों का डिज़ाइन और विश्लेषण)। सेमिनल पेपर के लिए ressources-actuarielles.net/EXT/ISFA/1226.nsf/… देखें ।
whuber

6

आपके पास बहुसंस्कृति है। आपके प्रारंभिक विश्लेषण ने प्रदर्शित किया है। जहां तक ​​यह एक समस्या है, तो यह एक और सवाल है जो आपके मामले में कई जवाब देता है।

हो सकता है कि अगर आपको मूल मुद्दा बेहतर लगे तो यह अधिक स्पष्ट होगा कि क्या करना है? ...

मल्टीकोलिनरिटी के साथ आपके प्रतिगमन गुणांक आपके मॉडल के प्रत्येक चर के अद्वितीय (अच्छी तरह से अद्वितीय के करीब) योगदान के बारे में हैं। यदि कुछ एक दूसरे के साथ सहसंबद्ध हैं तो प्रत्येक सहसंबद्ध एक अद्वितीय योगदान छोटा है। यह शायद आंशिक रूप से क्यों कोई भी महत्वपूर्ण नहीं है जब वे सभी एक साथ वहाँ हों, लेकिन जब अकेले उपयोग किया जाए तो वे हो सकते हैं।

पहली चीज जो आपको करने की आवश्यकता है, उस पर विचार करें कि आपके चर के बीच का अंतर क्या है। उदाहरण के लिए, क्या आपके पास चर का एक गुच्छा है जो बस एक ही चीज़ के लिए खड़ा है? क्या आपने अपने भविष्यवक्ताओं को घटिया स्तर पर मापने और आकस्मिक सहसंबंधों को प्राप्त करने के लिए बस किया था? प्रतिगमन को ठीक करने की कोशिश मत करो, अपने चर को समझने की कोशिश करो।

एक्स 1 और एक्स 2 पर विचार करें, उनके बीच एक बहुत मजबूत सहसंबंध, आर = 0.90 कहें। यदि आप मॉडल में X1 डालते हैं और यह एक महत्वपूर्ण भविष्यवक्ता है तो अकेले X2 के साथ एक और मॉडल बहुत महत्वपूर्ण होगा, क्योंकि वे लगभग एक ही चीज़ हैं। यदि आप उन्हें एक साथ मॉडल में रखते हैं, तो उनमें से कम से कम एक को नुकसान उठाना पड़ता है क्योंकि कई प्रतिगमन उनके अद्वितीय योगदान को हल करने जा रहे हैं। वे दोनों गैर-महत्वपूर्ण हो सकते हैं। लेकिन यह बात नहीं है, यह बात समझ में आ रही है कि वे क्यों इतना अधिक ओवरलैप करते हैं और यदि वे एक दूसरे से अलग कुछ भी कहते हैं और आपको उनकी आवश्यकता है या नहीं? हो सकता है कि कोई एक विचार को सार्थक रूप से व्यक्त करता है और दूसरे की तुलना में आपकी प्रतिक्रिया चर से अधिक संबंधित है। शायद आप यह निष्कर्ष निकालेंगे कि भिन्नता के विभिन्न स्तरों के साथ वे एक ही चीज़ हैं।

इसके अलावा, जब किसी भी प्रकार के मॉडल को देखते हैं, लेकिन विशेष रूप से अंतःसंबंधित भविष्यवाणियों के साथ, पी-मान यह बताने का एक भयानक तरीका है कि क्या एक नया भविष्यवक्ता एक सार्थक योगदान देता है (यदि आप क्या करने की कोशिश कर रहे हैं ... तो यकीन नहीं होता कि आप क्या कर रहे हैं आप ऐसा करने की कोशिश कर रहे हैं क्योंकि ऐसा लगता है कि आप बस प्रतिगमन को ए) सरल बनाने की कोशिश कर रहे हैं, या बी) जिस तरह से आप चाहते हैं ... बाहर आ जाओ, जिनमें से कोई भी संभव नहीं है)। एआईसी को देखने से आपको यह पता लगाने में मदद मिलेगी कि आपको कौन से भविष्यवाणियों को रखना चाहिए और जो कुछ भी योगदान नहीं करते हैं।


निम्न पी-वैल्यू मल्टीकोलिनरिटी कैसे प्रदर्शित करते हैं? दोनों अवधारणाएं पूरी तरह से अलग हैं। पर्याप्त डेटा के साथ, आपके पास कम पी-मान हो सकते हैं और लगभग सभी में कोई कोलीनैरिटी नहीं है।
whuber

यह वही है जो मैं चुनाव लड़ रहा हूं, जॉन: आपने अपने पहले वाक्य में निष्कर्ष निकाला है कि ओपी का वर्णन है कि "आपके पास बहुसंस्कृति है।" लेकिन यह वही है जो ओपी जानना चाहता है: "क्या मुझे या मुझे बहुसंस्कृति समस्या नहीं है"? मेरा तर्क है कि सही उत्तर है "आपने हमें पर्याप्त जानकारी नहीं दी है, लेकिन शायद नहीं" क्योंकि प्रश्न में वर्णित घटनाएं पूरी तरह से अच्छी तरह से वातानुकूलित समस्याओं के अनुरूप हैं। वास्तव में, ओपी द्वारा रिपोर्ट किए गए निम्न वीआईएफ सुझाव देते हैं कि आपका दावा गलत है।
whuber

मैंने ऐसा कहीं नहीं कहा। शायद आपका मतलब है कि मैंने शुरुआती विश्लेषण के बारे में क्या कहा। प्रारंभिक विश्लेषण यह था कि अन्य प्रभावों को जोड़ने के आधार पर प्रभाव बहुत बदल जाते हैं। यह बहु-संप्रभुता के कारण था (हालांकि यह इसे निर्धारित नहीं करता है)। बेशक महत्व एक अलग मुद्दा है। मैं वास्तव में नहीं जानता कि आप क्या कर रहे हैं?
जॉन

टिप्पणी अपडेट करने के लिए सॉरी व्हीबर, लेकिन आपका काम वैसे भी ठीक है .... पाठकों, पिछले दो ऊपर उलटे हैं और यह मेरी गलती है। Whuber, मैं सिर्फ "समस्या" शब्द पर केंद्रित था। Multicollinearity एक ऐसी चीज है जिसकी आप मात्रा निर्धारित करते हैं। यहाँ कुछ है। यह चरों की परवाह किए बिना कठिन सोचने का सुझाव देता है। इससे यह भी पता चलता है कि जोड़े जाने या हटाए जाने के कारण जोड़ात्मक भविष्यवाणियां बदल रही हैं। मुझे यह आभास नहीं हुआ कि प्रश्नकर्ता वास्तव में इसके बारे में एक जवाब चाहता था कि यह एक "समस्या" है।
जॉन

यह संभव है कि हम विभिन्न तरीकों से प्रश्न की व्याख्या करें, जॉन। क्योंकि मैं इस मुद्दे को संभवतः मेरी टिप्पणियों से भ्रमित नहीं करना चाहता, इसलिए मैंने अपनी बात समझाने के लिए उत्तर जोड़ा।
whuber

2

व्यक्तिगत रूप से, मैं स्थिति सूचकांकों का उपयोग करता हूं और विवर्तन की व्याख्या करने के लिए विचरण तालिका की व्याख्या करता है।

मैं मॉडल निर्माण के लिए एक मानदंड के रूप में p मानों का भी उपयोग नहीं करूंगा, और जब 1 के साथ 6 IVs वाले मॉडल की तुलना मॉडल करता है, तो मैं चर के लिए पैरामीटर के प्रभाव आकार में परिवर्तन को देखूंगा।

लेकिन आप निश्चित रूप से परिणाम का उल्लेख कर सकते हैं जो आप बिना मिलीभगत के करते हैं। Collinearity केवल X चरों और उनके संबंधों के बारे में है। लेकिन दो चर दोनों एक दूसरे से दृढ़ता से संबंधित नहीं होते हुए भी वाई से दृढ़ता से संबंधित हो सकते हैं।


1
यह मेरे लिए एकतरफा लगता है, कि दो चर एक दूसरे से दृढ़ता से संबंधित हुए बिना वाई से दृढ़ता से संबंधित हो सकते हैं। क्या कोई उदाहरण है जो आप मुझे इंगित कर सकते हैं, या एक लंबा स्पष्टीकरण?
cryptic_star

@ पेटर - १ (१ / ५.६) = the२% विचरण में उस अंतिम भविष्यवक्ता द्वारा दूसरों को समझाया गया है, आप क्यों कहते हैं कि समस्वरता नहीं हो सकती है?
rolando2

3
Allie, यह एक अच्छा सवाल है। तुलनीय चर के दो असंबंधित चर और लें , और । अब प्रत्येक और बिना और साथ दृढ़ता से संबंधित है, जिसका कोई संबंध नहीं है। x 2 y = x 1 + x 2 y x 1 x 2 x 1 x 2x1x2y=x1+x2yx1x2x1x2
whuber

0

बहुसंस्कृति के बारे में विभिन्न थ्रेसहोल्ड का उल्लेख किया जा रहा है जो आमतौर पर परीक्षण किए गए चर बनाम अन्य स्वतंत्र चर के बीच 0.90 के अंतर्निहित आर स्क्वायर मान के अनुरूप 10 के VIF के आसपास होता है। आपके चर के VIF निष्क्रिय दिखाई देते हैं, और आप तकनीकी रूप से उन्हें एक मॉडल में रख सकते हैं।

फिर भी, मैं यह देखने के लिए एक चरणबद्ध प्रतिगमन विधि का उपयोग करूंगा कि कौन से चर का सबसे अच्छा संयोजन है और आर (वर्ग में वृद्धिशील वृद्धि) आप चर जोड़कर कैसे प्राप्त करेंगे। मध्यस्थ बेंचमार्क को समायोजित R स्क्वायर मान होना चाहिए जो चर जोड़ने के लिए मॉडल को दंडित करके R स्क्वायर मान को नीचे की ओर समायोजित करता है।

आपके चर कुछ हद तक एक दूसरे के साथ सहसंबद्ध हैं। यह अपरिहार्य है, यह केवल डिग्री की बात है। आपके द्वारा उल्लिखित VIF को देखते हुए, मुझे सहज रूप से संदेह है कि आपको सबसे अच्छा 2 चर संयोजन से जानकारी / स्पष्टीकरण बिट का विशाल बहुमत मिलेगा। और, कि चर जोड़ने से सीमांत वेतन वृद्धि हो सकती है।

जब स्टेपवाइज रिग्रेशन प्रक्रिया द्वारा चुने गए वेरिएबल्स के संयोजन को देखते हैं, तो मैं यह भी देखूंगा कि वे वैरिएबल क्या चुने गए हैं और यदि उनके रिग्रेशन गुणांक संकेत y के साथ उनके सहसंबंध के अनुरूप हैं। यदि वे नहीं हैं, तो यह वैरिएबल के बीच एक वैध संपर्क के कारण हो सकता है। लेकिन, यह मॉडल ओवरफिटिंग का एक परिणाम भी हो सकता है और यह कि प्रतिगमन गुणांक सहज हैं। वे गणितीय फिट को दर्शाते हैं, लेकिन अंतर्निहित कार्यशीलता के संदर्भ में अर्थहीन हैं।

अपने चर का चयन करने का दूसरा तरीका एक तर्क के दृष्टिकोण से तय करना है कि कौन से मुख्य 2 या 3 चर हैं जो मॉडल में होने चाहिए। आप उन लोगों के साथ शुरू करते हैं और फिर जाँचते हैं कि एक चर जोड़कर आपको कितनी अधिक जानकारी मिलती है। समायोजित आर स्क्वायर की जांच करें, मूल प्रतिगमन के सापेक्ष प्रतिगमन गुणांक की स्थिरता, और स्पष्ट रूप से होल्ड आउट अवधि वाले सभी मॉडलों का परीक्षण करें। बहुत जल्द, यह स्पष्ट हो जाएगा कि आपका सबसे अच्छा मॉडल क्या है।


4
Radj2

आपके द्वारा उल्लिखित समस्याओं में से कई सामान्य रूप से रैखिक प्रतिगमन मॉडल के लिए सामान्य हैं। मुझे यकीन नहीं है कि इस तरह की तकनीकी समस्याएं सामान्य रूप से सभी स्टेप वाइज रिग्रेशन विधियों और रैखिक प्रतिगमन को बाहर करने का कारण हैं। मैं स्पष्ट नहीं हूँ कि स्टेप वाइज रिग्रेशन "एक यादृच्छिक चर पर आधारित है, जो बहुत सारी समस्याओं का कारण बनता है।" स्टेप वाइज सबसे अच्छा फिट लगता है, जैसे कोई भी मॉडल करता है। जो मुझे लगता है कि अधिक महत्वपूर्ण है यह सुनिश्चित करना कि गणितीय फिट आपके लिए हल की जाने वाली समस्या के अंतर्निहित सिद्धांत या तर्क से मेल खाता है।
सिम्पा

3
R2Radj2Fp

गंग, मुझे यकीन नहीं है कि हम एक ही बात कर रहे हैं। मैं दो तरीकों से Stepwise Regression का उपयोग कर रहा हूं। एक मैनुअल है, आप सबसे अच्छा regressor का उपयोग कर एक मॉडल का निर्माण करते हैं। और, आप इसे 2 सबसे अच्छा चर का उपयोग करके जोड़ते हैं जो पहले मॉडल की त्रुटि को सबसे अच्छा समझाता है। और, आप तब तक चलते रहते हैं जब तक आपका AIC स्कोर नहीं बिगड़ जाता। मैंने जो 2 तरीका इस्तेमाल किया है वह XLStat सॉफ्टवेयर का उपयोग कर रहा है जो प्रक्रिया को स्वचालित करता है और इसे थियरी फ़ाहमी और उनकी टीम द्वारा विकसित किया गया था। उन्होंने कहा कि मैं अपनी टीम में दूसरों के साथ गणित में पीएचडी को समझता हूं। और, मुझे विश्वास नहीं है कि वे आपके द्वारा बताए गए सभी जाल में गिर गए होंगे।
सिम्पा

2
Gaetan, मुझे लगता है कि @gung जो कहना चाह रही है वह यह है कि चरणबद्ध तरीके प्रारंभिक सांख्यिकीय प्रतिगमन ढांचे (नुकसान फ़ंक्शन, पी-मान, आदि) को गंभीर नुकसान पहुंचा सकते हैं। फ्रैंक हैरेल की प्रतिक्रिया और टिप्पणियों को यहां देखें । दंडित प्रतिगमन, जैसा कि कई थ्रेड्स में चर्चा की गई है, एक अच्छा विकल्प हो सकता है। "(...) सॉफ्टवेयर जो प्रक्रिया को स्वचालित करता है" मुझे आर की याद दिलाता है fortune(224): यहां कोई ट्रोल नहीं है, बस यह उजागर करना चाहते हैं कि आपको यह भरोसा करने की आवश्यकता नहीं है कि सॉफ्टवेयर आपको स्वचालित रूप से क्या विकल्प देता है (या प्रदान करता है)।
chl

0

यदि आपके व्याख्यात्मक चर डेटा की गणना करते हैं, और यह मान लेना अनुचित नहीं है कि वे सामान्य रूप से वितरित किए जाते हैं, तो आप उन्हें आर scaleकमांड का उपयोग करके मानक सामान्य चर में बदल सकते हैं । ऐसा करने से मिलीभगत को कम किया जा सकता है। लेकिन वह शायद पूरी समस्या को हल नहीं करेगा।

फ्लोरियन जेगर के ब्लॉग पर विश्लेषण करने और कोलिनियरिटी से निपटने के लिए आर कमांड का एक उपयोगी बैच शामिल है:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.समारोह एक मानक सामान्य variate में एक सदिश बदल देता है। r.समारोह रिटर्न दूसरे के विरुद्ध एक भविष्यवक्ता regressing के लिए मानकीकृत बच। आप इस का उपयोग प्रभावी रूप से अलग में मॉडल विचलन विभाजित करने के लिए कर सकते हैं हिस्सों ताकि केवल कुछ चर सबसे वरिष्ठ अंश, तो अगले अंश residualized चर की पेशकश की जाएगी की पहुंच है। (माई होमस्पून शब्दावली के लिए क्षमा करें) यदि ऐसा है तो फॉर्म का एक मॉडल

Y ~ A + B

बहुसंस्कृति से ग्रस्त है, तो आप दोनों में से किसी को भी चला सकते हैं

Y ~ A + r.(B)
Y ~ r.(A) + B

ताकि केवल "जूनियर किश्त" चर के अवशेष (जब "वरिष्ठ किश्त" चर के खिलाफ फिर से संगठित) मॉडल के लिए फिट हो। इस तरह, आपको मल्टीकोलिनरिटी से परिरक्षित किया जाता है, लेकिन रिपोर्ट करने के लिए मापदंडों का अधिक जटिल सेट है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.