क्या मल्टीकोलिनरिटी के विशिष्ट माप को प्राथमिकता देने का एक कारण है?


22

जब कई इनपुट चर के साथ काम कर, हम अक्सर के बारे में चिंतित हैं multicollinearity । मल्टीकोलिनरिटी के कई उपाय हैं जो मल्टीकोलिनरिटी का पता लगाने, सोचने और / या संवाद करने के लिए उपयोग किए जाते हैं। कुछ सामान्य सिफारिशें हैं:

  1. एक विशेष चर के लिए कई Rj2
  2. सहिष्णुता, , एक विशेष चर के लिए 1Rj2
  3. विचरण मुद्रास्फीति कारक, , एक विशेष चर के लिए VIF=1tolerance
  4. एक पूरे के रूप में डिजाइन मैट्रिक्स की स्थिति संख्या:

    max(eigenvalue(X'X))min(eigenvalue(X'X))

(विकिपीडिया लेख में कुछ अन्य विकल्पों पर चर्चा की गई है, और यहाँ आर के संदर्भ में एसओ पर )

यह तथ्य कि पहले तीन एक-दूसरे के लिए एक सही कार्य हैं, यह बताता है कि उनके बीच एकमात्र संभावित शुद्ध लाभ मनोवैज्ञानिक होगा। दूसरी ओर, पहले तीन आपको व्यक्तिगत रूप से चर की जांच करने की अनुमति देते हैं, जो एक फायदा हो सकता है, लेकिन मैंने सुना है कि शर्त संख्या पद्धति को सबसे अच्छा माना जाता है।

  • क्या ये सच है? किस लिए श्रेष्ठ?
  • क्या हालत संख्या का सही कार्य है ? (मुझे लगता है कि यह होगा) Rj2
  • क्या लोग पाते हैं कि उनमें से एक को समझाना सबसे आसान है? (मैंने कक्षा के बाहर इन नंबरों को समझाने की कोशिश नहीं की है, मैं सिर्फ बहुस्तरीयता का एक ढीला, गुणात्मक वर्णन देता हूं।)

मैंने एक संबंधित अनुवर्ती प्रश्न पोस्ट किया है, जो उस पूरक के उत्तर के साथ है जो पहले से ही यहाँ पर है: आंकड़े
kyrenia

जवाबों:


15

1990 के दशक के उत्तरार्ध में, मैंने संपार्श्विकता पर अपना शोध प्रबंध किया।

मेरा निष्कर्ष यह था कि हालत सूचकांक सबसे अच्छे थे।

मुख्य कारण यह था कि व्यक्तिगत चर को देखने के बजाय , यह आपको चर के सेट को देखने देता है । चूंकि कोलीनियरिटी चर के सेट का एक कार्य है, यह एक अच्छी बात है।

इसके अलावा, मेरे मोंटे कार्लो अध्ययन के परिणामों ने समस्याग्रस्त संपार्श्विकता के लिए बेहतर संवेदनशीलता दिखाई, लेकिन मैं बहुत पहले विवरणों को भूल गया हूं।

R2

इस पर बहुत अधिक के लिए, डेविड बेल्सली द्वारा पुस्तकों की जांच करें। या, यदि आप वास्तव में चाहते हैं, तो आप कई निबंध के लिए मेरी शोध प्रबंध मल्टीकोलीनिटी डायग्नोस्टिक्स प्राप्त कर सकते हैं : एक मोंटे हेलो अध्ययन


1
तो क्या यहाँ यह विचार है कि VIF को देखते हुए, आप गलती से यह निष्कर्ष निकाल सकते हैं कि बहुसंख्यात्मकता कोई समस्या नहीं है, लेकिन यदि आपने स्थिति संख्या को देखा होता, तो आप सही निष्कर्ष निकालने की अधिक संभावना रखते? शायद परीक्षण w / अधिक से अधिक सांख्यिकीय शक्ति की तरह कुछ?
गूँग - मोनिका

4
+1। सौभाग्य से, इस नंबर की व्याख्या करने के लिए हमारे पास पहले से ही इस साइट पर एक उत्कृष्ट धागा है : यह एक बिंदु बादल के रूप में डिजाइन चर के दूसरे क्रम विवरण में पाया गया अधिकतम विरूपण है। विकृति जितनी अधिक होगी, उतने अधिक बिंदु एक उप-स्थान के भीतर झूठ बोलते हैं। यह ज्यामितीय अंतर्दृष्टि यह भी दिखाती है कि क्यों एक केंद्रित डिज़ाइन मैट्रिक्स की कंडीशनिंग कच्चे डिज़ाइन मैट्रिक्स की तुलना में बेहतर है।
whuber

1
खैर, यह परिभाषित करना कठिन है कि "सही" निष्कर्ष क्या है; लेकिन इसके आउटपुट में बड़े बदलाव के साथ डेटा में छोटे बदलावों के साथ कुछ करना चाहिए। जैसा कि मुझे याद है, हालत सूचकांक इससे अधिक सीधे संबंधित थे। लेकिन बड़ी बात यह थी कि विचरण अनुपात मिल रहा था, जो आपको चर के सेट और उनकी समरूपता के अंश को देखने देते हैं। (बेशक, यह सब 14 साल पहले था .... लेकिन मुझे नहीं लगता कि चीजें बदल गई हैं। उपाय समान हैं। लेकिन मेरी याददाश्त पूरी नहीं हो सकती है)।
पीटर Flom - को पुनः स्थापित मोनिका

3
गंग, यहां एक महत्वपूर्ण बिंदु यह है कि स्थिति संख्या निर्देशांक से स्वतंत्र है: यह डेटा के (ऑर्थोगोनल) रैखिक पुनर्संयोजनों के तहत अपरिवर्तित रहता है। इस प्रकार यह संभवत: व्यक्तिगत चर के बारे में कुछ भी व्यक्त नहीं कर सकता है लेकिन इसे पूरे संग्रह की संपत्ति पर कब्जा करना चाहिए। इसका उपयोग करने से यह आंशिक रूप से आपको गुमराह होने से रोकता है कि आपके चर को कैसे व्यक्त किया जाए।
whuber

1
मैं अभी तक आपके शोध प्रबंध को समाप्त करने के लिए बहला-फुसला रहा हूं, लेकिन यह वास्तव में इस प्रकार अब तक मददगार रहा है। एक बार फिर धन्यवाद।
गूँग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.