बहुसंस्कृति से निपटना


13

मैंने सीखा है कि पैकेज की vif()विधि का उपयोग करके car, हम एक मॉडल में इनपुट की बहुसंकेतनता की डिग्री की गणना कर सकते हैं। से विकिपीडिया , अगर vifमूल्य से अधिक है 5तो हम विचार कर सकते हैं कि इनपुट multicollinearity समस्या से पीड़ित है। उदाहरण के लिए, मैंने lm()विधि का उपयोग करके एक रैखिक प्रतिगमन मॉडल विकसित किया है और vif()निम्नानुसार देता है। हम देख सकते हैं, आदानों ub, lbऔर tbmulticollinearity से पीड़ित हैं।

 vif(lrmodel)
     tb        ub        lb          ma     ua        mb         sa     sb 
 7.929757 50.406318 30.826721  1.178124  1.891218  1.364020  2.113797  2.357946

मल्टीकोलिनरिटी की समस्या से बचने के लिए और इस प्रकार अपने मॉडल को और अधिक मजबूत बनाने के लिए, मैंने बीच में बातचीत की ubऔर lb, और अब नए मॉडल की तालिका इस प्रकार है:

   tb     ub:lb      ma       mb      sa        sb     ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218

R^2मूल्यों में बहुत अंतर नहीं है और साथ ही साथ उपरोक्त दोनों मामलों में एक-छोड़-आउट सीवी परीक्षणों से त्रुटियों में बहुत अंतर नहीं है।

मेरे प्रश्न हैं:

  1. जैसा कि ऊपर दिखाया गया है, क्या इंटरैक्शन लेने से बहुरंगी समस्या से बचना ठीक है?

  2. क्या उपरोक्त वाइफ़ विधि परिणामों की तुलना में मल्टीकोलिनरिटी समस्या पेश करने का कोई अच्छा तरीका है।

कृपया मुझे अपने सुझाव प्रदान करें।

धन्यवाद।


क्या आपका मॉडल लॉग-लॉग प्रतिगमन (उनके साथ प्रतिबंध के रूप में सहभागिता) है? विकी में मल्टीकोलिनरिटी मुद्दे en.wikipedia.org/wiki/Multicollinearity के बारे में अधिक संपूर्ण लेख है। इस साइट पर मैं मल्टीकोलिनरिटी टैग का पता लगाने का सुझाव देता हूं, यह अक्सर पूछे जाने वाला प्रश्न लगता है।
पापेल सेलोव जूल 27'11

@ डमित्रीज सेलोव: धन्यवाद। नहीं, मेरा मॉडल बिना लॉग के साधारण रेखीय प्रतिगमन है ...
समरसा

जवाबों:


11

आप बातचीत शब्द शामिल करने लगते हैं ub:lb, लेकिन नहीं ubऔर lbअलग भविष्यवक्ताओं के रूप में खुद। यह तथाकथित "सीमांतता के सिद्धांत" का उल्लंघन करेगा जो बताता है कि उच्च-आदेश की शर्तों में केवल निचले-क्रम की शर्तों ( शुरुआत के लिए विकिपीडिया ) में मौजूद चर शामिल होने चाहिए । प्रभावी ढंग से, आप अब एक कारक है कि सिर्फ तत्व के लिहाज से उत्पाद शामिल कर रहे हैं ubऔर lb

VIFj बस है जहां है मूल्य जब आप अपने मूल भविष्यवक्ता चर के साथ एक प्रतिगमन चलाने रूप में सभी बचे भविष्यवक्ताओं द्वारा भविष्यवाणी की गई (यह , भविष्यवाणियों के सहसंबंध मैट्रिक्स के व्युत्क्रमानुसार -th विकर्ण तत्व भी है )। 50 का एक VIF- मूल्य इस प्रकार इंगित करता है कि आपको अन्य भविष्यवक्ताओं के साथ भविष्यवाणी करते समय .98 का मिलता है, यह दर्शाता है कि लगभग पूरी तरह से निरर्थक है (उसी के लिए , -97 का)।11Rj2Rj2R2jjRx1R2ubublbR2

मैं भविष्यवाणियों के बीच सभी जोड़ीदार सहसंबंधों को करना शुरू करूंगा, और उपर्युक्त प्रतिगमन को देखने के लिए चलाऊंगा कि कौन सा चर भविष्यवाणी करता है ubऔर lbयह देखने के लिए कि क्या अतिरेक आसानी से समझाया गया है। यदि हां, तो आप निरर्थक भविष्यवाणियों को हटा सकते हैं। आप रिज रिग्रेशन ( आर में lm.ridge()पैकेज से MASS) में भी देख सकते हैं ।

अधिक उन्नत मल्टीकोलिनियरिटी डायग्नोस्टिक्स के आइजनवेल्यू-स्ट्रक्चर का उपयोग करते हैं, जहां प्रतिगमन (यानी, कॉलम-वैक्टर के रूप में सभी भविष्यवाणियों) का डिज़ाइन मैट्रिक्स है। हालत है जहां और सबसे बड़े और सबसे छोटी ( ) । आर में, आप उपयोग कर सकते हैं , जहां मॉडल आमतौर पर मानकीकृत चर का उपयोग करता है।XtXXκλmaxλminλmaxλmin0XtXkappa(lm(<formula>))lm()

ज्यामितीय रूप से, आपको भविष्यवाणियों द्वारा गठित डेटा क्लाउड के आकार के बारे में एक विचार देता है। 2 भविष्यवक्ताओं के साथ, स्कैल्पलॉट 2 मुख्य अक्षों के साथ दीर्घवृत्त जैसा दिख सकता है। तब आपको बताता है कि दीर्घवृत्त यानी "फ्लैट", सबसे छोटी धुरी की लंबाई के लिए सबसे बड़ी अक्ष की लंबाई के अनुपात के लिए एक उपाय है। 3 भविष्यवक्ताओं के साथ, आपके पास सिगार-आकार, और 3 मुख्य अक्ष हो सकते हैं। "चापलूसी" आपका डेटा क्लाउड किसी दिशा में है, जब चर एक साथ लिया जाता है तो अधिक अनावश्यक हो जाता है।κκ

अनैतिक राजनीतिक मूल्यों के लिए अंगूठे के कुछ नियम हैं (मैंने 20 से कम सुना)। लेकिन सलाह दी जाती है कि डेटा ट्रांसफ़ॉर्मेशन के तहत अपरिवर्तनीय नहीं है, जो केवल चर की इकाई को बदल देता है - जैसे मानकीकरण। यह वीआईएफ के विपरीत है: आप के रूप में ही परिणाम प्राप्त होगा (जब तक वहाँ मॉडल में गुणक मामले नहीं हैं), लेकिन और लगभग निश्चित रूप से अलग होगा।κκvif(lm(y ~ x1 + x2))vif(lm(scale(y) ~ scale(x1) + scale(x2)))kappa(lm(y ~ x1 + x2))kappa(lm(scale(y) ~ scale(x1) + scale(x2)))


पहले नोट के बारे में: बहुभिन्नरूपी मॉडल के लिए केवल इंटरेक्शन टर्म को छोड़ना ठीक लगता है, क्योंकि बाद वाले का मतलब है कि आप कोफ़्स को प्रतिबंधित करते हैं ub lb( ) , लेकिन एक सामान्य रैखिक प्रतिगमन मॉडल के लिए जैसा कि आपने बताया (+1) ^ _ ^ वैसे lb - लोअर बाउंड, ub - अपर बाउंड ?! यदि ऐसा है तो दो का अंतर बनाते हैं , यह शायद बेहतर परिवर्तन है। यू बी - एल बीalogub+aloglb=alogublbublb
पापेल सेलोव जूल २11

@ डमित्री: नहीं, ub + lb + sb = 100.
समरसा

क्या बहुरूपता के लिए कोई अच्छा चित्रमय प्रतिनिधित्व है? कृपया मुझे सुझाव दें कि क्या आरआई के लिए आर में कोई विधि है।
समरसा

2
@kkp मेरे द्वारा अभी सोचा जा सकने वाले एकमात्र तरीके हैं: pairs()भविष्यवक्ताओं के सभी जोड़ीदार वितरण को दर्शाने वाले स्कैटरप्लॉट मैट्रीस के लिए। पैकेज scatterplot3dका उपयोग 3 चर के बिखराव की कल्पना करने के लिए किया जा सकता है। यह उत्तर उस दीर्घवृत्त को खींचने के लिए देखें , जिसका अक्ष-अनुपात bivariate मामले में बराबर है । आप पैकेज की जांच भी कर सकते हैं जो अतिरिक्त मल्टीकोलीनिटी डायग्नोस्टिक्स, शायद ग्राफिक्स प्रदान करता है। κ2perturb
कार्लाकाल

1

आपको चर विचार के दौरान पी-मूल्य पर भी विचार करना चाहिए।

  1. यदि पी-मान बहुत कम है (पी <0.05) तब और वीआईएफ अधिक है (> 5) तो हो सकता है कि आप अन्य महत्वहीन चर पर विचार करें। और अपने मॉडल का पुनर्निर्माण करें।
  2. यदि आपके पास P- मान और VIF दोनों उच्च हैं तो यह चर महत्वहीन होगा।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.