बहुसंस्कृति से निपटना

मैंने सीखा है कि पैकेज की vif()विधि का उपयोग करके car, हम एक मॉडल में इनपुट की बहुसंकेतनता की डिग्री की गणना कर सकते हैं। से विकिपीडिया , अगर vifमूल्य से अधिक है 5तो हम विचार कर सकते हैं कि इनपुट multicollinearity समस्या से पीड़ित है। उदाहरण के लिए, मैंने lm()विधि का उपयोग करके एक रैखिक प्रतिगमन मॉडल विकसित किया है और vif()निम्नानुसार देता है। हम देख सकते हैं, आदानों ub, lbऔर tbmulticollinearity से पीड़ित हैं।

 vif(lrmodel)
     tb        ub        lb          ma     ua        mb         sa     sb 
 7.929757 50.406318 30.826721  1.178124  1.891218  1.364020  2.113797  2.357946

मल्टीकोलिनरिटी की समस्या से बचने के लिए और इस प्रकार अपने मॉडल को और अधिक मजबूत बनाने के लिए, मैंने बीच में बातचीत की ubऔर lb, और अब नए मॉडल की तालिका इस प्रकार है:

   tb     ub:lb      ma       mb      sa        sb     ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218

R^2मूल्यों में बहुत अंतर नहीं है और साथ ही साथ उपरोक्त दोनों मामलों में एक-छोड़-आउट सीवी परीक्षणों से त्रुटियों में बहुत अंतर नहीं है।

मेरे प्रश्न हैं:

जैसा कि ऊपर दिखाया गया है, क्या इंटरैक्शन लेने से बहुरंगी समस्या से बचना ठीक है?
क्या उपरोक्त वाइफ़ विधि परिणामों की तुलना में मल्टीकोलिनरिटी समस्या पेश करने का कोई अच्छा तरीका है।

कृपया मुझे अपने सुझाव प्रदान करें।

धन्यवाद।

multicollinearity

— samarasa
स्रोत

क्या आपका मॉडल लॉग-लॉग प्रतिगमन (उनके साथ प्रतिबंध के रूप में सहभागिता) है? विकी में मल्टीकोलिनरिटी मुद्दे en.wikipedia.org/wiki/Multicollinearity के बारे में अधिक संपूर्ण लेख है। इस साइट पर मैं मल्टीकोलिनरिटी टैग का पता लगाने का सुझाव देता हूं, यह अक्सर पूछे जाने वाला प्रश्न लगता है।

— पापेल सेलोव जूल 27'11

@ डमित्रीज सेलोव: धन्यवाद। नहीं, मेरा मॉडल बिना लॉग के साधारण रेखीय प्रतिगमन है ...

— समरसा

जवाबों:

आप बातचीत शब्द शामिल करने लगते हैं ub:lb, लेकिन नहीं ubऔर lbअलग भविष्यवक्ताओं के रूप में खुद। यह तथाकथित "सीमांतता के सिद्धांत" का उल्लंघन करेगा जो बताता है कि उच्च-आदेश की शर्तों में केवल निचले-क्रम की शर्तों ( शुरुआत के लिए विकिपीडिया ) में मौजूद चर शामिल होने चाहिए । प्रभावी ढंग से, आप अब एक कारक है कि सिर्फ तत्व के लिहाज से उत्पाद शामिल कर रहे हैं ubऔर lb।

$VIF_{j}$ बस है जहां है मूल्य जब आप अपने मूल भविष्यवक्ता चर के साथ एक प्रतिगमन चलाने रूप में सभी बचे भविष्यवक्ताओं द्वारा भविष्यवाणी की गई (यह , भविष्यवाणियों के सहसंबंध मैट्रिक्स के व्युत्क्रमानुसार -th विकर्ण तत्व भी है )। 50 का एक VIF- मूल्य इस प्रकार इंगित करता है कि आपको अन्य भविष्यवक्ताओं के साथ भविष्यवाणी करते समय .98 का मिलता है, यह दर्शाता है कि लगभग पूरी तरह से निरर्थक है (उसी के लिए , -97 का)। $\frac{1}{1-R_{j}^{2}}$ $R_{j}^{2}$ $R^{2}$ $j$ $j$ $R_{x}^{-1}$ $R^{2}$ ubublb $R^{2}$

मैं भविष्यवाणियों के बीच सभी जोड़ीदार सहसंबंधों को करना शुरू करूंगा, और उपर्युक्त प्रतिगमन को देखने के लिए चलाऊंगा कि कौन सा चर भविष्यवाणी करता है ubऔर lbयह देखने के लिए कि क्या अतिरेक आसानी से समझाया गया है। यदि हां, तो आप निरर्थक भविष्यवाणियों को हटा सकते हैं। आप रिज रिग्रेशन ( आर में lm.ridge()पैकेज से MASS) में भी देख सकते हैं ।

अधिक उन्नत मल्टीकोलिनियरिटी डायग्नोस्टिक्स के आइजनवेल्यू-स्ट्रक्चर का उपयोग करते हैं, जहां प्रतिगमन (यानी, कॉलम-वैक्टर के रूप में सभी भविष्यवाणियों) का डिज़ाइन मैट्रिक्स है। हालत है जहां और सबसे बड़े और सबसे छोटी ( ) । आर में, आप उपयोग कर सकते हैं , जहां मॉडल आमतौर पर मानकीकृत चर का उपयोग करता है। $X^{t}X$ $X$ $\kappa$ $\frac{\sqrt{\lambda_{max}}}{ \sqrt{ \lambda_{min}}}$ $\lambda_{max}$ $\lambda_{min}$ $\neq 0$ $X^{t}X$ kappa(lm(<formula>))lm()

ज्यामितीय रूप से, आपको भविष्यवाणियों द्वारा गठित डेटा क्लाउड के आकार के बारे में एक विचार देता है। 2 भविष्यवक्ताओं के साथ, स्कैल्पलॉट 2 मुख्य अक्षों के साथ दीर्घवृत्त जैसा दिख सकता है। तब आपको बताता है कि दीर्घवृत्त यानी "फ्लैट", सबसे छोटी धुरी की लंबाई के लिए सबसे बड़ी अक्ष की लंबाई के अनुपात के लिए एक उपाय है। 3 भविष्यवक्ताओं के साथ, आपके पास सिगार-आकार, और 3 मुख्य अक्ष हो सकते हैं। "चापलूसी" आपका डेटा क्लाउड किसी दिशा में है, जब चर एक साथ लिया जाता है तो अधिक अनावश्यक हो जाता है। $\kappa$ $\kappa$

अनैतिक राजनीतिक मूल्यों के लिए अंगूठे के कुछ नियम हैं (मैंने 20 से कम सुना)। लेकिन सलाह दी जाती है कि डेटा ट्रांसफ़ॉर्मेशन के तहत अपरिवर्तनीय नहीं है, जो केवल चर की इकाई को बदल देता है - जैसे मानकीकरण। यह वीआईएफ के विपरीत है: आप के रूप में ही परिणाम प्राप्त होगा (जब तक वहाँ मॉडल में गुणक मामले नहीं हैं), लेकिन और लगभग निश्चित रूप से अलग होगा। $\kappa$ $\kappa$ vif(lm(y ~ x1 + x2))vif(lm(scale(y) ~ scale(x1) + scale(x2)))kappa(lm(y ~ x1 + x2))kappa(lm(scale(y) ~ scale(x1) + scale(x2)))

— कैरकल
स्रोत

पहले नोट के बारे में: बहुभिन्नरूपी मॉडल के लिए केवल इंटरेक्शन टर्म को छोड़ना ठीक लगता है, क्योंकि बाद वाले का मतलब है कि आप कोफ़्स को प्रतिबंधित करते हैं ub lb( ) , लेकिन एक सामान्य रैखिक प्रतिगमन मॉडल के लिए जैसा कि आपने बताया (+1) ^ _ ^ वैसे lb - लोअर बाउंड, ub - अपर बाउंड ?! यदि ऐसा है तो दो का अंतर बनाते हैं , यह शायद बेहतर परिवर्तन है।

a \cdot \log u b + a \cdot \log l b = a \log u b \cdot l b

$a\cdot \log ub + a \cdot \log lb = a \log ub\cdot lb$

u b - l b

$ub - lb$

— पापेल सेलोव जूल २11

@ डमित्री: नहीं, ub + lb + sb = 100.

— समरसा

क्या बहुरूपता के लिए कोई अच्छा चित्रमय प्रतिनिधित्व है? कृपया मुझे सुझाव दें कि क्या आरआई के लिए आर में कोई विधि है।

— समरसा

@kkp मेरे द्वारा अभी सोचा जा सकने वाले एकमात्र तरीके हैं: pairs()भविष्यवक्ताओं के सभी जोड़ीदार वितरण को दर्शाने वाले स्कैटरप्लॉट मैट्रीस के लिए। पैकेज scatterplot3dका उपयोग 3 चर के बिखराव की कल्पना करने के लिए किया जा सकता है। यह उत्तर उस दीर्घवृत्त को खींचने के लिए देखें , जिसका अक्ष-अनुपात bivariate मामले में बराबर है । आप पैकेज की जांच भी कर सकते हैं जो अतिरिक्त मल्टीकोलीनिटी डायग्नोस्टिक्स, शायद ग्राफिक्स प्रदान करता है।

κ^{2}

$\kappa^{2}$ perturb

— कार्लाकाल

आपको चर विचार के दौरान पी-मूल्य पर भी विचार करना चाहिए।

यदि पी-मान बहुत कम है (पी <0.05) तब और वीआईएफ अधिक है (> 5) तो हो सकता है कि आप अन्य महत्वहीन चर पर विचार करें। और अपने मॉडल का पुनर्निर्माण करें।
यदि आपके पास P- मान और VIF दोनों उच्च हैं तो यह चर महत्वहीन होगा।

— मनीष कुमार
स्रोत