मैंने सीखा है कि पैकेज की vif()
विधि का उपयोग करके car
, हम एक मॉडल में इनपुट की बहुसंकेतनता की डिग्री की गणना कर सकते हैं। से विकिपीडिया , अगर vif
मूल्य से अधिक है 5
तो हम विचार कर सकते हैं कि इनपुट multicollinearity समस्या से पीड़ित है। उदाहरण के लिए, मैंने lm()
विधि का उपयोग करके एक रैखिक प्रतिगमन मॉडल विकसित किया है और vif()
निम्नानुसार देता है। हम देख सकते हैं, आदानों ub
, lb
और tb
multicollinearity से पीड़ित हैं।
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
मल्टीकोलिनरिटी की समस्या से बचने के लिए और इस प्रकार अपने मॉडल को और अधिक मजबूत बनाने के लिए, मैंने बीच में बातचीत की ub
और lb
, और अब नए मॉडल की तालिका इस प्रकार है:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
R^2
मूल्यों में बहुत अंतर नहीं है और साथ ही साथ उपरोक्त दोनों मामलों में एक-छोड़-आउट सीवी परीक्षणों से त्रुटियों में बहुत अंतर नहीं है।
मेरे प्रश्न हैं:
जैसा कि ऊपर दिखाया गया है, क्या इंटरैक्शन लेने से बहुरंगी समस्या से बचना ठीक है?
क्या उपरोक्त वाइफ़ विधि परिणामों की तुलना में मल्टीकोलिनरिटी समस्या पेश करने का कोई अच्छा तरीका है।
कृपया मुझे अपने सुझाव प्रदान करें।
धन्यवाद।