मैंने देखा कि एक बहुभिन्नरूपी प्रतिगमन मॉडल के साथ छेड़छाड़ करते समय एक छोटी लेकिन ध्यान देने योग्य बहुसंस्कृति प्रभाव था, जैसा कि एक परिवर्तनशील चर की श्रेणियों के भीतर विचरण मुद्रास्फीति कारकों द्वारा मापा गया था (संदर्भ श्रेणी को छोड़कर, निश्चित रूप से)।
उदाहरण के लिए, मान लें कि हमारे पास निरंतर चर y और एक नाममात्र श्रेणीगत चर x के साथ एक डेटासेट है जिसमें संभव परस्पर अनन्य मान हैं। हम उन संभावित मानों को 0/1 डमी चर x 1 , x 2 , … , x k के रूप में कोड करते हैं । फिर हम एक प्रतिगमन मॉडल चलाने y = b 0 + ख 1 एक्स 1 + ख 2 एक्स 2 + ⋯ + ख कश्मीर - 1 एक्स कश्मीर - 1 । K - 1 के लिए VIF स्कोरडमी चर गैर शून्य हो जाते हैं। वास्तव में, जैसे-जैसे श्रेणियों की संख्या बढ़ती है, VIF बढ़ते जाते हैं। डमी चरों को केन्द्रित करना VIF को बदलने के लिए प्रकट नहीं होता है।
सहज स्पष्टीकरण से लगता है कि श्रेणीगत चर के भीतर श्रेणियों की पारस्परिक रूप से अनन्य स्थिति इस मामूली बहुरूपता का कारण बनती है। क्या यह एक तुच्छ खोज है या यह विचार करने के लिए एक मुद्दा है जब श्रेणीबद्ध चर के साथ प्रतिगमन मॉडल का निर्माण किया जाता है?