मुझे गंभीरता से संदेह है कि क्या मूल डेटा को केंद्रित या मानकीकृत करना वास्तव में मल्टीकोलिनरिटी समस्या को कम कर सकता है जब चुकता शब्द या अन्य इंटरैक्शन शब्द रिग्रेशन में शामिल होते हैं, जैसा कि आप में से कुछ, विशेष रूप से, ऊपर सिफारिश की है।
मेरी बात को समझने के लिए, आइए एक सरल उदाहरण पर विचार करें।
मान लीजिए कि वास्तविक विनिर्देश निम्न रूप लेता है जैसे कि
yi=b0+b1xi+b2x2i+ui
इस प्रकार संबंधित OLS समीकरण द्वारा दिया जाता है
yi=yi^+ui^=b0^+b1^xi+b2^x2i+ui^
जहां की सज्जित मूल्य है , अवशिष्ट, है - निरूपित OLS के लिए अनुमान है - -। मापदंडों कि अंतत: हम में रुचि रखते हैं सरलता के लिए, जाने उसके बाद।yi^yiuib0^b2^b0b2zi=x2i
आमतौर पर, हम जानते हैं कि और अत्यधिक सहसंबद्ध होने की संभावना है और यह मल्टीकोलिनरिटी समस्या का कारण होगा। इसे कम करने के लिए, एक लोकप्रिय सुझाव शब्द जोड़ने से पहले से का मतलब घटाकर मूल डेटा को केंद्रित करेगा ।xx2yiyi
यह दिखाना काफी आसान है कि का अर्थ निम्नानुसार दिया गया है:
जहां , , क्रमशः , और का अर्थ दर्शाते हैं।yi
y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi
इसलिए, से हैy¯yi
yi−y¯=b1^(xi−x¯)+b2^(zi−z¯)+ui^
जहाँ , , और चर चर हैं। और - जिन मापदंडों का अनुमान लगाया जाता है, वे मूल OLS प्रतिगमन के समान ही रहते हैं। एक्स मैं - ˉ एक्स जेड मैं - ˉ z ^ ख 1 ^ ख 2yi−y¯xi−x¯zi−z¯b1^b2^
हालांकि, यह स्पष्ट है कि मेरी उदाहरण में, केंद्रित आरएचएस-चर और के रूप में uncentered ठीक उसी सहप्रसरण / संबंध हो और , यानी ।एक्स 2 एक्स एक्स 2 corr ( एक्स , जेड ) = corr ( एक्स - ˉ एक्स , जेड - ˉ z )xx2xx2corr(x,z)=corr(x−x¯,z−z¯)
सारांश में, अगर केंद्र पर मेरी समझ सही है, तो मुझे नहीं लगता कि डेटा को केंद्रित करने से MC-problem को कम करने में मदद मिलेगी, जिसमें चुकता शब्द या प्रतिगमन में अन्य उच्च क्रम शब्द शामिल हैं।
मुझे आपकी राय सुनकर खुशी होगी!