मैं एक बड़ा OLS प्रतिगमन चला रहा हूं जहां सभी स्वतंत्र चर (लगभग 400) डमी चर हैं। यदि सभी को शामिल किया गया है, तो पूर्ण बहुसंकेतनता (डमी चर जाल) है, इसलिए मुझे प्रतिगमन को चलाने से पहले एक चर को छोड़ना होगा।
मेरा पहला सवाल यह है कि किस चर को छोड़ दिया जाना चाहिए? मैंने पढ़ा है कि एक चर को छोड़ना बेहतर है जो कि कई टिप्पणियों में मौजूद है जो केवल कुछ में मौजूद है (उदाहरण के लिए यदि लगभग सभी अवलोकन "पुरुष" या "महिला" हैं और बस कुछ "अज्ञात" हैं "," पुरुष "या" महिला "दोनों को छोड़ें)। क्या यह उचित है?
छोड़े गए चर के साथ प्रतिगमन चलाने के बाद, मैं छोड़े गए चर के गुणांक मान का अनुमान लगाने में सक्षम हूं क्योंकि मुझे पता है कि मेरे सभी स्वतंत्र चर का कुल मतलब 0. होना चाहिए। इसलिए मैं इस तथ्य का उपयोग सभी के लिए गुणांक मानों को स्थानांतरित करने के लिए करता हूं। चर शामिल हैं, और छोड़े गए चर के लिए एक अनुमान प्राप्त करें। मेरा अगला प्रश्न यह है कि क्या कुछ ऐसी ही तकनीक है जिसका उपयोग छोड़े गए चर के गुणांक मान के लिए मानक त्रुटि का अनुमान लगाने के लिए किया जा सकता है। जैसा कि यह है कि मूल रूप से छोड़े गए चर के गुणांक के लिए एक मानक त्रुटि अनुमान प्राप्त करने के लिए मुझे एक अलग चर (और पहले चरण में छोड़े गए चर सहित) प्रतिगमन को फिर से चलाना है।
अंत में, मैं नोटिस करता हूं कि मुझे मिलने वाला गुणांक अनुमान (शून्य के आसपास फिर से केंद्रित करने के बाद) थोड़ा भिन्न होता है, जिसके आधार पर चर छोड़ा जाता है। सिद्धांत रूप में, क्या कई प्रतिगमन को चलाना बेहतर होगा, प्रत्येक एक अलग चर को छोड़ देगा, और फिर सभी प्रतिगमन से गुणांक अनुमानों को औसत करेगा?