डमी चर जाल मुद्दों


10

मैं एक बड़ा OLS प्रतिगमन चला रहा हूं जहां सभी स्वतंत्र चर (लगभग 400) डमी चर हैं। यदि सभी को शामिल किया गया है, तो पूर्ण बहुसंकेतनता (डमी चर जाल) है, इसलिए मुझे प्रतिगमन को चलाने से पहले एक चर को छोड़ना होगा।

मेरा पहला सवाल यह है कि किस चर को छोड़ दिया जाना चाहिए? मैंने पढ़ा है कि एक चर को छोड़ना बेहतर है जो कि कई टिप्पणियों में मौजूद है जो केवल कुछ में मौजूद है (उदाहरण के लिए यदि लगभग सभी अवलोकन "पुरुष" या "महिला" हैं और बस कुछ "अज्ञात" हैं "," पुरुष "या" महिला "दोनों को छोड़ें)। क्या यह उचित है?

छोड़े गए चर के साथ प्रतिगमन चलाने के बाद, मैं छोड़े गए चर के गुणांक मान का अनुमान लगाने में सक्षम हूं क्योंकि मुझे पता है कि मेरे सभी स्वतंत्र चर का कुल मतलब 0. होना चाहिए। इसलिए मैं इस तथ्य का उपयोग सभी के लिए गुणांक मानों को स्थानांतरित करने के लिए करता हूं। चर शामिल हैं, और छोड़े गए चर के लिए एक अनुमान प्राप्त करें। मेरा अगला प्रश्न यह है कि क्या कुछ ऐसी ही तकनीक है जिसका उपयोग छोड़े गए चर के गुणांक मान के लिए मानक त्रुटि का अनुमान लगाने के लिए किया जा सकता है। जैसा कि यह है कि मूल रूप से छोड़े गए चर के गुणांक के लिए एक मानक त्रुटि अनुमान प्राप्त करने के लिए मुझे एक अलग चर (और पहले चरण में छोड़े गए चर सहित) प्रतिगमन को फिर से चलाना है।

अंत में, मैं नोटिस करता हूं कि मुझे मिलने वाला गुणांक अनुमान (शून्य के आसपास फिर से केंद्रित करने के बाद) थोड़ा भिन्न होता है, जिसके आधार पर चर छोड़ा जाता है। सिद्धांत रूप में, क्या कई प्रतिगमन को चलाना बेहतर होगा, प्रत्येक एक अलग चर को छोड़ देगा, और फिर सभी प्रतिगमन से गुणांक अनुमानों को औसत करेगा?


क्या आप स्पष्ट कर सकते हैं कि आपके "मेरे सभी स्वतंत्र चर का कुल मतलब 0 होना चाहिए" और आप यह कैसे जानते हैं?
onestop

मूल रूप से मैं औसत (सभी चर के औसत) के सापेक्ष सभी चर का मूल्यांकन करना चाहता हूं। प्रतिगमन से गुणांक लोप किए गए चर के सापेक्ष हैं। इसलिए जब मैं प्रत्येक गुणांक मान से सभी गुणांक (छोड़े गए चर के गुणांक सहित) का अर्थ घटाता हूं, तो समायोजित मान अब औसत 0 होगा, और प्रत्येक गुणांक मान औसत से दूरी के रूप में देखा जा सकता है।
जेम्स डेविसन

जवाबों:


8

आपको "समान" अनुमान प्राप्त करना चाहिए, चाहे आप किस चर को छोड़ दें; गुणांक अलग हो सकता है, लेकिन विशेष रूप से मात्रा या के अनुमान उम्मीदों सभी मॉडलों भर में ही होना चाहिए।

एक साधारण मामले में, चलो एक्समैं=1पुरुषों के लिए और महिलाओं के लिए 0 है। फिर, हमारे पास मॉडल है:

[yमैं|एक्समैं]=एक्समैं[yमैं|एक्समैं=1]+(1-एक्समैं)[yमैं|एक्समैं=0]=[yमैं|एक्समैं=0]+[[yमैं|एक्समैं=1]-[yमैं|एक्समैं=0]]एक्समैं=β0+β1एक्समैं
अब छोडो zमैं=1महिलाओं के लिए। फिर
[yमैं|zमैं]=zमैं[yमैं|zमैं=1]+(1-zमैं)[yमैं|zमैं=0]=[yमैं|zमैं=0]+[[yमैं|zमैं=1]-[yमैं|zमैं=0]]zमैं=γ0+γ1zमैं
का अपेक्षित मूल्य y महिलाओं के लिए है β0 और भी γ0+γ1। पुरुषों के लिए, यह हैβ0+β1 तथा γ0

इन परिणामों से पता चलता है कि दोनों मॉडलों के गुणांक कैसे संबंधित हैं। उदाहरण के लिए,β1=-γ1। आपके डेटा का उपयोग करने वाले एक समान व्यायाम से पता चलता है कि "अलग-अलग" गुणांक जो आपको मिलते हैं, वे केवल एक दूसरे के अंतर और अंतर हैं।


4

जेम्स, सबसे पहले क्यों प्रतिगमन विश्लेषण, लेकिन एनोवा नहीं (इस तरह के विश्लेषण में कई विशेषज्ञ हैं जो आपकी मदद कर सकते हैं)? पेशेवरों एनोवा के लिए है कि सभी आप वास्तव में रुचि रखने वाले (अद्वितीय श्रेणियों या प्रोफाइल,) डमी चर के संयोजन द्वारा वर्णित विभिन्न समूहों के माध्यम में मतभेद हैं है। यदि आप अपने शामिल किए गए प्रत्येक श्रेणीगत चर के प्रभावों का अध्ययन करते हैं, तो आप प्रतिगमन को भी चला सकते हैं।

मुझे लगता है कि आपके पास यहां मौजूद डेटा का प्रकार संकलित विश्लेषण के अर्थ में वर्णित है : ऑब्जेक्ट की कई विशेषताएं (लिंग, आयु, शिक्षा, आदि) प्रत्येक में कई श्रेणियां हैं, इस प्रकार आप पूरी सबसे बड़ी प्रोफ़ाइल को छोड़ देते हैं, न कि केवल एक डमी चर। एक आम बात यह है कि इस विशेषता के भीतर श्रेणियों को कोडित करना है (यह लिंक उपयोगी हो सकता है, आप शायद यहां विश्लेषण नहीं करते हैं, लेकिन कोडिंग समान है): मान लीजिए कि आपके पास हैn श्रेणियां (तीन, जैसा कि आपने सुझाव दिया है, पुरुष, महिला, अज्ञात) फिर, पहले दो को सामान्य रूप से कोडित किया जाता है जिसमें आप दो डमी (पुरुष, महिला), शामिल होते हैं (1,0) अगर पुरुष, (0,1) अगर महिला, और (-1,-1)अगर अज्ञात है। इस तरह से परिणाम वास्तव में अवरोधन अवधि के आसपास रखा जाएगा। आप एक अलग तरीके से कोड कर सकते हैं, हालांकि, वर्णित व्याख्या लाभ खो देंगे। योग करने के लिए, आप प्रत्येक श्रेणी से एक श्रेणी छोड़ते हैं , और वर्णित तरीके से अपनी टिप्पणियों को कोड करते हैं। आप इंटरसेप्ट टर्म भी शामिल करते हैं।

वैसे सबसे बड़ी प्रोफ़ाइल की श्रेणियों को छोड़ना मेरे लिए अच्छा लगता है, हालांकि इतना महत्वपूर्ण नहीं है, कम से कम यह खाली नहीं है जो मुझे लगता है। चूँकि आप चर को विशिष्ट तरीके से कोड करते हैं, इसमें सम्मिलित डमी चरों (पुरुष महिला दोनों, F परीक्षण द्वारा परीक्षण किया जा सकता है) के संयुक्त सांख्यिकीय महत्व का अर्थ है छोड़े गए एक का महत्व।

ऐसा हो सकता है कि परिणाम थोड़े अलग हों, लेकिन क्या यह गलत कोडिंग है जो इसे प्रभावित करती है?


अगर मेरा लेखन स्पष्ट नहीं है, तो क्षमा करें, यह लिथुआनिया में एक आधी रात है।
२०:१४ पर पापेल सेलोव

(0,0) के बजाय आपका अज्ञात (-1, -1) क्यों है?
सियामई

1

अपने विश्लेषण की सटीक प्रकृति को जाने बिना, क्या आपने प्रभाव कोडिंग पर विचार किया है? इस तरह से प्रत्येक चर कुछ विशेष छोड़े गए वर्ग के बजाय उस विशेषता / विशेषता बनाम समग्र भव्य माध्य के प्रभाव का प्रतिनिधित्व करेगा। मेरा मानना ​​है कि आप अभी भी श्रेणियों / विशेषताओं में से एक के लिए एक गुणांक याद कर रहे हैं - जिस पर आप -1 को असाइन करते हैं। फिर भी, इस कई डमी के साथ, मुझे लगता है कि भव्य मतलब किसी विशेष छोड़े गए वर्ग की तुलना में अधिक सार्थक तुलना समूह बना देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.