डमी चर को केंद्रित करना और स्केल करना


13

मेरे पास एक डेटा सेट है जिसमें श्रेणीबद्ध चर और निरंतर चर दोनों हैं। मुझे सलाह दी गई कि मैं प्रत्येक स्तर के लिए श्रेणीबद्ध चर को बाइनरी चर के रूप में बदल दूं (यानी, A_level1: {0,1}, A_level2: {0,1}) - मुझे लगता है कि कुछ लोगों ने इसे "डमी चर" कहा है।

इसके साथ ही यह भी कहा गया कि क्या यह नए केंद्रों के साथ सेट किए गए संपूर्ण डेटा को केंद्र और पैमाने पर गुमराह करेगा? ऐसा लगता है जैसे मैं चर के "चालू / बंद" अर्थ को खो दूंगा।

यदि यह भ्रामक है, तो क्या इसका मतलब है कि मैं निरंतर चर अलग-अलग केंद्र और पैमाने पर रखूं और फिर इसे अपने डेटा सेट में पुनः जोड़ दूं?

TIA।


1
चाहे वह केंद्र और / या स्केल डमी चर के लिए स्वीकार्य या उचित हो, आवेदन पर निर्भर करता है, विश्लेषण पर आप योजना बना रहे हैं और कार्य-विशिष्ट विचार कर रहे हैं। तो एक भी सही उत्तर नहीं है। अधिकांश सामान्य, मोटे रूप में, यह अक्सर पूर्वसूचक डमी चर के साथ करना ठीक है; यह अक्सर प्रतिक्रिया डमी चर या क्लस्टरिंग या कारक विश्लेषण जैसे बहुभिन्नरूपी तरीकों के साथ यह एक बुरा विचार है।
ttnphns

जवाबों:


13

प्रतिगमन विश्लेषण में उपयोग के लिए डमी चर का निर्माण करते समय, एक को छोड़कर एक श्रेणीगत चर में प्रत्येक श्रेणी को एक द्विआधारी चर मिलना चाहिए। तो आपके पास होना चाहिए जैसे A_level2, A_level3 आदि। श्रेणियों में से एक में बाइनरी चर नहीं होना चाहिए, और यह श्रेणी संदर्भ श्रेणी के रूप में काम करेगी। यदि आप श्रेणियों में से एक को छोड़ नहीं देते हैं, तो आपके प्रतिगमन विश्लेषण ठीक से नहीं चलेंगे।

यदि आप SPSS या R का उपयोग करते हैं, तो मुझे नहीं लगता कि पूरे डेटा सेट की स्केलिंग और सेंटरिंग आमतौर पर एक समस्या होगी क्योंकि सॉफ्टवेयर पैकेज अक्सर कारकों के रूप में केवल दो स्तरों के साथ चर की व्याख्या करते हैं, लेकिन यह विशिष्ट सांख्यिकीय विधियों पर निर्भर करता है। । किसी भी मामले में, यह द्विआधारी और केंद्र (या श्रेणीबद्ध) चर का कोई मतलब नहीं है इसलिए आपको केवल केंद्र और पैमाने पर निरंतर चर चाहिए यदि आपको ऐसा करना चाहिए।


2
मेरी मजबूत भावना यह है कि उत्तर का एकमात्र हिस्सा जो वास्तव में ओपी प्रश्न का उत्तर दे रहा है, वह अंतिम वाक्य है - एक हिस्सा जो अस्पष्टीकृत है। आप कहते हैं कि उन्हें पैमाना मत समझाइए लेकिन क्यों समझाएं। इस बीच, विषय बहुत आसान नहीं है।
ttnphns

यह श्रेणीबद्ध चर को कोड करने का केवल एक तरीका है। मेरे पास एक पूर्ण उत्तर लिखने का समय नहीं है, लेकिन "विरोधाभासों" पर खोज करने से मदद मिल सकती है। एक प्रासंगिक उत्तर है, आँकड़े .stackexchange.com
questions/

3

यदि आप केवल 0 और 1 के बीच के पैमाने पर 0 या 1 वाले डमी चर या चर को स्केल कर रहे हैं, तो आप R का उपयोग कर रहे हैं, तो इन चरों के मानों पर कोई बदलाव नहीं होगा, बाकी कॉलम स्केल किए जाएंगे।

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

दिलचस्प टिप। साझा करने के लिए धन्यवाद। मेरे पूछने के बाद से कुछ समय हो गया है, लेकिन यह देखने के लिए अच्छा है कि मैं अभी भी इन पुरानी पोस्टों से सीख सकता हूं।
user2300643

3

प्रतिगमन में मध्य बिंदु का मतलब अवरोधन को अधिक व्याख्यात्मक बनाना है। यही है, आईडी का मतलब है कि आपके प्रतिगमन मॉडल में सभी चर केंद्र हैं, फिर इंटरसेप्ट (जिसे एसपीएसएस आउटपुट में कॉन्स्टेंट कहा जाता है) आपके परिणाम चर के लिए समग्र भव्य साधन के बराबर है। जो अंतिम मॉडल की व्याख्या करते समय सुविधाजनक हो सकता है।

जैसा कि डमी चर को केंद्रित करने के लिए, मेरा सिर्फ एक प्रोफेसर के साथ एक प्रतिगमन मॉडल (मेरे मामले में 3 स्तरों के साथ एक यादृच्छिक ब्लॉक डिजाइन बहुस्तरीय मॉडल) में डमी चर को केंद्रित करने के बारे में मेरी बातचीत थी और मेरे ले-ऑफ का अर्थ था कि डमी चर वास्तव में प्रतिगमन गुणांक की व्याख्या को नहीं बदलते हैं (सिवाय इसके कि समाधान पूरी तरह से मानकीकृत है)। आमतौर पर, वास्तविक इकाई स्तर का मतलब केंद्रित मूल्य की व्याख्या करने के लिए प्रतिगमन में आवश्यक नहीं है - केवल गुणांक। और यह अनिवार्य रूप से नहीं बदलता है - अधिकांश भाग के लिए। उसने कहा कि यह थोड़ा बदल जाता है क्योंकि यह मानकीकृत है, जो डमी के लिए, समझने के लिए उतना सहज नहीं है।

कैविएट: यह मेरी समझ थी जब मैंने अपने प्रोफेसर के पद को छोड़ दिया। मैं, निश्चित रूप से, यह गलत हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.