हमें एक डमी चर को त्यागने की आवश्यकता क्यों है?


16

मैंने सीखा है कि, प्रतिगमन मॉडल बनाने के लिए, हमें श्रेणीबद्ध चर का ध्यान रखते हुए उन्हें डमी चर में परिवर्तित करना होगा। उदाहरण के रूप में, यदि, हमारे डेटा सेट में, स्थान जैसा एक चर है:

Location 
----------
Californian
NY
Florida

हमें उन्हें इस तरह बदलना होगा:

1  0  0
0  1  0
0  0  1

हालांकि, यह सुझाव दिया गया था कि हमें एक डमी वैरिएबल को छोड़ना होगा, चाहे कितने भी डमी वैरिएबल हों।

हमें एक डमी चर को त्यागने की आवश्यकता क्यों है?


3
क्योंकि तीसरे डमी को पहले दो: FL = 1 - (CA + NY) के रैखिक संयोजन के रूप में समझाया जा सकता है।
चेनड

@ किचिन लेकिन तीन से अधिक डमी चर के लिए स्पष्टीकरण क्या है?
मिथुन सरकार शुवारो

2
कुल जो भी हो, यह आपके पास कुल श्रेणियों की संख्या से केवल 1 कम होगा। अपने उदाहरण का विस्तार करते हुए, सभी 50 राज्यों को डेटासेट में दर्शाया गया था। किसी दिए गए व्यक्ति के लिए, मान लें कि आप पहले 49 डमियों को देखते हैं, जो सभी शून्य होते हैं, तो आप जानते हैं कि अंतिम डमी एक है बिना देखे भी (डेटासेट में सभी को ग्रहण करना 50 राज्यों में से एक है)। दूसरे शब्दों में, अंतिम डमी की जानकारी पहले से ही 49 के परिणाम में निहित है, इसलिए बोलने के लिए।
चेनडेड

@ किचिन शुक्रिया
मिथुन सरकार

1
अगर यह वसंत नहीं है, गर्मियों में नहीं है और शरद ऋतु नहीं है तो यह सर्दियों है!
स्टीव

जवाबों:


10

सीधे शब्दों में कहें क्योंकि आपकी श्रेणीबद्ध विशेषता (यहां स्थान) का एक स्तर प्रतिगमन के लिए डमी एन्कोडिंग के दौरान संदर्भ समूह बन जाता है और बेमानी है। मैं यहाँ प्रपत्र उद्धृत कर रहा हूँ "K श्रेणियों का एक वैरिएबल चर, या स्तर, आमतौर पर K-1 डमी चर के अनुक्रम के रूप में एक प्रतिगमन में प्रवेश करता है। यह स्तर पर एक रेखीय परिकल्पना के बराबर है।"

यह पहले से ही इस पर चर्चा की है बहुत अच्छा आँकड़ेस्टैकएक्सचेंज उत्तर

मुझे बताया गया था कि कैंडेरा में यांडेक्स द्वारा एक उन्नत पाठ्यक्रम है जो इस विषय को अधिक विवरण में शामिल करता है यदि आपको अभी भी संदेह है, तो यहां देखें । ध्यान दें कि आप हमेशा पाठ्यक्रम की सामग्री को मुफ़्त में ऑडिट कर सकते हैं। ;-)

एक और अच्छी पोस्ट यदि आप सांख्यिकीय परिप्रेक्ष्य के साथ बहुत सारे उदाहरणों के साथ पूरी तरह से स्पष्टीकरण चाहते हैं और केवल डमी कोडिंग तक सीमित नहीं हैं, तो इसे यूसीएलए (आर) से देखें

ध्यान दें कि यदि आप उपयोग कर रहे हैं pandas.get_dummies, तो एक पैरामीटर है, drop_firstताकि पहले स्तर को हटाकर k-1 डमी को k श्रेणीबद्ध स्तरों से बाहर निकाला जा सके। कृपया ध्यान दें default = False, जिसका अर्थ है कि संदर्भ नहीं गिराया गया है और k dummies k श्रेणीगत स्तरों से बाहर बनाया गया है!


4
ध्यान दें कि यह केवल तभी सच है जब आपके मॉडल में एक अवरोधन (यानी, एक स्थिर शब्द) है। अन्यथा, एक-हॉट-एन्कोडिंग का उपयोग करके और एक डमी वैरिएबल को नहीं त्यागने से, आप स्पष्ट रूप से एक अवरोधन जोड़ रहे हैं।
एलियास स्ट्रील

1

आपको अपने उपयोग के मामले के आधार पर एक स्तर गिराने की आवश्यकता नहीं है

देखें
कि किन मामलों में हमें श्रेणीबद्ध चर का पहला स्तर नहीं छोड़ना चाहिए?
और अधिक सामान्य प्रश्न
पर्यवेक्षित शिक्षण में, सहसंबद्ध सुविधाओं का बुरा क्यों है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.