एक-गर्म एन्कोडिंग बनाम डमी एन्कोडिंग के साथ समस्याएं


11

मैं इस तथ्य से अवगत हूं कि कश्मीर स्तरों के साथ श्रेणीबद्ध चर को डमी एन्कोडिंग में k-1 चर के साथ एन्कोड किया जाना चाहिए (इसी तरह बहु-मूल्यवान श्रेणीबद्ध चर के लिए)। मैं सोच रहा था कि अलग-अलग रिग्रेशन के तरीकों के लिए डमी एन्कोडिंग के ऊपर एक हॉट-इनकोडिंग (यानी k वेरिएबल्स का उपयोग करके) कितना मुख्य रूप से लीनियर रिग्रेशन, लीनियर रिग्रेशन (लैस्सो, रिज, इलास्टिकनेट), ट्री-बेस्ड (यादृच्छिक वन) करता है , ढाल बढ़ाने वाली मशीनें)।

मुझे पता है कि रैखिक प्रतिगमन में, बहु-कोलीनियरिटी समस्याएं होती हैं (भले ही व्यवहार में मैंने बिना किसी मुद्दे के ओएचई का उपयोग करके रैखिक प्रतिगमन फिट किया हो)।

हालांकि, क्या उन सभी में डमी एन्कोडिंग का उपयोग करने की आवश्यकता है और अगर एक-एक गर्म एन्कोडिंग का उपयोग करता है तो परिणाम कितना गलत होगा?

मेरा ध्यान कई (उच्च-कार्डिनलिटी) श्रेणीगत चर के साथ प्रतिगमन मॉडल में भविष्यवाणी पर है, इसलिए मुझे विश्वास अंतराल में कोई दिलचस्पी नहीं है।


10
मेरा दावा है कि दोनों में अंतर करना गलत है। डमी चर और एक-गर्म चर पूर्ण पर्यायवाची हैं। पहला शब्द पुराना है और सांख्यिकी से आता है, जबकि दूसरा छोटा है और मशीन सीखने से आता है। तीसरा और अधिक औपचारिक पर्यायवाची है सूचक प्रकार विपरीत चर। सवाल यह है कि ऐसे प्रारंभिक चर के सेट में सभी k या k-1 गैर-निरर्थक चर का उपयोग करने का उस शब्दावली से कोई लेना-देना नहीं है और यह विश्लेषण के प्रकार और कंक्रीट एल्गोरिथम या प्रोग्राम पर निर्भर करता है।
ttnphns

2
(प्रतियोगिता।) उदाहरण के लिए, एक प्रतिगमन सॉफ़्टवेयर आमतौर पर विलक्षणता के कारण सभी k में प्रवेश करने की अनुमति नहीं देगा, लेकिन समकक्ष सामान्य रैखिक मॉडलिंग सॉफ्टवेयर इसे अनुमति दे सकता है क्योंकि यह छद्म बिंदु दृष्टिकोण का उपयोग करता है।
ttnphns

1
मैं @ttnphns के साथ हूं, वे दोनों सिर्फ भयानक नाम हैं। मुझे फुल-एन्कोडिंग और लीव-वन-आउट एन्कोडिंग पसंद है
मैथ्यू

2
शब्दावली के लिए क्षमा याचना, यह मानक शब्द हैं जो मैंने चिकित्सकों (और इसी तरह की उन्मुख पुस्तकों) द्वारा उपयोग किए गए हैं। कोलीनियरिटी का मुद्दा केवल रैखिक (अनपेक्षित मॉडल) में दिखाई देता है? सभी सॉफ्टवेयर सभी k में प्रवेश करने से नहीं रुकते हैं (जैसे कि पायथन का स्किटिट-लर्न, मुझे गलत होने पर सही करें)
user90772

@MatthewDrury मेरे पालतू जानवरों में से एक डुप्लिकेट शब्द / वाक्यांश सांख्यिकीय विश्लेषण के क्षेत्र में रेंगने वाले हैं, जैसे "एक-गर्म एन्कोडिंग" और "ए / बी परीक्षण"। हर किसी को भ्रम से बचने के लिए पुराने "डमी कोडिंग" और "परिकल्पना परीक्षण" के साथ रहना चाहिए।
राबर्टएफ

जवाबों:


7

एक स्पष्ट चर का प्रतिनिधित्व करने वाला मुद्दा k के साथ स्तर kप्रतिगमन में चर यह है कि, यदि मॉडल में एक स्थिर शब्द भी है, तो शर्तें रैखिक रूप से निर्भर होंगी और इसलिए मॉडल अज्ञात होगा। उदाहरण के लिए, यदि मॉडल और , तो पैरामीटर वेक्टर का कोई भी विकल्प । इसलिए यद्यपि सॉफ्टवेयर आपको इन मापदंडों के लिए अनुमान देने के लिए तैयार हो सकता है, वे विशिष्ट रूप से निर्धारित नहीं हैं और इसलिए शायद बहुत उपयोगी नहीं होंगे।μ=a0+a1X1+a2X2X2=1X1(β0,β1,β2)(β0+β2,β1β2,0)

दंड देने से मॉडल पहचान में आ जाएगा, लेकिन निरर्थक कोडिंग अभी भी ऊपर दिए गए अजीब तरीकों से पैरामीटर मूल्यों को प्रभावित करेगा।

एक निर्णय पेड़ (या पेड़ों की टुकड़ी) पर एक निरर्थक कोडिंग का प्रभाव संभवतः दूसरों के संबंध में सुविधा को अधिक वजन करने के लिए होगा, क्योंकि यह एक अतिरिक्त निरर्थक चर के साथ प्रतिनिधित्व किया जाता है और इसलिए इसे इसके बजाय अधिक बार चुना जाएगा अन्यथा विभाजन।


1
मुझे नहीं लगता कि किसी पेड़ में एक अवरोधक या पेड़ों का पहनावा शामिल करने का कोई कारण है। मेरा मानना ​​है कि रैखिक प्रकार के मॉडल के लिए विशेष रूप से एक चीज है। तो पेड़ आधारित मॉडल के लिए, मुझे लगता है कि सही विचार अवरोधन, पूर्ण एन्कोडिंग नहीं है।
मैथ्यू ड्र्यू

@MatthewDrury मुझे लगता है कि आप इंटरसेप्ट के बारे में सही हैं, लेकिन फिर भी, एक पेड़ के लिए, निरर्थक कोडिंग सीमित उपयोग की लगती है। उदाहरण के लिए, यदि एक विशेषता द्विआधारी है, तो पहली कक्षा में विभाजन और दूसरी कक्षा में विभाजित होने के बीच क्या अंतर है? कुछ नहीं, अभी तक जितना मैं बता सकता हूं।
कोडियोलॉजिस्ट

यह सच है, लेकिन मुझे लगता है कि सब कुछ स्पष्ट रूप से निष्पक्ष और व्याख्यात्मक रखने के लिए पूर्ण समरूपता रखना सबसे सरल तरीका है।
मैथ्यू पारा

1

कोडियोलॉजिस्ट के पास एक शानदार उत्तर (+1) था। एक-गर्म एन्कोडिंग बनाम डमी एन्कोडिंग एन्कोडिंग विधियां समान हैं, डिजाइन मैट्रिक्स के संदर्भ में एक ही स्थान में हैं, अलग-अलग आधार हैं। (हालांकि एक-गर्म एन्कोडिंग में अधिक कॉलम हैं)

इसलिए यदि आप व्याख्या की बजाय सटीकता पर ध्यान दे रहे हैं। दो एन्कोडिंग तरीकों से कोई फर्क नहीं पड़ता।


1
पांडित्यपूर्ण होने के लिए, एक-गर्म संस्करण एक आधार नहीं है (क्योंकि यह रैखिक रूप से निर्भर है); यह सिर्फ एक ही स्थान फैला है। लेकिन क्या आपको यकीन है कि एन्कोडिंग सटीकता के लिए कोई फर्क नहीं पड़ता है? विशेष रूप से दंडित प्रतिगमन के मामले में, मुझे लगता है कि अंतिम चयनित मॉडल अलग-अलग भविष्यवाणियां करेगा।
कोडियोलॉजिस्ट

@Kodiologist आधार मुद्दे पर मुझे सही करने के लिए धन्यवाद।
डू

@Kodiologist नियमित रैखिक पद्धति में सटीकता भिन्न क्यों होगी?
डू

4
नियमित रूप से प्रतिगमन में, आपको हमेशा एक पूर्ण एन्कोडिंग का उपयोग करना चाहिए (यानी छुट्टी-एक-आउट नहीं, मैं आपके द्वारा उपयोग किए जाने वाले नामों को सीधे नहीं रख सकता, और उन्हें स्वयं उपयोग नहीं करना पसंद करता हूं)। ऐसा इसलिए है क्योंकि इंटरसेप्ट को दंडित नहीं किया गया है, इसलिए यदि आप किसी स्तर के प्रभाव का उल्लेख कर रहे हैं, तो इंटरसेप्ट का हिस्सा नहीं है, यह कहना मुश्किल है कि आप सभी स्तरों को समान रूप से दंडित कर रहे हैं। इसके बजाय, हमेशा सभी स्तरों को शामिल करें, इसलिए प्रत्येक दंड के संबंध में सममित है।
मैथ्यू

1
@ मैथ्यू डॉरी, इस आखिरी टिप्पणी के लिए धन्यवाद। क्या आप कृपया उत्तर में इसका विस्तार कर सकते हैं? तो यह केवल सादे रैखिक प्रतिगमन के लिए है जहां डमी एन्कोडिंग आवश्यक है?
user90772

1

मैं इस सवाल का सर्वश्रेष्ठ उत्तर @MatthewDrury, जिसमें कहा गया है कि द्वारा टिप्पणी में दफन है लग रहा है एक अंतर और आप किसी भी नियमित दृष्टिकोण में प्रतीत होता है अनावश्यक स्तंभ उपयोग करना होगा। @ मैथ्यू डुडरी का तर्क है

[नियमित प्रतिगमन में], अवरोधन को दंडित नहीं किया जाता है, इसलिए यदि आप किसी स्तर के प्रभाव को अंतरविरोध का हिस्सा नहीं बता रहे हैं, तो यह कहना कठिन है कि आप सभी स्तरों को समान रूप से दंडित कर रहे हैं। इसके बजाय, हमेशा सभी स्तरों को शामिल करें, इसलिए प्रत्येक दंड के संबंध में सममित है।

मुझे लगता है कि उसे एक बिंदु मिल गया है।


तो आपको स्थिति के आधार पर स्तरों के kसाथ या स्तरों के साथ एक गर्म एन्कोडिंग चर होना चाहिए k-1। आपके बयान (नियमित / नियमित नहीं) के अलावा, क्या सभी मामलों में क्या करना है, इस पर दिशा-निर्देश होंगे?
दान चाल्टियल

मेरा नियम है कि अगर कोई नियमितीकरण नहीं है, जैसा कि शास्त्रीय एनोवा में के -1 स्तरों का उपयोग किया गया है। यदि नियमितीकरण है, जैसा कि एल 2 नियमितीकरण के साथ बायेसियन विधियों या प्रतिगमन में है, तो के स्तरों का उपयोग करें।
बेन ओगोरक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.