मैं इस तथ्य से अवगत हूं कि कश्मीर स्तरों के साथ श्रेणीबद्ध चर को डमी एन्कोडिंग में k-1 चर के साथ एन्कोड किया जाना चाहिए (इसी तरह बहु-मूल्यवान श्रेणीबद्ध चर के लिए)। मैं सोच रहा था कि अलग-अलग रिग्रेशन के तरीकों के लिए डमी एन्कोडिंग के ऊपर एक हॉट-इनकोडिंग (यानी k वेरिएबल्स का उपयोग करके) कितना मुख्य रूप से लीनियर रिग्रेशन, लीनियर रिग्रेशन (लैस्सो, रिज, इलास्टिकनेट), ट्री-बेस्ड (यादृच्छिक वन) करता है , ढाल बढ़ाने वाली मशीनें)।
मुझे पता है कि रैखिक प्रतिगमन में, बहु-कोलीनियरिटी समस्याएं होती हैं (भले ही व्यवहार में मैंने बिना किसी मुद्दे के ओएचई का उपयोग करके रैखिक प्रतिगमन फिट किया हो)।
हालांकि, क्या उन सभी में डमी एन्कोडिंग का उपयोग करने की आवश्यकता है और अगर एक-एक गर्म एन्कोडिंग का उपयोग करता है तो परिणाम कितना गलत होगा?
मेरा ध्यान कई (उच्च-कार्डिनलिटी) श्रेणीगत चर के साथ प्रतिगमन मॉडल में भविष्यवाणी पर है, इसलिए मुझे विश्वास अंतराल में कोई दिलचस्पी नहीं है।