एक गर्म एन्कोडिंग और एक बाहर एन्कोडिंग के बीच अंतर क्या है?


13

मैं एक प्रस्तुति पढ़ रहा हूं और यह अनुशंसा करता है कि किसी एक को एन्कोडिंग का उपयोग न करें, लेकिन यह एक गर्म एन्कोडिंग के साथ ठीक है। मुझे लगा कि वे दोनों एक ही हैं। क्या कोई बता सकता है कि उनके बीच क्या अंतर हैं?


1
यह स्पष्ट नहीं है (केवल आपके प्रश्न से) क्या छुट्टी पर भी है। आपको एक संकेतक देने के लिए इसे संपादित करना चाहिए और दोनों की अपनी समझ को संक्षेप में समझाना चाहिए, और आपको क्यों लगता है कि वे समान हैं।
सीन ओवेन

जवाबों:


15

वे शायद ओवेन झांग की रणनीति का उल्लेख करने के लिए "एक को छोड़ एन्कोडिंग" का उपयोग कर रहे हैं।

प्रेषक: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

एन्कोडेड कॉलम एक पारंपरिक डमी वैरिएबल नहीं है, बल्कि इस श्रेणी के स्तर के लिए सभी पंक्तियों पर औसत प्रतिक्रिया है, पंक्ति को छोड़कर। यह आपको प्रत्यक्ष प्रतिक्रिया रिसाव से बचने के दौरान श्रेणीबद्ध का एक-स्तंभ प्रतिनिधित्व करने का लाभ देता है

यह चित्र विचार को अच्छी तरह व्यक्त करता है। यहाँ छवि विवरण दर्ज करें


आपका स्पष्टीकरण wacax के संदर्भित लिंक से बेहतर है, धन्यवाद
एलन रुइन

हाय @ डेक्स ग्रोव्स, इसलिए टेस्ट के लिए लीव_ऑन_आउट एन्कोडिंग हमेशा है ।5?
user7117436

3
नमस्ते! जैसा कि चित्र से देखा गया है, यह विशेष उदाहरण वर्गीकरण समस्या से संबंधित है। किसी को प्रतिगमन समस्या के भीतर LOO एन्कोडिंग के साथ एक अनुभव है? मुख्य सवाल यह है कि लक्ष्य चर को कैसे जोड़ा जाए। मैं अब प्रयोग कर रहा हूं और माध्य (y) के साथ बहुत बड़ा हो रहा हूं।
एलेक्सी ट्रोफिमोव

1
एक क्लस्टरिंग (अनसुनी) समस्या के लिए, इस तरह के एन्कोडिंग का उपयोग करना संभव है?
enneppi

@AlexeyTrofimov - कम विचरण के साथ एकत्रीकरण का प्रयास करें। मैं अलग-अलग बायनिंग (जैसे 1K, 2K, 2M, .. बड़े y int मानों के लिए, या y फ़्लोट वैल्यूज़ के लिए दशमलव स्थान पर कुछ राउंडिंग) के साथ शुरू करूँगा => mean (bin_f (y))
mork
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.