एक-गर्म एन्कोडिंग का उपयोग करते समय किसी एक स्तंभ को गिरा देना


23

मेरी समझ यह है कि मशीन सीखने में यह एक समस्या हो सकती है यदि आपके डेटासेट में अत्यधिक सहसंबद्ध विशेषताएं हैं, क्योंकि वे प्रभावी रूप से समान जानकारी को एन्कोड करते हैं।

हाल ही में किसी ने बताया कि जब आप एक सहसंबंधी चर पर एक-गर्म एन्कोडिंग करते हैं तो आप सहसंबद्ध सुविधाओं के साथ समाप्त होते हैं, इसलिए आपको उनमें से एक को "संदर्भ" के रूप में छोड़ देना चाहिए।

उदाहरण के लिए, लिंग को दो चर के रूप में एन्कोडिंग, is_maleऔर is_female, दो विशेषताएं पैदा करती हैं, जो पूरी तरह से नकारात्मक रूप से सहसंबद्ध हैं, इसलिए उन्होंने सिर्फ एक का उपयोग करने का सुझाव दिया, प्रभावी रूप से पुरुष कहने के लिए आधार रेखा की स्थापना की, और फिर यह देखना कि क्या भविष्यवाणिय एल्गोरिथ्म में is_femont कॉलम महत्वपूर्ण है ।

यह मेरे लिए समझ में आया, लेकिन मुझे यह सुझाव देने के लिए ऑनलाइन कुछ भी नहीं मिला कि यह मामला हो सकता है, तो क्या यह गलत है या मैं कुछ याद कर रहा हूं?

संभावित (अनुत्तरित) डुप्लिकेट: क्या SVM और LogReg के लिए एक-हॉट एन्कोडेड फीचर्स की संपुष्टता मायने रखती है?


8
you end up with correlated features, so you should drop one of them as a "reference"डमी वैरिएबल या इंडिकेटर वैरिएबल (ये दो नाम हैं जो आंकड़ों में इस्तेमाल किए जाते हैं, मशीन लर्निंग में "वन-हॉट एन्कोडिंग" के पर्यायवाची हैं) वैसे भी, ये सभी के या के -1 वैरिएबल हैं। तो, बेहतर शब्द "सहसंबद्ध" के बजाय "सांख्यिकीय / सूचनात्मक रूप से निरर्थक" है।
ttnphns 14

सभी k डमी का सेट मल्टीकोलिनियर सेट है क्योंकि यदि आप डेटा में k-1 डमी के मूल्यों को जानते हैं तो आप स्वचालित रूप से उस अंतिम एक डमी के मूल्यों को जानते हैं। कुछ डेटा विश्लेषण विधियों या एल्गोरिदम के लिए आवश्यक है कि आप किसी एक को छोड़ दें। अन्य सभी के साथ सामना करने में सक्षम हैं।
ttnphns 14

@ttnphns: धन्यवाद, जो समझ में आता है। सभी k मानों को सैद्धांतिक रूप से रखने से क्या वे कमजोर विशेषताएं हैं जिन्हें आयामीता में कमी के साथ समाप्त किया जा सकता है / किया जाना चाहिए? PCA जैसी किसी चीज़ का उपयोग करने के लिए एक तर्क अक्सर सहसंबद्ध / निरर्थक विशेषताओं को हटाने के लिए होता है, मैं सोच रहा था कि क्या सभी k चर उस श्रेणी में आते हैं।
डसबॉथ

Does keeping all k values theoretically make them weaker features। नहीं (हालांकि मैं 100% निश्चित नहीं हूं कि आप "कमजोर" से क्या मतलब है)। using something like PCAध्यान दें, बस मामले में, कि एक ही श्रेणीगत चर का प्रतिनिधित्व करने वाले डमी के एक सेट पर पीसीए में थोड़ा व्यावहारिक बिंदु होता है क्योंकि डमी के सेट के अंदर सहसंबंध केवल श्रेणी आवृत्तियों के बीच संबंधों को दर्शाते हैं (इसलिए यदि सभी आवृत्तियां समान हैं सभी सहसंबंध बराबर हैं से 1 / (k-1))।
ttnphns

मेरे कहने का मतलब यह है कि जब आप अपने मॉडल का उपयोग सुविधा के महत्व का मूल्यांकन करने के लिए करते हैं (जैसे एक यादृच्छिक जंगल के साथ) तो क्या यह उस चर के महत्व को कम करेगा यदि आप सभी k मानों को शामिल करते हैं? जैसे, क्या आपको लिंग के महत्व का एक "ट्रूअर" अनुमान मिलता है यदि आप केवल is_maleदोनों विकल्पों के विपरीत एक चर का उपयोग कर रहे हैं? हो सकता है कि इस संदर्भ में कोई मतलब नहीं है, और यह केवल एक मुद्दा हो सकता है जब आपके पास दो अलग-अलग चर वास्तव में एक ही जानकारी (जैसे इंच में ऊंचाई और सेमी में ऊंचाई) एन्कोडिंग हो।
दासबथ

जवाबों:


25

lmglm

अन्य मॉडलों के साथ, समान सिद्धांतों का उपयोग करें। यदि प्राप्त की गई भविष्यवाणियां इस बात पर निर्भर करती हैं कि आप किन कॉलमों को छोड़ते हैं, तो ऐसा न करें। नहीं तो ठीक है।

अब तक, इस उत्तर में केवल रैखिक (और कुछ हल्के गैर-रैखिक) मॉडल का उल्लेख है। लेकिन पेड़ों और randomforests की तरह बहुत गैर रेखीय मॉडल के बारे में क्या? एक-हॉट जैसे श्रेणीबद्ध एन्कोडिंग के बारे में विचार, मुख्य रूप से रैखिक मॉडल और एक्सटेंशन से उपजा है। यह सोचने का कोई कारण नहीं है कि उस संदर्भ से प्राप्त विचार पेड़ों और जंगलों के लिए संशोधन के बिना लागू होना चाहिए! कुछ विचारों के लिए अजगर में विरल डेटा के साथ यादृच्छिक वन प्रतिगमन देखें ।

β,β2,β3β1=0β2β1,β3β1


मैं इस बात से सहमत हो सकता हूं कि संदर्भ चर का चुनाव नियमित रूप से प्रतिगमन के परिणाम को प्रभावित करेगा, लेकिन मुझे यकीन नहीं है कि सभी चर को छोड़ दिया जाए जैसा कि एक को छोड़ने से बेहतर है। क्या आपके पास इसका कोई कारण है?
कोटा मोरी

खैर, केवल दो विकल्प ... सभी स्तरों को ध्यान में रखते हुए और कोई मनमानी नहीं है। यदि आपके पास अन्य रीज़न आरओ हैं तो स्तरों की संख्या को कम करना चाहते हैं, जैसे कि उनमें से बहुत से, आपको हमें इस बारे में बताना चाहिए
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.