एक-गर्म एन्कोडिंग का उपयोग करते समय किसी एक स्तंभ को गिरा देना

मेरी समझ यह है कि मशीन सीखने में यह एक समस्या हो सकती है यदि आपके डेटासेट में अत्यधिक सहसंबद्ध विशेषताएं हैं, क्योंकि वे प्रभावी रूप से समान जानकारी को एन्कोड करते हैं।

हाल ही में किसी ने बताया कि जब आप एक सहसंबंधी चर पर एक-गर्म एन्कोडिंग करते हैं तो आप सहसंबद्ध सुविधाओं के साथ समाप्त होते हैं, इसलिए आपको उनमें से एक को "संदर्भ" के रूप में छोड़ देना चाहिए।

उदाहरण के लिए, लिंग को दो चर के रूप में एन्कोडिंग, is_maleऔर is_female, दो विशेषताएं पैदा करती हैं, जो पूरी तरह से नकारात्मक रूप से सहसंबद्ध हैं, इसलिए उन्होंने सिर्फ एक का उपयोग करने का सुझाव दिया, प्रभावी रूप से पुरुष कहने के लिए आधार रेखा की स्थापना की, और फिर यह देखना कि क्या भविष्यवाणिय एल्गोरिथ्म में is_femont कॉलम महत्वपूर्ण है ।

यह मेरे लिए समझ में आया, लेकिन मुझे यह सुझाव देने के लिए ऑनलाइन कुछ भी नहीं मिला कि यह मामला हो सकता है, तो क्या यह गलत है या मैं कुछ याद कर रहा हूं?

संभावित (अनुत्तरित) डुप्लिकेट: क्या SVM और LogReg के लिए एक-हॉट एन्कोडेड फीचर्स की संपुष्टता मायने रखती है?

— dasboth
स्रोत

you end up with correlated features, so you should drop one of them as a "reference"डमी वैरिएबल या इंडिकेटर वैरिएबल (ये दो नाम हैं जो आंकड़ों में इस्तेमाल किए जाते हैं, मशीन लर्निंग में "वन-हॉट एन्कोडिंग" के पर्यायवाची हैं) वैसे भी, ये सभी के या के -1 वैरिएबल हैं। तो, बेहतर शब्द "सहसंबद्ध" के बजाय "सांख्यिकीय / सूचनात्मक रूप से निरर्थक" है।

— ttnphns 14

सभी k डमी का सेट मल्टीकोलिनियर सेट है क्योंकि यदि आप डेटा में k-1 डमी के मूल्यों को जानते हैं तो आप स्वचालित रूप से उस अंतिम एक डमी के मूल्यों को जानते हैं। कुछ डेटा विश्लेषण विधियों या एल्गोरिदम के लिए आवश्यक है कि आप किसी एक को छोड़ दें। अन्य सभी के साथ सामना करने में सक्षम हैं।

— ttnphns 14

@ttnphns: धन्यवाद, जो समझ में आता है। सभी k मानों को सैद्धांतिक रूप से रखने से क्या वे कमजोर विशेषताएं हैं जिन्हें आयामीता में कमी के साथ समाप्त किया जा सकता है / किया जाना चाहिए? PCA जैसी किसी चीज़ का उपयोग करने के लिए एक तर्क अक्सर सहसंबद्ध / निरर्थक विशेषताओं को हटाने के लिए होता है, मैं सोच रहा था कि क्या सभी k चर उस श्रेणी में आते हैं।

— डसबॉथ

Does keeping all k values theoretically make them weaker features। नहीं (हालांकि मैं 100% निश्चित नहीं हूं कि आप "कमजोर" से क्या मतलब है)। using something like PCAध्यान दें, बस मामले में, कि एक ही श्रेणीगत चर का प्रतिनिधित्व करने वाले डमी के एक सेट पर पीसीए में थोड़ा व्यावहारिक बिंदु होता है क्योंकि डमी के सेट के अंदर सहसंबंध केवल श्रेणी आवृत्तियों के बीच संबंधों को दर्शाते हैं (इसलिए यदि सभी आवृत्तियां समान हैं सभी सहसंबंध बराबर हैं से 1 / (k-1))।

— ttnphns

मेरे कहने का मतलब यह है कि जब आप अपने मॉडल का उपयोग सुविधा के महत्व का मूल्यांकन करने के लिए करते हैं (जैसे एक यादृच्छिक जंगल के साथ) तो क्या यह उस चर के महत्व को कम करेगा यदि आप सभी k मानों को शामिल करते हैं? जैसे, क्या आपको लिंग के महत्व का एक "ट्रूअर" अनुमान मिलता है यदि आप केवल is_maleदोनों विकल्पों के विपरीत एक चर का उपयोग कर रहे हैं? हो सकता है कि इस संदर्भ में कोई मतलब नहीं है, और यह केवल एक मुद्दा हो सकता है जब आपके पास दो अलग-अलग चर वास्तव में एक ही जानकारी (जैसे इंच में ऊंचाई और सेमी में ऊंचाई) एन्कोडिंग हो।

— दासबथ

lmglm $^\dagger$

$^\ddagger$

अन्य मॉडलों के साथ, समान सिद्धांतों का उपयोग करें। यदि प्राप्त की गई भविष्यवाणियां इस बात पर निर्भर करती हैं कि आप किन कॉलमों को छोड़ते हैं, तो ऐसा न करें। नहीं तो ठीक है।

अब तक, इस उत्तर में केवल रैखिक (और कुछ हल्के गैर-रैखिक) मॉडल का उल्लेख है। लेकिन पेड़ों और randomforests की तरह बहुत गैर रेखीय मॉडल के बारे में क्या? एक-हॉट जैसे श्रेणीबद्ध एन्कोडिंग के बारे में विचार, मुख्य रूप से रैखिक मॉडल और एक्सटेंशन से उपजा है। यह सोचने का कोई कारण नहीं है कि उस संदर्भ से प्राप्त विचार पेड़ों और जंगलों के लिए संशोधन के बिना लागू होना चाहिए! कुछ विचारों के लिए अजगर में विरल डेटा के साथ यादृच्छिक वन प्रतिगमन देखें ।

$^\dagger$

$^\ddagger$ $\beta_, \beta_2, \beta_3$ $\beta_1=0$ $\beta_2-\beta_1, \beta_3-\beta_1$

— kjetil b halvorsen
स्रोत

मैं इस बात से सहमत हो सकता हूं कि संदर्भ चर का चुनाव नियमित रूप से प्रतिगमन के परिणाम को प्रभावित करेगा, लेकिन मुझे यकीन नहीं है कि सभी चर को छोड़ दिया जाए जैसा कि एक को छोड़ने से बेहतर है। क्या आपके पास इसका कोई कारण है?

— कोटा मोरी

खैर, केवल दो विकल्प ... सभी स्तरों को ध्यान में रखते हुए और कोई मनमानी नहीं है। यदि आपके पास अन्य रीज़न आरओ हैं तो स्तरों की संख्या को कम करना चाहते हैं, जैसे कि उनमें से बहुत से, आपको हमें इस बारे में बताना चाहिए

— kjetil b halvorsen