मेरी समझ यह है कि मशीन सीखने में यह एक समस्या हो सकती है यदि आपके डेटासेट में अत्यधिक सहसंबद्ध विशेषताएं हैं, क्योंकि वे प्रभावी रूप से समान जानकारी को एन्कोड करते हैं।
हाल ही में किसी ने बताया कि जब आप एक सहसंबंधी चर पर एक-गर्म एन्कोडिंग करते हैं तो आप सहसंबद्ध सुविधाओं के साथ समाप्त होते हैं, इसलिए आपको उनमें से एक को "संदर्भ" के रूप में छोड़ देना चाहिए।
उदाहरण के लिए, लिंग को दो चर के रूप में एन्कोडिंग, is_maleऔर is_female, दो विशेषताएं पैदा करती हैं, जो पूरी तरह से नकारात्मक रूप से सहसंबद्ध हैं, इसलिए उन्होंने सिर्फ एक का उपयोग करने का सुझाव दिया, प्रभावी रूप से पुरुष कहने के लिए आधार रेखा की स्थापना की, और फिर यह देखना कि क्या भविष्यवाणिय एल्गोरिथ्म में is_femont कॉलम महत्वपूर्ण है ।
यह मेरे लिए समझ में आया, लेकिन मुझे यह सुझाव देने के लिए ऑनलाइन कुछ भी नहीं मिला कि यह मामला हो सकता है, तो क्या यह गलत है या मैं कुछ याद कर रहा हूं?
संभावित (अनुत्तरित) डुप्लिकेट: क्या SVM और LogReg के लिए एक-हॉट एन्कोडेड फीचर्स की संपुष्टता मायने रखती है?
Does keeping all k values theoretically make them weaker features। नहीं (हालांकि मैं 100% निश्चित नहीं हूं कि आप "कमजोर" से क्या मतलब है)। using something like PCAध्यान दें, बस मामले में, कि एक ही श्रेणीगत चर का प्रतिनिधित्व करने वाले डमी के एक सेट पर पीसीए में थोड़ा व्यावहारिक बिंदु होता है क्योंकि डमी के सेट के अंदर सहसंबंध केवल श्रेणी आवृत्तियों के बीच संबंधों को दर्शाते हैं (इसलिए यदि सभी आवृत्तियां समान हैं सभी सहसंबंध बराबर हैं से 1 / (k-1))।
is_maleदोनों विकल्पों के विपरीत एक चर का उपयोग कर रहे हैं? हो सकता है कि इस संदर्भ में कोई मतलब नहीं है, और यह केवल एक मुद्दा हो सकता है जब आपके पास दो अलग-अलग चर वास्तव में एक ही जानकारी (जैसे इंच में ऊंचाई और सेमी में ऊंचाई) एन्कोडिंग हो।
you end up with correlated features, so you should drop one of them as a "reference"डमी वैरिएबल या इंडिकेटर वैरिएबल (ये दो नाम हैं जो आंकड़ों में इस्तेमाल किए जाते हैं, मशीन लर्निंग में "वन-हॉट एन्कोडिंग" के पर्यायवाची हैं) वैसे भी, ये सभी के या के -1 वैरिएबल हैं। तो, बेहतर शब्द "सहसंबद्ध" के बजाय "सांख्यिकीय / सूचनात्मक रूप से निरर्थक" है।