मेरी समझ यह है कि मशीन सीखने में यह एक समस्या हो सकती है यदि आपके डेटासेट में अत्यधिक सहसंबद्ध विशेषताएं हैं, क्योंकि वे प्रभावी रूप से समान जानकारी को एन्कोड करते हैं।
हाल ही में किसी ने बताया कि जब आप एक सहसंबंधी चर पर एक-गर्म एन्कोडिंग करते हैं तो आप सहसंबद्ध सुविधाओं के साथ समाप्त होते हैं, इसलिए आपको उनमें से एक को "संदर्भ" के रूप में छोड़ देना चाहिए।
उदाहरण के लिए, लिंग को दो चर के रूप में एन्कोडिंग, is_male
और is_female
, दो विशेषताएं पैदा करती हैं, जो पूरी तरह से नकारात्मक रूप से सहसंबद्ध हैं, इसलिए उन्होंने सिर्फ एक का उपयोग करने का सुझाव दिया, प्रभावी रूप से पुरुष कहने के लिए आधार रेखा की स्थापना की, और फिर यह देखना कि क्या भविष्यवाणिय एल्गोरिथ्म में is_femont कॉलम महत्वपूर्ण है ।
यह मेरे लिए समझ में आया, लेकिन मुझे यह सुझाव देने के लिए ऑनलाइन कुछ भी नहीं मिला कि यह मामला हो सकता है, तो क्या यह गलत है या मैं कुछ याद कर रहा हूं?
संभावित (अनुत्तरित) डुप्लिकेट: क्या SVM और LogReg के लिए एक-हॉट एन्कोडेड फीचर्स की संपुष्टता मायने रखती है?
Does keeping all k values theoretically make them weaker features
। नहीं (हालांकि मैं 100% निश्चित नहीं हूं कि आप "कमजोर" से क्या मतलब है)। using something like PCA
ध्यान दें, बस मामले में, कि एक ही श्रेणीगत चर का प्रतिनिधित्व करने वाले डमी के एक सेट पर पीसीए में थोड़ा व्यावहारिक बिंदु होता है क्योंकि डमी के सेट के अंदर सहसंबंध केवल श्रेणी आवृत्तियों के बीच संबंधों को दर्शाते हैं (इसलिए यदि सभी आवृत्तियां समान हैं सभी सहसंबंध बराबर हैं से 1 / (k-1))।
is_male
दोनों विकल्पों के विपरीत एक चर का उपयोग कर रहे हैं? हो सकता है कि इस संदर्भ में कोई मतलब नहीं है, और यह केवल एक मुद्दा हो सकता है जब आपके पास दो अलग-अलग चर वास्तव में एक ही जानकारी (जैसे इंच में ऊंचाई और सेमी में ऊंचाई) एन्कोडिंग हो।
you end up with correlated features, so you should drop one of them as a "reference"
डमी वैरिएबल या इंडिकेटर वैरिएबल (ये दो नाम हैं जो आंकड़ों में इस्तेमाल किए जाते हैं, मशीन लर्निंग में "वन-हॉट एन्कोडिंग" के पर्यायवाची हैं) वैसे भी, ये सभी के या के -1 वैरिएबल हैं। तो, बेहतर शब्द "सहसंबद्ध" के बजाय "सांख्यिकीय / सूचनात्मक रूप से निरर्थक" है।