सुविधाओं की अतिरेक की मात्रा कैसे निर्धारित करें?

मेरे पास तीन विशेषताएं हैं जो मैं वर्गीकरण समस्या को हल करने के लिए उपयोग करता हूं। मूल रूप से, इन विशेषताओं ने बूलियन मूल्यों का उत्पादन किया, इसलिए मैं सकारात्मक और नकारात्मक वर्गीकरणों के ओवरलैप को देखते हुए उनके अतिरेक का मूल्यांकन कर सकता था। अब मैंने इसके बजाय वास्तविक मूल्यों (स्कोर) का निर्माण करने के लिए सुविधाओं को बढ़ा दिया है, और मैं उनके अतिरेक का फिर से विश्लेषण करना चाहूंगा, लेकिन मैं यह पूरी तरह से नुकसान में हूं कि यह कैसे करना है। किसी ने मुझे एक संकेत या विचार के साथ प्रदान कर सकते हैं कि कैसे के बारे में जाने के लिए?

मुझे पता है कि यह सवाल बहुत अस्पष्ट है, ऐसा इसलिए है क्योंकि मेरे पास आंकड़ों की बहुत मजबूत पकड़ नहीं है। इसलिए, यदि आपके पास मेरे लिए कोई उत्तर नहीं है, तो शायद आपके पास कुछ प्रश्न हैं, जो मुझे खुद को बेहतर समझने में मदद कर सकते हैं।

संपादित करें: मैं वर्तमान में इस विषय पर विकिपीडिया ब्राउज़ कर रहा हूं, मुझे लगता है कि जो मैं चाहता हूं वह एक सहसंबंध गुणांक है, लेकिन मैं अभी भी अनिश्चित हूं कि यह सही दृष्टिकोण है, और कई उपलब्ध गुणांक में से कौन सा उपयुक्त है।

संपादित करें 2: बूलियन मामले में, मैंने पहली बार प्रत्येक सुविधा के लिए नमूनों का सेट बनाया था जिसके लिए यह सच था। फिर, दो सेटों के बीच संबंध इन सेटों के संघ के आकार पर इन सेटों के प्रतिच्छेदन का आकार था। यदि यह मान 1 है, तो वे पूरी तरह से बेमानी हैं, क्योंकि हमेशा समान। यदि यह 0 है, तो वे कभी समान नहीं होते हैं।

correlation feature-selection

— ब्योर्न पोललेक्स
स्रोत

यदि आप बूलियन मामले में अतिरेक को कैसे परिभाषित करते हैं, और निरंतर मामले में आप किस तरह के परिणामों की अपेक्षा करेंगे, इसका उदाहरण देने में मदद मिलेगी

— mpiktas

@mpiktas: अपनी टिप्पणी के जवाब में मेरे प्रश्न को संपादित करें।

— ब्योर्न पोलेक्स

यह सुविधा चयन की समस्या की तरह लगता है, अगर यह मामला है, तो मुझे लगता है कि आप सभी उप-विशेषताओं और वर्गीकरण आउटपुट के बीच पारस्परिक जानकारी की गणना करना चाहते हैं । उच्चतम पारस्परिक जानकारी वाला सबसेट, उन विशेषताओं का समूह होगा, जिनमें रिकॉर्ड के परिणामी वर्गीकरण के बारे में सबसे अधिक 'जानकारी' होती है।

यदि आपके पास केवल 3 सुविधाएँ हैं, तो आप समय की उचित मात्रा में सभी संभावित सबसेट की गणना कर सकते हैं, यदि आपका फ़ीचर सेट बड़ा हो जाता है, तो आपको इसका अनुमान लगाना होगा (आमतौर पर एक लालची दृष्टिकोण का उपयोग करके: प्रत्येक चरण में उच्चतम MI के साथ सुविधा लें )।

— छेद
स्रोत

(+1) आपसी जानकारी के लिए। अतिरिक्त टिप्पणी: क) मैं सूचनाओं को पारस्परिक सूचना के विशेष मामले के रूप में सुझाव देता हूं। b) स्वचालित सुविधा चयन न केवल निरर्थक को दूर करेगा, बल्कि उन सभी विशेषताओं को भी दूर करेगा जो वर्गीय भेदभाव पर नकारात्मक प्रभाव डालती हैं।

— स्टीफन

धन्यवाद! यह बहुत आशाजनक लगता है, मैं इस पर गौर करूंगा।

— ब्योर्न पोलेक्स