जब यह चर महत्व की रैंकिंग (सभी प्रकार के बहुभिन्नरूपी मॉडल के संदर्भ में) की बात करता है, तो मैं कुछ शून्यवादी बन गया हूं ।
अक्सर मेरे काम के दौरान, मुझे या तो किसी अन्य टीम को एक चर महत्व की रैंकिंग बनाने में मदद करने के लिए कहा जाता है, या अपने स्वयं के काम से एक चर महत्व की रैंकिंग का उत्पादन करने के लिए कहा जाता है। इन अनुरोधों के जवाब में, मैं निम्नलिखित प्रश्न पूछता हूं
आप इस चर महत्व की रैंकिंग के लिए क्या पसंद करेंगे? आप इससे क्या सीखने की उम्मीद करते हैं? इसका उपयोग करने के लिए आप किस तरह के निर्णय लेना चाहेंगे?
मुझे प्राप्त होने वाले उत्तर लगभग हमेशा दो श्रेणियों में से एक में आते हैं
- मैं प्रतिक्रिया की भविष्यवाणी करने में अपने मॉडल में विभिन्न चर के महत्व को जानना चाहूंगा।
- मैं कम महत्व के चरों को हटाकर इसे फीचर चयन के लिए उपयोग करना चाहूंगा।
पहली प्रतिक्रिया टॉटोलॉजिकल है (मैं एक चर महत्व रैंकिंग चाहूंगा क्योंकि मैं एक चर महत्व रैंकिंग चाहता हूं)। मुझे यह मानना चाहिए कि ये रैंकिंग एक बहुभिन्नरूपी मॉडल के उत्पादन का उपभोग करते समय एक मनोवैज्ञानिक आवश्यकता को पूरा करती है। मुझे यह समझने में कठिन समय है, क्योंकि चर "महत्व" को व्यक्तिगत रूप से प्रश्न में मॉडल के बहुआयामी प्रकृति को अस्वीकार करने के लिए लगता है।
दूसरी प्रतिक्रिया अनिवार्य रूप से पीछे के चयन के एक अनौपचारिक संस्करण को कम करती है , जिसके सांख्यिकीय पाप क्रॉसविलेडेटेड के अन्य भागों में अच्छी तरह से प्रलेखित हैं।
मैं महत्व रैंकिंग की बीमार परिभाषित प्रकृति के साथ भी संघर्ष करता हूं। ऐसा लगता है कि रैंकिंग को मापने वाली अंतर्निहित अवधारणा पर बहुत कम सहमति हो सकती है, जिससे उन्हें बहुत ही तदर्थ स्वाद मिल जाएगा। एक महत्व स्कोर या रैंकिंग प्रदान करने के कई तरीके हैं, और वे आम तौर पर कमियां और कैविटी से पीड़ित होते हैं:
- वे अत्यधिक एल्गोरिदम पर निर्भर हो सकते हैं, जैसे कि यादृच्छिक जंगलों और gbms में महत्व रैंकिंग में।
- उनके पास अत्यधिक उच्च भिन्नता हो सकती है, अंतर्निहित डेटा के साथ तेजी से बदल सकती है।
- वे इनपुट भविष्यवाणियों में सहसंबंध से बहुत पीड़ित हो सकते हैं।
तो, उस सब के साथ, मेरा सवाल यह है कि चर महत्व की रैंकिंग के कुछ सांख्यिकीय रूप से मान्य उपयोग क्या हैं, या, ऐसी इच्छा की निरर्थकता के लिए एक ठोस तर्क (या तो एक सांख्यिकीविद या एक आम आदमी) क्या है? मुझे सामान्य सैद्धांतिक तर्क और मामले के अध्ययन दोनों में दिलचस्पी है, जो भी बात बनाने में अधिक प्रभावी होगा।
glmnet
ऐसा उपलब्ध होने पर हमें ऐसी अनौपचारिक प्रक्रिया का उपयोग क्यों करना चाहिए ?