परिवर्तनीय महत्व की रैंकिंग किसके लिए उपयोगी है?


25

जब यह चर महत्व की रैंकिंग (सभी प्रकार के बहुभिन्नरूपी मॉडल के संदर्भ में) की बात करता है, तो मैं कुछ शून्यवादी बन गया हूं ।

अक्सर मेरे काम के दौरान, मुझे या तो किसी अन्य टीम को एक चर महत्व की रैंकिंग बनाने में मदद करने के लिए कहा जाता है, या अपने स्वयं के काम से एक चर महत्व की रैंकिंग का उत्पादन करने के लिए कहा जाता है। इन अनुरोधों के जवाब में, मैं निम्नलिखित प्रश्न पूछता हूं

आप इस चर महत्व की रैंकिंग के लिए क्या पसंद करेंगे? आप इससे क्या सीखने की उम्मीद करते हैं? इसका उपयोग करने के लिए आप किस तरह के निर्णय लेना चाहेंगे?

मुझे प्राप्त होने वाले उत्तर लगभग हमेशा दो श्रेणियों में से एक में आते हैं

  • मैं प्रतिक्रिया की भविष्यवाणी करने में अपने मॉडल में विभिन्न चर के महत्व को जानना चाहूंगा।
  • मैं कम महत्व के चरों को हटाकर इसे फीचर चयन के लिए उपयोग करना चाहूंगा।

पहली प्रतिक्रिया टॉटोलॉजिकल है (मैं एक चर महत्व रैंकिंग चाहूंगा क्योंकि मैं एक चर महत्व रैंकिंग चाहता हूं)। मुझे यह मानना ​​चाहिए कि ये रैंकिंग एक बहुभिन्नरूपी मॉडल के उत्पादन का उपभोग करते समय एक मनोवैज्ञानिक आवश्यकता को पूरा करती है। मुझे यह समझने में कठिन समय है, क्योंकि चर "महत्व" को व्यक्तिगत रूप से प्रश्न में मॉडल के बहुआयामी प्रकृति को अस्वीकार करने के लिए लगता है।

दूसरी प्रतिक्रिया अनिवार्य रूप से पीछे के चयन के एक अनौपचारिक संस्करण को कम करती है , जिसके सांख्यिकीय पाप क्रॉसविलेडेटेड के अन्य भागों में अच्छी तरह से प्रलेखित हैं।

मैं महत्व रैंकिंग की बीमार परिभाषित प्रकृति के साथ भी संघर्ष करता हूं। ऐसा लगता है कि रैंकिंग को मापने वाली अंतर्निहित अवधारणा पर बहुत कम सहमति हो सकती है, जिससे उन्हें बहुत ही तदर्थ स्वाद मिल जाएगा। एक महत्व स्कोर या रैंकिंग प्रदान करने के कई तरीके हैं, और वे आम तौर पर कमियां और कैविटी से पीड़ित होते हैं:

  • वे अत्यधिक एल्गोरिदम पर निर्भर हो सकते हैं, जैसे कि यादृच्छिक जंगलों और gbms में महत्व रैंकिंग में।
  • उनके पास अत्यधिक उच्च भिन्नता हो सकती है, अंतर्निहित डेटा के साथ तेजी से बदल सकती है।
  • वे इनपुट भविष्यवाणियों में सहसंबंध से बहुत पीड़ित हो सकते हैं।

तो, उस सब के साथ, मेरा सवाल यह है कि चर महत्व की रैंकिंग के कुछ सांख्यिकीय रूप से मान्य उपयोग क्या हैं, या, ऐसी इच्छा की निरर्थकता के लिए एक ठोस तर्क (या तो एक सांख्यिकीविद या एक आम आदमी) क्या है? मुझे सामान्य सैद्धांतिक तर्क और मामले के अध्ययन दोनों में दिलचस्पी है, जो भी बात बनाने में अधिक प्रभावी होगा।


1
कमजोर भविष्यवाणियों को छानने के लिए चर महत्व (कुछ समझदार प्रक्रिया से) का उपयोग करना एक भयानक विचार नहीं लगता है। क्या आप स्पष्ट कर सकते हैं कि आपको क्यों लगता है कि यह बुरा है?
dsaxton

3
मुझे लगता है कि सामान्य तौर पर मुझे लगता है कि "महत्वपूर्ण" भविष्यवक्ताओं द्वारा कई सांख्यिकीय प्रक्रियाओं का वर्चस्व नहीं है, कई छोटे प्रभावों का संचय है। उदाहरण के लिए, रिज प्रतिगमन की शक्ति को इस संरचना को स्पष्ट रूप से स्वीकार करते हुए समझाया जा सकता है। एक और तरीका कहा, "कमजोर भविष्यवक्ता" की अवधारणा में हमें क्या विश्वास करना चाहिए, एक प्राथमिकता, और हमें उन्हें क्यों फ़िल्टर करना चाहिए? और glmnetऐसा उपलब्ध होने पर हमें ऐसी अनौपचारिक प्रक्रिया का उपयोग क्यों करना चाहिए ?
मैथ्यू डॉरी

2
किसी भी क्षेत्र में जिसमें हम विशेषज्ञ नहीं हैं, हम जानना चाहते हैं कि चिंता करने के लिए क्या महत्वपूर्ण है! कई व्यवसाय और प्रबंधन पुस्तकें लंबाई की व्याख्या करने के बारे में प्रतीत होती हैं कि आप महत्वपूर्ण समस्याओं की पहचान करते हैं और उन पर ध्यान केंद्रित करते हैं (हाँ वास्तव में)। मुझे संदेह है कि आम तौर पर गलतफहमी गैर-सांख्यिकीय लोगों के साथ शुरू होती है, यह मानते हुए कि महत्व को निर्धारित करने का एक तरीका है और यह सांख्यिकीय लोगों का काम है कि यह कैसे करना है और यह जानना मुश्किल है कि यह कितना मुश्किल है। मुझे नहीं पता कि यह कम सामान्य कैसे हो सकता है, लेकिन यहाँ कुछ चर्चा आपके प्रश्न में महत्वपूर्ण बिंदुओं को याद करती है।
निक कॉक्स

जवाबों:


8

मैंने तर्क दिया है कि परिवर्तनीय महत्व एक फिसलन अवधारणा है , क्योंकि यह प्रश्न प्रस्तुत करता है। पहले प्रकार की प्रतिक्रिया जो आपको आपके प्रश्न और उन लोगों की अवास्तविक आशाओं के लिए मिलती है, जो कार्य-कारण के संदर्भ में चर-महत्व के परिणामों की व्याख्या करेंगे, जैसा कि @DexGroves द्वारा उल्लेख किया गया है, थोड़ा विस्तार की आवश्यकता है।

उन लोगों के लिए निष्पक्षता में, जो पिछड़े चयन का उपयोग करेंगे, हालांकि, यहां तक ​​कि फ्रैंक हार्ल एक मॉडलिंग रणनीति के हिस्से के रूप में इसके लिए अनुमति देते हैं। उनके प्रतिगमन मॉडलिंग रणनीतियों के पेज 97 से , दूसरा संस्करण (संबंधित पाठ्यक्रम नोटों के पृष्ठ 131 पर एक समान विवरण है ):

  1. यदि पार्सिमोनी सटीकता की तुलना में अधिक महत्वपूर्ण है, तो सीमित बैकवर्ड चरण-डाउन चर चयन करें।

पिछड़े चयन का यह सीमित संभावित उपयोग, हालांकि, अंतिम मॉडल (चरण 14) से पहले चरण 13, अंतिम चरण है। यह महत्वपूर्ण पहले चरणों के बाद अच्छी तरह से आता है:

  1. भविष्यवाणियों के लिए व्यापक वितरण के साथ जितना संभव हो सके सटीक डेटा को इकट्ठा करें ...
  2. अच्छे उम्मीदवार की रूपरेखा तैयार करें जो प्रासंगिक उम्मीदवार भविष्यवक्ताओं और संभावित इंटरैक्शन के विनिर्देशन का नेतृत्व करते हैं ...

मेरे अनुभव में लोग अक्सर चरण 2 को बायपास करना चाहते हैं, और कुछ स्वचालित प्रक्रिया को विषय-वस्तु ज्ञान के बुद्धिमान अनुप्रयोग को बदलने देते हैं। इससे चर के महत्व पर जोर दिया जा सकता है।

हारेल के चरण 14 का पूरा मॉडल अंतिम चरण के साथ सत्यापन और समायोजन के 5 और चरणों के बाद है:

  1. सटीकता के किसी भी वांछित डिग्री के लिए यह अनुमान लगाकर पूर्ण मॉडल के लिए सरलीकरण विकसित करें।

जैसा कि अन्य उत्तरों में उल्लेख किया गया है, मॉडलिंग परिणामों के व्यावहारिक अनुप्रयोग में प्रवेश करने की क्रियाशीलता, लागत और सादगी के मुद्दे हैं। उदाहरण के लिए, अगर मैं एक नया कैंसर बायोमार्कर विकसित करता हूं जो कि रोगनिरोधक में सुधार करता है, लेकिन प्रति परीक्षण $ 100,000 की लागत आती है, तो बीमाकर्ताओं या सरकार को परीक्षण के लिए भुगतान करना मुश्किल हो सकता है जब तक कि यह शानदार रूप से उपयोगी न हो। तो यह किसी के लिए अनुचित नहीं है कि "सबसे महत्वपूर्ण" चर पर ध्यान केंद्रित करना चाहते हैं, या एक सटीक मॉडल को सरल बनाने के लिए जो कुछ कम सटीक है, लेकिन लागू करने के लिए आसान या कम महंगा है।

लेकिन यह चर चयन और मॉडल सरलीकरण एक विशिष्ट उद्देश्य के लिए होना चाहिए , और मुझे लगता है कि जहां कठिनाई होती है। मुद्दा वर्गीकरण योजनाओं के आकलन के समान है, केवल सही ढंग से वर्गीकृत मामलों के प्रतिशत के आधार पर। जैसे विभिन्न वर्गीकरण त्रुटियों में अलग-अलग लागत हो सकती है, विभिन्न मॉडल सरलीकरण योजनाओं में अलग-अलग लागतें हो सकती हैं जो उनके आशा के लिए लाभ के खिलाफ संतुलन रखती हैं।

इसलिए मुझे लगता है कि विश्लेषक के रूप में ध्यान केंद्रित करने का मुद्दा सांख्यिकीय मॉडलिंग प्रक्रियाओं के साथ इन लागतों और लाभों का अनुमान लगाने और समझने की क्षमता है, बजाय प्रति सांख्यिकीय सांख्यिकीय मान्यता के एक अमूर्त अवधारणा के बारे में बहुत अधिक चिंता करने की बजाय। उदाहरण के लिए, ऊपर वर्णित हैरेल के क्लास नोट्स के पृष्ठ 157-8 में कम से कम वर्गों में रैंकिंग भविष्यवाणियों की योनि दिखाने के लिए बूटस्ट्रैप का उपयोग करने का एक उदाहरण है; इसी तरह के परिणाम LASSO द्वारा चुने गए चर सेटों के लिए पाए जा सकते हैं।

यदि वैरिएबल चयन में उस प्रकार की परिवर्तनशीलता उस मॉडल के किसी विशेष व्यावहारिक अनुप्रयोग के रास्ते में नहीं आती है जो ठीक है। काम यह अनुमान लगाना है कि सरलीकरण के कारण कितनी और किस प्रकार की परेशानी होगी।


2
यह एक शानदार उत्तर है @ ईडीएम और इस मामले पर मेरे द्वारा विकसित की गई राय के अनुरूप है। मैं विशेष रूप से आपके दो बिंदुओं को पसंद करता हूं कि 1) अस्वीकार्य भविष्यवक्ताओं (नैतिक, विनियामक या व्यावसायिक कारणों के लिए) को मॉडलिंग से पहले जांचा जाना चाहिए, 2) अंतिम मॉडल सरलीकरण एक स्थानिक, एप्रीओरी परिभाषित उद्देश्य के लिए होना चाहिए। ये अनिवार्य रूप से वे बिंदु हैं जो मैं आमतौर पर अपने व्यापारिक भागीदारों के प्रश्नों के साथ खोलना चाह रहा हूं।
मैथ्यू डॉरी

Pr(β0)

इसके साथ ही, मुझे अभी भी आश्चर्य है कि अगर कुछ अंतर्निहित अवधारणा है कि महत्व रैंकिंग पर कब्जा करने की कोशिश कर रहे हैं, अगर वे सभी एक अस्पष्ट सांख्यिकीय समस्या पर सिर्फ तदर्थ हमले हैं।
मैथ्यू ड्र्यू

1
@MatthewDrury, फ्रैंक हरेल प्रत्येक चर द्वारा समझाया गया लॉग-लाइबिलिटी के अंश के आधार पर "चर महत्व" का मूल्यांकन करने के लिए एक राजसी तरीका प्रदान करता है । यही कारण है कि कम परिष्कृत व्यक्तियों को शायद वाक्यांश से मतलब नहीं है। आप की तरह, मैंने कई बार उपयोग किया है कि LASSO प्रत्येक भविष्यवक्ता चुनता है, कई बूटस्ट्रैप नमूनों के बीच, सबसे अच्छा तरीका है कि मैं चर चयन की योनि को चित्रित करने के लिए सोच सकता हूं। कि ज्यादातर मुझे LASSO से दूर और मध्यम पैमाने की समस्याओं के लिए रिज प्रतिगमन की ओर धकेल दिया गया है।
EdM

8

यह पूरी तरह से वास्तविक है, लेकिन मुझे जीबीएम में गलतियों या कमजोरियों को पहचानने में उपयोगी चर महत्व मिला है।

परिवर्तनीय महत्व आपको मॉडल के विशाल क्रॉस-अनुभागीय अवलोकन का एक प्रकार देता है जो अन्यथा प्राप्त करना कठिन होगा। सूची में उच्चतर चर अधिक गतिविधि देख रहे हैं (वे अधिक महत्वपूर्ण हैं या नहीं) एक और सवाल है। अक्सर एक खराब व्यवहार करने वाला भविष्यवक्ता (उदाहरण के लिए कुछ दूरंदेशी या उच्च-हृदयता कारक) शीर्ष पर गोली मारेगा।

यदि अंतर्ज्ञान चर महत्व और GBM चर महत्व के बीच एक बड़ी असहमति है, तो आमतौर पर कुछ मूल्यवान ज्ञान प्राप्त किया जाना है या एक गलती पाई जानी है।

मैं "आप मुझे इसके लिए क्यों पूछ रहे हैं?" प्रश्न, जो "क्योंकि मैं समझना चाहता हूं कि मेरी प्रतिक्रिया का क्या कारण है"। खें।


4

जब भी किसी प्रक्रिया, किसी भी प्रक्रिया में संभावित बड़ी संख्या में इनपुट्स को प्राथमिकता देने की आवश्यकता होती है, तब लागू व्यापार जगत में परिवर्तनीय महत्व रैंकिंग की एक निश्चित भूमिका होती है। यह जानकारी किसी समस्या पर हमला करने के लिए एक केंद्रित रणनीति के संदर्भ में दिशा प्रदान करती है, सबसे कम से कम महत्वपूर्ण से काम करना, जैसे, प्रक्रिया लागत में कमी, यह देखते हुए कि चर लीवरेजेबल हैं और हेरफेर करने के लिए निर्धारित या संरचनात्मक कारक नहीं हैं। दिन के अंत में, इसका परिणाम किसी प्रकार के ए / बी परीक्षण में होना चाहिए।

हालांकि, आपकी बात में, मैट और किसी भी क्रमिक रैंकिंग के साथ, चर के बीच मामूली बारीकियों या अंतर अस्पष्ट या अस्पष्ट हो सकते हैं, उनकी उपयोगिता को कम कर सकते हैं।


मैं कई व्यावसायिक मामलों में चर रैंकिंग की उपयोगिता से पूरी तरह सहमत हूं। लेकिन यहां algorith अलग-अलग एल्गोरिदम अलग रैंकिंग देते हैं ’की चिंता बेमानी है। क्या आपके पास इसका कोई सुझाव है? इसके अलावा मेरा सवाल यहाँ देखिए । नीचे स्टैटेक्सएक्सचेंज . com/q/251248/71287 और नीचे दिए गए कमेंट।
अलीवेब

3
@aliweb अंतर के मुद्दे में एकल, निश्चित, एकात्मक समाधान नहीं है। यह बिंदु उतना ही सूक्ष्म है जितना कि पदानुक्रमों और विधर्मियों के बीच का अंतर, जहां वैश्विक रैंकिंग का पता चलता है, वास्तव में, पूर्ण स्थानीय और क्षणिक। सापेक्ष परिवर्तनीय महत्व पर साहित्य की सबसे अच्छी समीक्षा शायद यूलिए ग्रोम्पिंग से संबंधित है, जिनके पेपर काफी व्यापक हैं विभिन्न मैट्रिक्स जो वहां से बाहर हैं। इसके अलावा, उसके आर मॉड्यूल और विधि - RELAMPO - के रूप में मौजूद रिश्तेदार महत्व का आकलन करने के लिए एक कठोर दृष्टिकोण है।
माइक हंटर

3

मैं सैद्धांतिक दृष्टिकोण से आपसे पूरी तरह सहमत हूँ। लेकिन व्यावहारिक दृष्टि से, चर महत्व बहुत उपयोगी है।

आइए एक उदाहरण लेते हैं जिसमें एक बीमा कंपनी अपने ग्राहकों के जोखिम को बढ़ाते हुए प्रश्नावली में प्रश्नों की संख्या को कम करना चाहती है। प्रश्नावली जितनी जटिल है, ग्राहक उतने ही कम अपने उत्पाद खरीदते हैं। इस कारण से, वे जोखिम परिमाणीकरण के स्तर को बनाए रखते हुए कम उपयोगी प्रश्नों को कम करना चाहते हैं। समाधान अक्सर महत्वपूर्ण महत्व का उपयोग करता है यह निर्धारित करने के लिए कि प्रश्नावली से कौन से प्रश्न हटाए जाएं (और संभावना के जोखिम प्रोफ़ाइल के बारे में एक ही भविष्यवाणी "अधिक या कम" है)।


मैं कई व्यावसायिक मामलों में चर रैंकिंग की उपयोगिता से पूरी तरह सहमत हूं। लेकिन यहां algorith अलग-अलग एल्गोरिदम अलग रैंकिंग देते हैं ’की चिंता बेमानी है। क्या आपके पास इसका कोई सुझाव है? इसके अलावा मेरा सवाल यहाँ देखिए । नीचे स्टैटेक्सएक्सचेंज . com/q/251248/71287 और नीचे दिए गए कमेंट।
अलीवेब

@ आलियाब: मुझे लगता है कि मैथ्यू ने पहले से ही आपको अपने प्रश्न का एक शानदार उत्तर प्रदान किया है।
मेट्रियट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.