यह समझना कि लॉजिस्टिक रिग्रेशन के लिए कौन सी विशेषताएँ सबसे महत्वपूर्ण थीं


17

मैंने एक लॉजिस्टिक रिग्रेशन क्लासिफ़ायर बनाया है जो मेरे डेटा पर बहुत सटीक है। अब मैं बेहतर तरीके से समझना चाहता हूं कि यह इतना अच्छा क्यों काम कर रहा है। विशेष रूप से, मैं रैंक करना चाहूंगा कि कौन सी सुविधाएँ सबसे बड़ा योगदान दे रही हैं (जो सुविधाएँ सबसे महत्वपूर्ण हैं) और, आदर्श रूप से, यह निर्दिष्ट करें कि प्रत्येक मॉडल समग्र मॉडल (या इस नस में कुछ) की सटीकता में कितना योगदान दे रहा है। मैं यह कैसे करु?

मेरा पहला विचार उन्हें उनके गुणांक के आधार पर रैंक करना था, लेकिन मुझे संदेह है कि यह सही नहीं हो सकता। अगर मेरे पास दो विशेषताएं हैं जो समान रूप से उपयोगी हैं, लेकिन पहले का प्रसार दूसरे की तुलना में दस गुना बड़ा है, तो मैं पहले को दूसरे की तुलना में कम गुणांक प्राप्त करने की उम्मीद करूंगा। क्या सुविधा के महत्व का मूल्यांकन करने का अधिक उचित तरीका है?

ध्यान दें कि मैं यह समझने की कोशिश नहीं कर रहा हूं कि फीचर में एक छोटा सा बदलाव परिणाम की संभावना को प्रभावित करता है। बल्कि, मैं यह समझने की कोशिश कर रहा हूं कि क्लासिफायर को सटीक बनाने के मामले में प्रत्येक सुविधा कितनी मूल्यवान है। इसके अलावा, मेरा लक्ष्य इतना नहीं है कि फीचर का चयन करें या कम सुविधाओं के साथ एक मॉडल का निर्माण करें, लेकिन सीखे हुए मॉडल के लिए कुछ "स्पष्टीकरण" प्रदान करने का प्रयास करें, इसलिए क्लासिफायर सिर्फ एक अपारदर्शी ब्लैक-बॉक्स नहीं है।


मुझे लगता है कि रैंडम वन यहाँ भी एक अच्छी तकनीक है। आप अंतर्ज्ञान प्राप्त करने के लिए जंगल में शीर्ष विभाजन की जांच कर सकते हैं, जिस पर विशेषताएँ भविष्यवाणी में सबसे अधिक योगदान देती हैं।

जवाबों:


14

ध्यान देने वाली पहली बात यह है कि आप एक क्लासिफायर के रूप में लॉजिस्टिक रिग्रेशन का उपयोग नहीं करते हैं। तथ्य यह है कि Y द्विआधारी है वास्तव में टिप्पणियों को वर्गीकृत करने के लिए इस अधिकतम संभावना पद्धति का उपयोग करने के साथ कुछ भी नहीं है। एक बार जब आप पिछले हो जाते हैं, तो सोने की मानक जानकारी के उपाय पर ध्यान केंद्रित करें जो कि अधिकतम संभावना का एक उप-उत्पाद है: संभावना अनुपात χ2 सांख्यिकीय। आप इसके आंशिक \ chi ^ 2 के संदर्भ में प्रत्येक भविष्यवक्ता के आंशिक योगदान को दर्शाने वाला चार्ट तैयार कर सकते हैंχ2आंकड़ा। इन आँकड़ों में अधिकतम जानकारी / शक्ति है। आप यह दर्शाने के लिए बूटस्ट्रैप का उपयोग कर सकते हैं कि प्रत्येक भविष्यवक्ता द्वारा उपलब्ध कराई गई भविष्यवाणी की जानकारी के रैंक पर विश्वास अंतराल प्राप्त करके "विजेताओं" और "हारे हुए" को चुनना कितना कठिन है, जब अन्य भविष्यवक्ताओं का हिसाब लगाया जाता है। एक उदाहरण मेरे पाठ्यक्रम नोटों की धारा 5.4 में है - हैंडआउट फिर हैंडआउट पर फिर से क्लिक करें।

यदि आपके पास अत्यधिक सहसंबद्ध विशेषताएं हैं, तो आप उनके प्रभाव को संयोजित करने के लिए "चंक परीक्षण" कर सकते हैं। ऐसा चार्ट जो चित्र 15.11 में दिया गया है, जिसमें size4 अलग-अलग भविष्यवक्ताओं के संयुक्त योगदान का प्रतिनिधित्व किया गया है।


6

संक्षिप्त उत्तर यह है कि इस प्रश्न का उत्तर देने का एक "सही" तरीका नहीं है।

मुद्दों की सबसे अच्छी समीक्षा के लिए, यूरिएक ग्रोम्पिंग के कागजात देखें, उदाहरण के लिए, वियरेन्स अपघटन पर आधारित रैखिक प्रतिगमन में सापेक्ष महत्व के अनुमानक । जिन विकल्पों पर वह चर्चा करती है, उनमें साधारण उत्तराधिकारियों से लेकर परिष्कृत, CPU गहन, बहुभिन्नरूपी समाधान शामिल हैं।

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping RELAIMPO नामक R पैकेज में अपने दृष्टिकोण का प्रस्ताव करता है, जो पढ़ने लायक भी है।

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

एक त्वरित और गंदी ह्यूरिस्टिक जिसका मैंने उपयोग किया है, प्रत्येक पैरामीटर से जुड़े ची-वर्गों (एफ मान, टी-आँकड़े) को योग करने के लिए है और फिर उस राशि के साथ व्यक्तिगत मूल्यों को प्रतिरूपित करें। परिणाम रैंक करने योग्य सापेक्ष महत्व का एक मीट्रिक होगा।

उस ने कहा, मैं कभी भी "मानकीकृत बीटा गुणांक" का प्रशंसक नहीं रहा हूं, हालांकि वे पेशे से अक्सर अनुशंसित होते हैं और व्यापक रूप से उपयोग किए जाते हैं। यहां उनके साथ समस्या है: मॉडल समाधान के लिए मानकीकरण एकतरफा और बाहरी है। दूसरे शब्दों में, यह दृष्टिकोण मॉडल के परिणामों की सशर्त प्रकृति को नहीं दर्शाता है।


उत्तर और लिंक के लिए धन्यवाद! क्या आप विस्तृत या मुझे यह समझने में मदद कर सकते हैं कि "मॉडल समाधान के लिए बाहरी" और "मॉडल के परिणामों की सशर्त प्रकृति" का क्या मतलब है? (मैं आंकड़ों में एक विशेषज्ञ नहीं हूं, अफसोस।)
डीडब्ल्यू

1
कोई चिंता नहीं। एक मॉडल में अन्य कारकों के लिए मॉडल "नियंत्रण" या स्थिति कैसे होती है, यह धारणा उन चीजों में से एक हो सकती है जिन पर कई सांख्यिकीविद् वास्तव में सहमत हो सकते हैं। यह एक ऐसा विषय भी है जिस पर इस साइट पर काफी कमेंट्री देखी जा रही है। यहाँ इस तरह के एक धागे का एक लिंक दिया गया है : ysts.stackexchange.com/questions/17336/… इसमें सबसे अच्छी टिप्पणियों में से एक @whuber ने कहा था, 'आप "को नियंत्रित करने के बारे में सोच सकते हैं" लेखांकन "(कम से कम अर्थ में) ) अन्य सभी चर पर एक चर के योगदान / प्रभाव / प्रभाव / संघ के लिए। '
माइक हंटर

धन्यवाद! मैं कुछ कारक "नियंत्रण के लिए" की धारणा से परिचित हूं। यह कैसे "मॉडल समाधान के बाहरी" या "मॉडल के परिणामों की सशर्त प्रकृति" के अर्थ को समझने या उसकी सहायता करने से संबंधित है?
DW

एक "मानकीकृत बीटा" बनाने के लिए भविष्यवाणी करने वाले मानकीकरण आमतौर पर एक मॉडल के निर्माण से पहले किया जाता है, सही है? इसलिए, यह परिवर्तन मॉडल के समाधान के लिए "बाहरी" है। मेरे साथ इतनी दूर?
माइक हंटर

ठीक। मैं समझ सकता हूं कि अब "बाहरी" से आपका क्या मतलब है - स्पष्टीकरण के लिए धन्यवाद। क्या आप बता सकते हैं कि यह एक समस्या क्यों है, और "सशर्त प्रकृति ..." से क्या मतलब है? (हो सकता है कि वे दो प्रश्न एक ही उत्तर के साथ एक ही प्रश्न हों ...) आपको प्रश्नों के साथ काली मिर्च क्षमा करें! मैं यह समझने के लिए उत्सुक हूं कि आपने क्या लिखा है।
DW

3

ऐसा करने का एक काफी मज़बूत तरीका यह होगा कि मॉडल N को उस समय फिट करने की कोशिश की जाए जहाँ N सुविधाओं की संख्या हो। हर बार सुविधाओं के एन -1 का उपयोग करें और एक सुविधा को छोड़ दें। तब आप अपने पसंदीदा सत्यापन मीट्रिक का उपयोग करके यह माप सकते हैं कि प्रत्येक विशेषता का समावेश या बहिष्करण मॉडल के प्रदर्शन को कितना प्रभावित करता है। आपके पास यह सुविधाओं की संख्या के आधार पर कम्प्यूटेशनल रूप से महंगा हो सकता है।


4
यह सहसंबद्ध सुविधाओं को अच्छी तरह से संभाल नहीं करता है। ऐसी स्थिति को इंजीनियर करना आसान है, जहां दो विशेषताएं अत्यधिक सहसंबद्ध हैं, ताकि उनमें से किसी एक को हटाने से पूर्वानुमान की शक्ति न्यूनतम रूप से प्रभावित हो , लेकिन दोनों प्रभावों को हटाने से यह गंभीर रूप से प्रभावित होता है। अनिवार्य रूप से, एक जिसमें दोनों भविष्यवक्ता लगभग समान, लेकिन महत्वपूर्ण, जानकारी ले जाते हैं।
मैथ्यू ड्र्यू

2
मैं सहमत हूँ। गुणांक की जांच करते समय यह भी एक खतरा है।
डैनियल जॉनसन

1
काफी सच। काफी सच।
मैथ्यू ड्र्यू

2

|βj^||βj^|σ^jxj। इसके साथ एक मुद्दा यह है कि यह तब टूट जाता है जब आप संख्यात्मक भविष्यवक्ताओं के साथ व्यवहार नहीं करते हैं।

अपने अंतिम बिंदु के बारे में, निश्चित रूप से यह संभव है कि एक चर अनुमानित लॉग ऑड्स में बहुत योगदान दे सकता है जबकि वास्तव में "ट्रू" लॉग ऑड्स को बहुत प्रभावित नहीं करता है, लेकिन मुझे नहीं लगता कि यह एक चिंता का विषय है। उस प्रक्रिया में कोई विश्वास है जो अनुमानों का उत्पादन करती है।


0

आप इस बारे में सही हैं कि आपको प्रासंगिकता के माप के रूप में गुणांक का उपयोग क्यों नहीं करना चाहिए, लेकिन यदि आप उन्हें उनकी मानक त्रुटि से विभाजित करते हैं, तो आप निरपेक्ष रूप से उपयोग कर सकते हैं! यदि आपने आर के साथ मॉडल का अनुमान लगाया है, तो यह आपके लिए पहले से ही किया गया है! आप मॉडल से कम से कम महत्वपूर्ण विशेषताओं को भी हटा सकते हैं और देख सकते हैं कि यह कैसे काम करता है।

चर में अलग-अलग बदलावों के परिणाम को बदलने के लिए अध्ययन करने के लिए एक अधिक अनुमानी दृष्टिकोण बिल्कुल यही कर रहा है: विभिन्न आदानों का प्रयास करें और उनकी अनुमानित संभावनाओं का अध्ययन करें। हालांकि, जैसा कि आपका मॉडल काफी सरल है, मैं उसके खिलाफ सबसे ज्यादा मेहनत करूंगा

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.