क्या लॉजिस्टिक रिग्रेशन के गुणांक का एक अर्थ है?


14

मुझे कई विशेषताओं से बाइनरी वर्गीकरण की समस्या है। क्या (नियमित) लॉजिस्टिक प्रतिगमन के गुणांक का एक व्याख्यात्मक अर्थ है?

मैंने सोचा कि वे प्रभाव के आकार को इंगित कर सकते हैं, यह देखते हुए कि सुविधाएँ पहले से सामान्यीकृत हैं। हालांकि, मेरी समस्या में गुणांक मेरे द्वारा चुनी गई सुविधाओं पर संवेदनशील रूप से निर्भर करते हैं। यहां तक ​​कि गुणांक के संकेत इनपुट के रूप में चुने गए विभिन्न फीचर सेटों के साथ बदलते हैं।

क्या यह गुणांक के मूल्य की जांच करने के लिए समझ में आता है और सबसे सार्थक गुणांकों को खोजने का सही तरीका क्या है और शब्दों में उनके अर्थ को ? क्या कुछ फिट किए गए मॉडल और गुणांक के उनके संकेत गलत हैं - भले ही वे डेटा को फिट करने के लिए हों?

(सुविधाओं के बीच मेरा जो उच्चतम सहसंबंध है, वह केवल 0.25 है, लेकिन यह निश्चित रूप से एक भूमिका निभाता है?)


क्या आप स्पष्ट कर सकते हैं कि आपको नियमित रूप से क्या मतलब है? क्या आपके पास एक L2 जुर्माना अवधि है, और यदि आपने क्रॉस वैलिडेशन जैसे इष्टतम कारक की खोज की है?
seanv507

हां, मैं गुणांक पर L2 के दंड की शर्तों के लिए अनुमति देता हूं। मैंने इष्टतम नियमितीकरण कारक की खोज की, लेकिन मैंने अभी तक (आगे के चयन की तरह) सुविधा चयन का उपयोग नहीं किया है। हालाँकि, यह मुझे इसके बारे में अनिश्चित महसूस कराता है, क्योंकि गुणांक मैं इतनी विशेषताओं पर निर्भर करता है कि मैं इसमें शामिल सुविधाओं की पसंद पर निर्भर करता हूं। यह मानते हुए कि प्रत्येक विशेषता में सकारात्मक वर्ग का सकारात्मक या नकारात्मक प्रभाव है, मैं उनकी ताकत और दिशा कैसे निर्धारित कर सकता हूं?
जेरेनुक

जवाबों:


14

आउटपुट से गुणांक का एक अर्थ है, हालांकि यह ज्यादातर लोगों के लिए बहुत सहज नहीं है और निश्चित रूप से मेरे लिए नहीं है। यही कारण है कि लोग उन्हें अनुपात अनुपात में बदल देते हैं। हालांकि, ऑड्स अनुपात का लॉग गुणांक है; समान रूप से, घातांक गुणांक बाधाओं अनुपात हैं।

गुणांक सूत्रों में प्लग करने के लिए सबसे अधिक उपयोगी होते हैं जो आश्रित चर के प्रत्येक स्तर में होने की अनुमानित संभावनाएं देते हैं।

में जैसे R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

आयु के लिए पैरामीटर अनुमान 1.64 है। इसका क्या मतलब है? ठीक है, यदि आप इसे इंटरसेप्ट (-21.24) के लिए पैरामीटर अनुमान के साथ जोड़ते हैं, तो आप मेनार्चे की संभावना का अनुमान लगाने वाला एक फार्मूला प्राप्त कर सकते हैं:

पी()=11+21.24-1.64*जी

1.64=5.16 इसका मतलब है कि, उम्र के प्रत्येक अतिरिक्त वर्ष के लिए, मेनार्चे की संभावना 5.16 गुना बड़ी है (संभावना के रूप में ठीक 5.16 गुना नहीं है, लेकिन यह व्याख्या अक्सर उपयोग की जाती है)।


4

सीधे गुणांक की व्याख्या करना मुश्किल है और भ्रामक हो सकता है। चर के बीच वजन कैसे निर्धारित किया जाता है, इसकी कोई गारंटी नहीं है।

त्वरित उदाहरण, आपके द्वारा वर्णित स्थिति के समान: मैंने एक वेबसाइट पर उपयोगकर्ताओं के संपर्क के एक मॉडल पर काम किया है। उस मॉडल में दो चर शामिल थे जो पहले घंटे के दौरान और उपयोगकर्ता सत्र के दूसरे घंटे के दौरान "क्लिक" की संख्या का प्रतिनिधित्व करते हैं। ये चर एक दूसरे से अत्यधिक सहसंबद्ध हैं। यदि उन चर के लिए दोनों गुणांक सकारात्मक थे, तो हम आसानी से खुद को गुमराह कर सकते हैं और मानते हैं कि शायद उच्च गुणांक "उच्च" महत्व को इंगित करता है। हालाँकि, अन्य को जोड़कर / हटाकरचर हम आसानी से एक मॉडल के साथ समाप्त हो सकते हैं जहां पहले चर में सकारात्मक संकेत था और दूसरा नकारात्मक। हमने जो तर्क दिया, वह यह था कि चूंकि उपलब्ध चर के अधिकांश जोड़े के बीच कुछ महत्वपूर्ण (यद्यपि कम) सहसंबंध थे, इसलिए हम गुणांक का उपयोग करके चर के महत्व पर कोई सुरक्षित निष्कर्ष नहीं निकाल सकते थे (यदि समुदाय से सीखने के लिए खुश हैं) यह व्याख्या सही है)।

यदि आप एक मॉडल प्राप्त करना चाहते हैं, जहां एक विचार की व्याख्या करना आसान है, तो लैस्सो का उपयोग करना होगा (एलएसओ मानक का कम से कम)। विरल समाधान की ओर जाता है कि चर एक दूसरे से कम सहसंबद्ध होते हैं। हालाँकि, वह दृष्टिकोण आसानी से पिछले उदाहरण के दोनों चर नहीं उठाएगा - एक शून्य शून्य होगा।

यदि आप केवल विशिष्ट चर, या चर के सेट के महत्व का आकलन करना चाहते हैं, तो मैं सीधे कुछ सुविधा चयन दृष्टिकोण का उपयोग करने की सलाह दूंगा। इस तरह के दृष्टिकोण कुछ मानदंडों के आधार पर बहुत अधिक सार्थक अंतर्दृष्टि और चर के महत्व की वैश्विक रैंकिंग की ओर ले जाते हैं।


0

गुणांक सबसे निश्चित रूप से एक अर्थ है। कुछ सॉफ्टवेयर पैकेजों में मॉडल को दो प्रकार के गुणांक में से किसी एक के उत्पादन के लिए दो तरीकों से निर्देशित किया जा सकता है। उदाहरण के लिए, स्टैटा में, कोई भी लॉजिस्टिक कमांड या लॉजिट कमांड का उपयोग कर सकता है; एक का उपयोग करने में, मॉडल पारंपरिक गुणांक देता है, जबकि दूसरे का उपयोग करने में, मॉडल बाधाओं को देता है।

आप पा सकते हैं कि एक दूसरे की तुलना में आपके लिए अधिक सार्थक है।

आपके प्रश्न के बारे में कि "... गुणांक संवेदनशीलता पर निर्भर करता है ..."।

क्या आप कह रहे हैं कि परिणाम इस बात पर निर्भर करते हैं कि आपने मॉडल में कौन से चर डाले हैं?

यदि हां, तो यह प्रतिगमन विश्लेषण करते समय जीवन का एक तथ्य है। इसका कारण यह है कि प्रतिगमन विश्लेषण संख्याओं का एक गुच्छा देख रहा है और उन्हें स्वचालित तरीके से क्रंच कर रहा है।

परिणाम इस बात पर निर्भर करते हैं कि चर एक दूसरे से कैसे संबंधित हैं और किन चर नहीं मापा जाता है। यह एक विज्ञान जितना ही एक कला है।

इसके अलावा, अगर मॉडल में नमूना आकार की तुलना में बहुत अधिक भविष्यवाणियां हैं, तो संकेत पागल तरीके से चारों ओर घूम सकते हैं - मुझे लगता है कि यह कह रहा है कि मॉडल उन चर का उपयोग कर रहा है, जिनके प्रभाव को "समायोजित" करने के लिए एक छोटा सा प्रभाव है इसका बड़ा प्रभाव पड़ता है (जैसे छोटे अंशों को छोटा अंश बनाने के लिए)। जब ऐसा होता है, तो मैं छोटे प्रभावों के साथ चर पर भरोसा नहीं करता हूं।

दूसरी ओर, यह हो सकता है कि जब आप नए भविष्यवक्ताओं को जोड़ते हैं तो संकेत शुरू में बदल जाते हैं, क्योंकि आप कारण सत्य के करीब हो रहे हैं।

उदाहरण के लिए, यह कल्पना करने देता है कि ग्रीनलैंड ब्रांडी किसी के स्वास्थ्य के लिए खराब हो सकती है लेकिन आय किसी के स्वास्थ्य के लिए अच्छी है। यदि आय छोड़ी जाती है, और अधिक अमीर लोग ब्रांडी पीते हैं, तो मॉडल छोड़े गए आय प्रभाव को "उठा" सकता है और यह कह सकता है कि शराब आपके स्वास्थ्य के लिए अच्छा है।

इसके बारे में कोई संदेह नहीं है, यह जीवन का एक तथ्य है कि गुणांक अन्य चर पर निर्भर करता है जो शामिल हैं। अधिक जानने के लिए, "लोप किए गए परिवर्तनशील पूर्वाग्रह" और "सहज संबंध" देखें। यदि आपने पहले इन विचारों का सामना नहीं किया है, तो अपनी आवश्यकताओं को पूरा करने वाले सांख्यिकी पाठ्यक्रमों का परिचय खोजने का प्रयास करें - यह मॉडल करने में बहुत बड़ा अंतर ला सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.