0 और 1 के बीच सीमा में परिणामों के लिए लॉजिस्टिक प्रतिगमन का विस्तार


9

मुझे एक प्रतिगमन समस्या है जहां परिणाम सख्ती से 0, 1 नहीं हैं, बल्कि 0 से 1 तक सभी वास्तविक संख्याओं की श्रेणी में ।Y=[0,0.12,0.31,...,1]

इस थ्रेड में इस समस्या पर पहले ही चर्चा की जा चुकी है , हालांकि मेरा सवाल थोड़ा अलग है।

मैं उन्हीं कारणों के लिए लीनियर रिग्रेशन का उपयोग नहीं कर सकता, जो लॉजिस्टिक रिग्रेशन का आमतौर पर उपयोग किया जाता है। रैखिक प्रतिगमन A) में बहुत बड़े IVs मान 1 और B के पूर्वानुमानित परिणाम को तिरछा कर देंगे) रैखिक प्रतिगमन का परिणाम 0,1 सीमाओं तक सीमित नहीं है।

मेरे पाठ्यपुस्तक से इस लॉजिस्टिक कॉस्ट फ़ंक्शन को देखते हुए मैं इकट्ठा करता हूं कि समीकरण गणना के लिए डिज़ाइन किया गया है एक लागत 0 से अधिक है जब केवल और मान 0 या 1 नहीं है।

Cost=ylog(h(x))(1y)log(1h(x))
yx

क्या सभी परिकल्पना त्रुटियों को मापने के लिए लागत समारोह को संशोधित करके लॉजिस्टिक प्रतिगमन का उपयोग करना संभव होगा?

जवाबों:


9

आपके पास कई विकल्प हैं। उनमें से दो हो सकते हैं:

  1. यदि आप अपने को माध्यम से रूपांतरित करते हैं, तो आप उस परिवर्तनशील प्रतिक्रिया चर के लिए साधारण कम से कम वर्गों के माध्यम से एक रेखीय प्रतिगमन फिटिंग की कोशिश कर सकते हैं।Ylog(y1y)
  2. वैकल्पिक रूप से, आप मूल चर को अपने लिंक चर के रूप में लॉजिस्टिक परिवर्तन के साथ एक सामान्य रेखीय मॉडल में फिट कर सकते हैं और के विचरण के बीच संबंध के साथ और इसका मतलब है कि हालांकि यह एक द्विपद चर था, पुनरावृत्ति पुनरावृत्ति कम से कम वर्गों द्वारा फिटिंग। यह मूल रूप से "लॉजिस्टिक प्रतिगमन का उपयोग" के रूप में ही है।Y

कौन सा उपयोग करना है यह त्रुटि संरचना पर निर्भर करेगा, और तय करने का एकमात्र तरीका उन दोनों को फिट करना है और देखना है कि किसके पास अवशिष्ट संरचना है जो मॉडल की मान्यताओं को सबसे अच्छी तरह से फिट करता है। मेरा संदेह यह है कि उनके बीच चयन करने के लिए बहुत कुछ नहीं होगा। निश्चित रूप से, इन विकल्पों में से कोई भी आपके द्वारा कहे गए कारणों के लिए, अनियंत्रित साथ सीधे रेखीय प्रतिगमन पर एक बड़ा सुधार होगा ।Y


2
(+1) विकल्प 2: आमतौर पर तब आप अति-फैलाव का अनुमान लगाते हैं और मानक त्रुटियों की गणना करने के लिए उपयोग करते हैं - एक "अर्ध-द्विपद" मॉडल जिसमें वाई के विचरण और माध्य के बीच का संबंध आनुपातिक है, बजाय इसके एक द्विपद चर।
Scortchi - को पुनः स्थापित मोनिका

@ स्कोर्टची: glm()आर में यह क्या कार्य कर रहा है जब इसे लगातार प्रतिक्रिया और खिलाया जाता है family=quasibinomial? यानी यह गुणांक का अनुमान लगाएगा family=binomialऔर फिर, एक अतिरिक्त कदम में, मानक त्रुटियों को ध्यान में रखते हुए अधिक फैलाव की गणना करेगा? यदि हाँ, तो क्या यह "मजबूत मानक त्रुटियों" की गणना करने जैसा है? मेरे पास कुछ उपयुक्त आंकड़े हैं और मैंने दोनों परिवारों के साथ प्रयास किया glm; मुझे समान गुणांक मिलते हैं लेकिन मानक त्रुटियां अलग होती हैं। धन्यवाद।
अमीबा

1
@amoeba: हाँ यह बात है। लेकिन "मजबूत मानक त्रुटियां" आमतौर पर सैंडविच अनुमानक या पसंद का उपयोग करने का मतलब है।
Scortchi - को पुनः स्थापित मोनिका

9

जब वाई बंधी होती है, तो बीटा-प्रतिगमन अक्सर समझ में आता है; "ए बेटर लेमन स्क्वीज़र" पेपर देखें

यह फर्श और छत के प्रभावों के लिए अनुमति देता है; यह विचरण के साथ-साथ माध्य के लिए भी अनुमति देता है।


0

चूंकि y कड़ाई से शून्य या एक नहीं है (जैसा कि आपने कहा) लागत हमेशा शून्य से अधिक होनी चाहिए। इसलिए, मुझे नहीं लगता कि आपको मॉडल में संशोधन की आवश्यकता है।


0

मैं दो वैकल्पिक मॉडल सुझाता हूं:

यदि आपके परिणाम (y वैरिएबल) ऑर्डर किए गए हैं, तो एक ऑर्डर किए गए प्रॉबिट मॉडल का प्रयास करें।

यदि आपके परिणाम (y चर) का आदेश नहीं दिया गया है, तो एक बहुराष्ट्रीय लॉगिट मॉडल का प्रयास करें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.