प्रतिगमन परिणामों में अप्रत्याशित ऊपरी सीमा होती है

मैं एक संतुलन स्कोर की भविष्यवाणी करने की कोशिश करता हूं और कई अलग-अलग प्रतिगमन विधियों की कोशिश करता हूं। एक बात जिस पर मैंने गौर किया है वह यह है कि अनुमानित मूल्यों से लगता है कि यह किसी प्रकार की ऊपरी सीमा है। यही है, वास्तविक संतुलन में है $[0.0, 1.0)$ , लेकिन मेरी भविष्यवाणियां शीर्ष पर हैं $0.8$ । निम्नलिखित कथानक वास्तविक बनाम अनुमानित भविष्यवाणी (रैखिक प्रतिगमन के साथ अनुमानित) दिखाता है:

वास्तविक बनाम अनुमानित

और यहाँ एक ही डेटा के दो वितरण प्लॉट हैं:

प्रारंभिक वितरण

चूँकि मेरे भविष्यवक्ता बहुत तिरछे हैं (पावर लॉ वितरण के साथ उपयोगकर्ता डेटा), मैंने एक बॉक्स-कॉक्स परिवर्तन लागू किया, जो परिणामों को निम्न में बदलता है:

बॉक्स-कॉक्स परिवर्तन के बाद वास्तविक बनाम भविष्यवाणी की गई

बॉक्स-कॉक्स परिवर्तन के बाद वितरण

हालांकि यह भविष्यवाणियों के वितरण को बदलता है, फिर भी ऊपरी सीमा है। तो मेरे सवाल हैं:

भविष्यवाणी परिणामों में इस तरह के ऊपरी सीमा के संभावित कारण क्या हैं?
मैं वास्तविक मूल्यों के वितरण के अनुरूप भविष्यवाणियों को कैसे ठीक कर सकता हूं?

बोनस: चूंकि बॉक्स-कॉक्स परिवर्तन के बाद वितरण ट्रांसफॉर्मेड भविष्यवाणियों के वितरण का पालन करता है, क्या यह संभव है कि यह सीधे जुड़ा हुआ है? यदि हां, तो क्या मैं वास्तविक मूल्यों में वितरण को फिट करने के लिए एक परिवर्तन कर सकता हूं?

संपादित करें: मैंने 5 भविष्यवक्ताओं के साथ एक सरल रैखिक प्रतिगमन का उपयोग किया।

— Mennny
स्रोत

मैं वास्तव में यह देखना चाहता हूं कि यह कहां जाता है। यह सिर्फ एक रेखीय प्रतिगमन मॉडल है? कितने भविष्यवक्ता?

— छायाकार

एक साइड नोट के रूप में: जैसा कि आपका परिणाम चर 0 और 1 से घिरा होता है, एक साधारण रेखीय प्रतिगमन मॉडल संभवतः उन सीमाओं के बाहर मूल्यों की भविष्यवाणी करेगा जो निश्चित रूप से अमान्य हैं। इस मामले में विचार करने के लिए अन्य विकल्प हैं ।

— COOLSerdash

बाउंड इनपुट एक लीनियर मॉडल के लिए बंधे आउटपुट का तात्पर्य है। (रूपांतरित) भविष्यवक्ताओं पर सीमाएं क्या हैं? क्या आप हमें फिट किए गए मॉडल की सारांश तालिका दिखा सकते हैं?

— कार्डिनल

मेंनी: आप सभी को वास्तव में जरूरत है (शुरुआत करने के लिए) गुणांक मान और भविष्यवक्ताओं पर सीमाएं हैं। एक-एक करके संकेतों का मिलान करके, आप न्यूनतम और अधिकतम भविष्यवाणी को जल्दी से निर्धारित कर सकते हैं (यह अनुमान लगाते हुए कि भविष्यवक्ता हमेशा सीमा को संतुष्ट करेंगे, या तो स्पष्ट रूप से या स्पष्ट रूप से)।

— कार्डिनल

@कार्डिनल: मैंने भविष्यवक्ताओं की सीमा की जाँच की और आपकी धारणा की पुष्टि करने में सक्षम था। दिए गए (अनियंत्रित) भविष्यवक्ताओं के साथ अधिकतम भविष्यवाणी ~ 0.79 है। क्या आप अपनी टिप्पणी को उत्तर के रूप में "कॉपी / पेस्ट" कर सकते हैं ताकि मैं इसे स्वीकार कर सकूं? मैं कैसे आगे बढ़ सकता हूं? मुझे लगता है कि यह दर्शाता है कि मेरे भविष्यवक्ताओं और परिणाम के बीच कोई रैखिक संबंध नहीं है?

— मेन्नी

जवाबों:

आपका dep var 0 और 1 के बीच बँधा हुआ है और इस तरह OLS पूरी तरह उपयुक्त नहीं है, मैं उदाहरण के लिए बीटा रिग्रेशन का सुझाव देता हूं, और अन्य तरीके भी हो सकते हैं। लेकिन दूसरी बात, आपके बॉक्स-कॉक्स परिवर्तन के बाद, आप कहते हैं कि आपकी भविष्यवाणियां बंधी हुई हैं, लेकिन आपका ग्राफ ऐसा नहीं दिखाता है।

— लियोनार्डो ऑस्लेन्डर
स्रोत

हालांकि 0/1 की सीमा का पालन करने वाले प्रतिगमन का उपयोग करने पर बहुत अधिक ध्यान केंद्रित है, और यह उचित (और महत्वपूर्ण!) है, आपके एलपीएम के 0.8 से अधिक परिणाम की भविष्यवाणी नहीं करने का विशिष्ट प्रश्न मुझे थोड़ा अलग सवाल के रूप में देता है। ।

या तो मामले में, आपके अवशेषों में एक विख्यात पैटर्न है, अर्थात्, आपका रैखिक मॉडल आपके वितरण की ऊपरी पूंछ को खराब तरीके से फिट करता है। इसका मतलब है कि सही मॉडल के बारे में कुछ गैर-स्पष्ट है।

समाधान जो आपके डेटा के 0/1 बाउंड को भी मानते हैं: प्रोबिट, लॉगिट और बीटा रिग्रेशन। यह बाध्य महत्वपूर्ण है और आपके कार्य को कठोर होने के लिए संबोधित किया जाना चाहिए, जो कि आपके वितरण के अपेक्षाकृत करीब है, और इस प्रकार उस विषय पर बड़ी संख्या में उत्तर।

आमतौर पर, समस्या यह है कि एक एलपीएम 0/1 से अधिक है। यहां ऐसा मामला नहीं है! यदि आप 0/1 बाध्य के साथ संबंध नहीं रखते हैं और सक्रिय रूप से एक समाधान चाहते हैं जिसे (x'x) ^ - 1 (x'y) के साथ फिट किया जा सकता है, तो विचार करें कि शायद मॉडल सख्ती से रैखिक नहीं है। मॉडल को x ^ 2 के फ़ंक्शन के रूप में फिट करना, स्वतंत्र चर के क्रॉस उत्पाद या स्वतंत्र चर के लॉग आपके फिट को बेहतर बनाने में मदद कर सकते हैं और संभवतः आपके मॉडल की व्याख्यात्मक शक्ति में सुधार कर सकते हैं ताकि यह मान 0.8 से अधिक हो।

— RegressForward
स्रोत