रैखिक प्रतिगमन में प्रतिक्रिया चर को निरंतर क्यों रखना पड़ता है?


13

मुझे पता है कि रैखिक प्रतिगमन में प्रतिक्रिया चर निरंतर होना चाहिए लेकिन ऐसा क्यों है? मुझे ऐसा कुछ भी ऑनलाइन नहीं मिल रहा है जो यह बताता हो कि मैं प्रतिक्रिया चर के लिए असतत डेटा का उपयोग क्यों नहीं कर सकता।

जवाबों:


25

आपके द्वारा पसंद किए गए नंबरों के किसी भी दो कॉलम पर रैखिक प्रतिगमन का उपयोग करके आपको रोकना कुछ भी नहीं है। ऐसे समय होते हैं जब यह एक बहुत ही समझदार विकल्प हो सकता है।

हालाँकि, जो आप बाहर निकलते हैं उसके गुण आवश्यक रूप से उपयोगी नहीं होंगे (जैसे जरूरी नहीं होगा कि आप उन्हें चाहते हों)।

आमतौर पर प्रतिगमन के साथ आप Y और पूर्वसूचक के सशर्त माध्य के बीच कुछ संबंधों को फिट करने की कोशिश कर रहे हैं - यानी कुछ फिट रिश्ते ; यकीनन सशर्त अपेक्षा के व्यवहार को मॉडलिंग करता है जो 'प्रतिगमन' है । [रैखिक प्रतिगमन है जब आप लिए एक विशेष रूप लेते हैं ]जीE(Y|x)=g(x)g

उदाहरण के लिए, विसंगति के चरम मामलों पर विचार करें, एक प्रतिक्रिया चर जिसका वितरण या तो 0 या 1 पर है और जो मान 1 को प्रायिकता के साथ लेता है जो कुछ भविष्यवक्ता ( ) के रूप में बदलता है। वह ।E ( Y | x ) = P ( Y = 1 | X = x )xE(Y|x)=P(Y=1|X=x)

यदि आप एक रेखीय प्रतिगमन मॉडल के साथ संबंध के उस प्रकार को फिट करते हैं, तो एक संकीर्ण अंतराल से अलग, यह लिए मूल्यों की भविष्यवाणी करेगा जो असंभव हैं - या तो नीचे या ऊपर :0 1E(Y)01

0-1 डेटा और कम से कम वर्ग फिट

वास्तव में, यह देखना भी संभव है कि जैसे-जैसे अपेक्षाएं सीमाओं के करीब आती जाती हैं, वैसे-वैसे मूल्यों को अधिक से अधिक बार उस सीमा पर मान लेना चाहिए, इसलिए इसका विचरण इससे छोटा हो जाता है यदि अपेक्षा बीच के पास थी - विचरण 0 तक घट जाना चाहिए तो एक साधारण प्रतिगमन को वेट गलत हो जाता है, उस क्षेत्र में डेटा को कम करना जहां सशर्त अपेक्षा 0 या 1. के पास है यदि आपके पास एक और बी के बीच एक चर बद्ध है, तो (जैसे प्रत्येक अवलोकन असतत गिनती के रूप में होता है) उस अवलोकन के लिए एक ज्ञात कुल संभव गिनती में से)

इसके अलावा, हम सामान्य रूप से ऊपरी और निचली सीमाओं की ओर सशर्त साधन की अपेक्षा करते हैं, जिसका अर्थ है कि संबंध सामान्य रूप से घुमावदार होगा, सीधे नहीं, इसलिए हमारी रैखिक प्रतिगमन संभावना डेटा की सीमा के भीतर भी गलत हो जाती है।

जब आप उस एक सीमा के समीप होते हैं, तो डेटा के साथ समान समस्याएं होती हैं, जो केवल एक तरफ से बंधी होती हैं (जैसे कि कोई ऊपरी सीमा नहीं है)।

यह संभव है (यदि दुर्लभ है) असतत डेटा है जो या तो अंत में बाध्य नहीं है; यदि वैरिएबल बहुत भिन्न मान लेता है, तो जब तक माध्य का मॉडल विवरण और विचरण उचित नहीं होगा, तब तक विसंगति अपेक्षाकृत कम परिणाम हो सकती है।

यहाँ एक उदाहरण दिया गया है कि रेखीय प्रतिगमन का उपयोग करना पूरी तरह से उचित होगा:

असतत y को x के फंक्शन के रूप में दिखाते हुए प्लॉट जहां रेखीय प्रतिगमन समझ में आता है

भले ही एक्स-वैल्यू की किसी भी पतली पट्टी में कुछ अलग-अलग वाई-वैल्यू हैं, जो संभवतः देखे जा सकते हैं (शायद चौड़ाई 1 के अंतराल के लिए लगभग 10), उम्मीद अच्छी तरह से अनुमान लगाया जा सकता है, और यहां तक ​​कि मानक त्रुटियों और पी- इस विशेष मामले में मूल्य और विश्वास अंतराल कमोबेश सभी उचित होंगे। भविष्यवाणी अंतराल कुछ हद तक कम काम करेंगे (क्योंकि गैर-सामान्यता का उस मामले में अधिक प्रत्यक्ष प्रभाव पड़ेगा)

-

यदि आप परिकल्पना परीक्षण करना चाहते हैं या आत्मविश्वास या भविष्यवाणी अंतराल की गणना करना चाहते हैं, तो सामान्य प्रक्रियाएं सामान्यता की धारणा बनाती हैं। कुछ परिस्थितियों में, यह बात हो सकती है। हालाँकि, यह अनुमान के बिना संभव है कि विशेष धारणा बनाए।


धन्यवाद, निश्चित नहीं कि मैंने आपकी कही हर बात को समझा है, लेकिन मैं इस पर काम करूंगा।
इलोवेस्टैट्स

3
यदि आपके पास कुछ विशिष्ट प्रश्न हैं तो मैं उनका उत्तर देने का प्रयास कर सकता हूं
Glen_b -Reinstate Monica

@ilovestats मेरे पास अर्थमिति में एमए है और मैं आपको आश्वस्त कर सकता हूं कि यह उत्तर हर शब्द को समझने के लायक है। उत्कृष्ट उत्तर, लॉजिस्टिक रिग्रेशन का परिचय देने के लिए एक आसान सेग / अच्छी नींव के साथ।
d8aninja

3

मैं टिप्पणी नहीं कर सकता, इसलिए मैं जवाब दूंगा: साधारण रेखीय प्रतिगमन में प्रतिक्रिया चर को निरंतर नहीं होना चाहिए, आपकी धारणा यह नहीं है:

y=β0+β1x

लेकिन है:

E[y]=β0+β1x.

साधारण रेखीय प्रतिगमन वर्ग के अवशेषों के न्यूनीकरण से उत्पन्न होता है, जो कि निरंतर और असतत चर के लिए उपयुक्त माना जाता है (गॉस-मार्कोफ़ प्रमेय देखें)। बेशक आमतौर पर इस्तेमाल किया जाने वाला आत्मविश्वास या भविष्यवाणी अंतराल और परिकल्पना परीक्षण सामान्य वितरण धारणा पर आधारित होते हैं, जैसे ग्लेन_ बी ने सही ढंग से बताया, लेकिन मापदंडों का ओएलएस अनुमान नहीं करता है।


2

रैखिक प्रतिगमन में, जिस कारण से हमें निरंतर प्रतिक्रिया की आवश्यकता होती है वह हमारे द्वारा की गई धारणाओं से जुड़ा होता है। यदि स्वतंत्र चर निरंतर है, तो हम मानते हैं कि और बीच रैखिक संबंध हैxxy

y=β0+β1x+ϵ

जहां, अवशिष्ट सामान्य हैं। और फार्मूला हम जानते हैं कि निरंतर है।ϵy

दूसरी ओर, सामान्यीकृत रैखिक मॉडल में , प्रतिक्रिया चर असतत / श्रेणीबद्ध (लॉजिस्टिक प्रतिगमन) हो सकता है। या गिनती (पॉइसन रिग्रेशन)।


Mark999 और remapt की टिप्पणियों को संबोधित करने के लिए संपादित करें।

रैखिक प्रतिगमन एक सामान्य शब्द है जिसका उपयोग लोग अलग-अलग तरीके से कर सकते हैं। असतत चर पर इसका उपयोग करने के लिए हमें रोकने के लिए कुछ भी नहीं है या स्वतंत्र चर और निर्भर चर रैखिक नहीं हैं।

यदि हम कुछ नहीं मानते हैं और रैखिक प्रतिगमन चलाते हैं, तो भी हमें परिणाम मिल सकते हैं। और यदि परिणाम हमारी आवश्यकताओं को पूरा करते हैं, तो पूरी प्रक्रिया ठीक है। हालाँकि, जैसा कि Glan_b ने कहा है

यदि आप परिकल्पना परीक्षण करना चाहते हैं या आत्मविश्वास या भविष्यवाणी अंतराल की गणना करना चाहते हैं, तो सामान्य प्रक्रियाएं सामान्यता की धारणा बनाती हैं।

मेरे पास इसका जवाब है क्योंकि मुझे लगता है कि ओपी शास्त्रीय सांख्यिकी पुस्तक से रैखिक प्रतिगमन पूछ रहा है जहां हम आम तौर पर इस धारणा को रैखिक प्रतिगमन सिखाते हैं।


धन्यवाद, मैं आपकी व्याख्या समझ गया। सबसे की सराहना की।
इलोवेस्टैट्स

1
क्या आप यह भी बता सकते हैं कि व्याख्यात्मक चर या तो निरंतर या असतत हो सकता है (जैसा कि कई प्रकाशन कहते हैं)? अपने स्पष्टीकरण में आप कहते हैं (और यह समझ में आता है) कि स्वतंत्र चर एक्स निरंतर है।
इलोवेस्टैट्स

2
मुझे नहीं लगता कि यह उत्तर सही है। प्रतिक्रिया चर को व्याख्यात्मक चर (एस) का एक नियतात्मक कार्य नहीं माना जाता है, और यह मानने की कोई आवश्यकता नहीं है कि व्याख्यात्मक चर (s) निरंतर है।
mark999

2
परिणाम असतत या विवाद हो सकता है, यह उत्तर स्पष्ट गलत है
रेपमत

@ आपकी टिप्पणी के लिए धन्यवाद, कृपया मेरे संपादन की जाँच करें।
हायतौ डू

0

यह नहीं है यदि मॉडल काम करता है, तो कौन परवाह करता है?

एक सैद्धांतिक दृष्टिकोण से ऊपर दिए गए उत्तर सही हैं। हालाँकि, व्यावहारिक रूप से, यह सब आपके डेटा के डोमेन और आपके मॉडल की अनुमानित शक्ति पर निर्भर करता है।

एक वास्तविक जीवन का उदाहरण पुराने एमडीएस दिवालियापन मॉडल है। यह उपभोक्ता ऋणदाताओं द्वारा उपयोग किए जाने वाले शुरुआती जोखिम स्कोर में से एक था, जो उधारकर्ता को दिवालिया घोषित करने की संभावना की भविष्यवाणी करता था। इस मॉडल ने उधारकर्ता की क्रेडिट रिपोर्ट और द्विआधारी 0/1 ध्वज से विस्तृत डेटा का उपयोग भविष्यवाणी अवधि में दिवालियापन का संकेत देने के लिए किया था। फिर उस डेटा को ... yep में फीड किया .. आपने अनुमान लगाया।

एक सादा पुराना रैखिक प्रतिगमन

मुझे एक बार उन लोगों से बात करने का मौका मिला, जिन्होंने इस मॉडल का निर्माण किया था। मैंने उनसे मान्यताओं के उल्लंघन के बारे में पूछा। उन्होंने समझाया कि भले ही इसने अवशेषों आदि के बारे में मान्यताओं का पूरी तरह से उल्लंघन किया हो, लेकिन उन्होंने इसकी परवाह नहीं की।

पता चला है...

यह 0/1 रैखिक प्रतिगमन मॉडल (जब एक आसान-से-पढ़ा गया स्कोर के लिए मानकीकृत / बढ़ाया गया और एक उपयुक्त कटऑफ के साथ जोड़ा गया) ने डेटा के होल्डआउट नमूनों के खिलाफ सफाई से वैधता प्रदान की और दिवालियापन के लिए एक अच्छा / बुरा भेदभाव करनेवाला के रूप में बहुत अच्छा प्रदर्शन किया।

मॉडल का उपयोग फ़िक्को के जोखिम स्कोर (जो 60+ दिनों की क्रेडिट डेलिक्वेंसी की भविष्यवाणी करने के लिए डिज़ाइन किया गया था) के साथ दिवालिएपन की ओर बढ़ने के लिए दूसरे क्रेडिट स्कोर के रूप में वर्षों के लिए उपयोग किया गया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.