मुझे पता है कि रैखिक प्रतिगमन में प्रतिक्रिया चर निरंतर होना चाहिए लेकिन ऐसा क्यों है? मुझे ऐसा कुछ भी ऑनलाइन नहीं मिल रहा है जो यह बताता हो कि मैं प्रतिक्रिया चर के लिए असतत डेटा का उपयोग क्यों नहीं कर सकता।
मुझे पता है कि रैखिक प्रतिगमन में प्रतिक्रिया चर निरंतर होना चाहिए लेकिन ऐसा क्यों है? मुझे ऐसा कुछ भी ऑनलाइन नहीं मिल रहा है जो यह बताता हो कि मैं प्रतिक्रिया चर के लिए असतत डेटा का उपयोग क्यों नहीं कर सकता।
जवाबों:
आपके द्वारा पसंद किए गए नंबरों के किसी भी दो कॉलम पर रैखिक प्रतिगमन का उपयोग करके आपको रोकना कुछ भी नहीं है। ऐसे समय होते हैं जब यह एक बहुत ही समझदार विकल्प हो सकता है।
हालाँकि, जो आप बाहर निकलते हैं उसके गुण आवश्यक रूप से उपयोगी नहीं होंगे (जैसे जरूरी नहीं होगा कि आप उन्हें चाहते हों)।
आमतौर पर प्रतिगमन के साथ आप Y और पूर्वसूचक के सशर्त माध्य के बीच कुछ संबंधों को फिट करने की कोशिश कर रहे हैं - यानी कुछ फिट रिश्ते ; यकीनन सशर्त अपेक्षा के व्यवहार को मॉडलिंग करता है जो 'प्रतिगमन' है । [रैखिक प्रतिगमन है जब आप लिए एक विशेष रूप लेते हैं ]जी
उदाहरण के लिए, विसंगति के चरम मामलों पर विचार करें, एक प्रतिक्रिया चर जिसका वितरण या तो 0 या 1 पर है और जो मान 1 को प्रायिकता के साथ लेता है जो कुछ भविष्यवक्ता ( ) के रूप में बदलता है। वह ।E ( Y | x ) = P ( Y = 1 | X = x )
यदि आप एक रेखीय प्रतिगमन मॉडल के साथ संबंध के उस प्रकार को फिट करते हैं, तो एक संकीर्ण अंतराल से अलग, यह लिए मूल्यों की भविष्यवाणी करेगा जो असंभव हैं - या तो नीचे या ऊपर :0 1
वास्तव में, यह देखना भी संभव है कि जैसे-जैसे अपेक्षाएं सीमाओं के करीब आती जाती हैं, वैसे-वैसे मूल्यों को अधिक से अधिक बार उस सीमा पर मान लेना चाहिए, इसलिए इसका विचरण इससे छोटा हो जाता है यदि अपेक्षा बीच के पास थी - विचरण 0 तक घट जाना चाहिए तो एक साधारण प्रतिगमन को वेट गलत हो जाता है, उस क्षेत्र में डेटा को कम करना जहां सशर्त अपेक्षा 0 या 1. के पास है यदि आपके पास एक और बी के बीच एक चर बद्ध है, तो (जैसे प्रत्येक अवलोकन असतत गिनती के रूप में होता है) उस अवलोकन के लिए एक ज्ञात कुल संभव गिनती में से)
इसके अलावा, हम सामान्य रूप से ऊपरी और निचली सीमाओं की ओर सशर्त साधन की अपेक्षा करते हैं, जिसका अर्थ है कि संबंध सामान्य रूप से घुमावदार होगा, सीधे नहीं, इसलिए हमारी रैखिक प्रतिगमन संभावना डेटा की सीमा के भीतर भी गलत हो जाती है।
जब आप उस एक सीमा के समीप होते हैं, तो डेटा के साथ समान समस्याएं होती हैं, जो केवल एक तरफ से बंधी होती हैं (जैसे कि कोई ऊपरी सीमा नहीं है)।
यह संभव है (यदि दुर्लभ है) असतत डेटा है जो या तो अंत में बाध्य नहीं है; यदि वैरिएबल बहुत भिन्न मान लेता है, तो जब तक माध्य का मॉडल विवरण और विचरण उचित नहीं होगा, तब तक विसंगति अपेक्षाकृत कम परिणाम हो सकती है।
यहाँ एक उदाहरण दिया गया है कि रेखीय प्रतिगमन का उपयोग करना पूरी तरह से उचित होगा:
भले ही एक्स-वैल्यू की किसी भी पतली पट्टी में कुछ अलग-अलग वाई-वैल्यू हैं, जो संभवतः देखे जा सकते हैं (शायद चौड़ाई 1 के अंतराल के लिए लगभग 10), उम्मीद अच्छी तरह से अनुमान लगाया जा सकता है, और यहां तक कि मानक त्रुटियों और पी- इस विशेष मामले में मूल्य और विश्वास अंतराल कमोबेश सभी उचित होंगे। भविष्यवाणी अंतराल कुछ हद तक कम काम करेंगे (क्योंकि गैर-सामान्यता का उस मामले में अधिक प्रत्यक्ष प्रभाव पड़ेगा)
-
यदि आप परिकल्पना परीक्षण करना चाहते हैं या आत्मविश्वास या भविष्यवाणी अंतराल की गणना करना चाहते हैं, तो सामान्य प्रक्रियाएं सामान्यता की धारणा बनाती हैं। कुछ परिस्थितियों में, यह बात हो सकती है। हालाँकि, यह अनुमान के बिना संभव है कि विशेष धारणा बनाए।
मैं टिप्पणी नहीं कर सकता, इसलिए मैं जवाब दूंगा: साधारण रेखीय प्रतिगमन में प्रतिक्रिया चर को निरंतर नहीं होना चाहिए, आपकी धारणा यह नहीं है:
लेकिन है:
साधारण रेखीय प्रतिगमन वर्ग के अवशेषों के न्यूनीकरण से उत्पन्न होता है, जो कि निरंतर और असतत चर के लिए उपयुक्त माना जाता है (गॉस-मार्कोफ़ प्रमेय देखें)। बेशक आमतौर पर इस्तेमाल किया जाने वाला आत्मविश्वास या भविष्यवाणी अंतराल और परिकल्पना परीक्षण सामान्य वितरण धारणा पर आधारित होते हैं, जैसे ग्लेन_ बी ने सही ढंग से बताया, लेकिन मापदंडों का ओएलएस अनुमान नहीं करता है।
रैखिक प्रतिगमन में, जिस कारण से हमें निरंतर प्रतिक्रिया की आवश्यकता होती है वह हमारे द्वारा की गई धारणाओं से जुड़ा होता है। यदि स्वतंत्र चर निरंतर है, तो हम मानते हैं कि और बीच रैखिक संबंध है
जहां, अवशिष्ट सामान्य हैं। और फार्मूला हम जानते हैं कि निरंतर है।
दूसरी ओर, सामान्यीकृत रैखिक मॉडल में , प्रतिक्रिया चर असतत / श्रेणीबद्ध (लॉजिस्टिक प्रतिगमन) हो सकता है। या गिनती (पॉइसन रिग्रेशन)।
Mark999 और remapt की टिप्पणियों को संबोधित करने के लिए संपादित करें।
रैखिक प्रतिगमन एक सामान्य शब्द है जिसका उपयोग लोग अलग-अलग तरीके से कर सकते हैं। असतत चर पर इसका उपयोग करने के लिए हमें रोकने के लिए कुछ भी नहीं है या स्वतंत्र चर और निर्भर चर रैखिक नहीं हैं।
यदि हम कुछ नहीं मानते हैं और रैखिक प्रतिगमन चलाते हैं, तो भी हमें परिणाम मिल सकते हैं। और यदि परिणाम हमारी आवश्यकताओं को पूरा करते हैं, तो पूरी प्रक्रिया ठीक है। हालाँकि, जैसा कि Glan_b ने कहा है
यदि आप परिकल्पना परीक्षण करना चाहते हैं या आत्मविश्वास या भविष्यवाणी अंतराल की गणना करना चाहते हैं, तो सामान्य प्रक्रियाएं सामान्यता की धारणा बनाती हैं।
मेरे पास इसका जवाब है क्योंकि मुझे लगता है कि ओपी शास्त्रीय सांख्यिकी पुस्तक से रैखिक प्रतिगमन पूछ रहा है जहां हम आम तौर पर इस धारणा को रैखिक प्रतिगमन सिखाते हैं।
एक सैद्धांतिक दृष्टिकोण से ऊपर दिए गए उत्तर सही हैं। हालाँकि, व्यावहारिक रूप से, यह सब आपके डेटा के डोमेन और आपके मॉडल की अनुमानित शक्ति पर निर्भर करता है।
एक वास्तविक जीवन का उदाहरण पुराने एमडीएस दिवालियापन मॉडल है। यह उपभोक्ता ऋणदाताओं द्वारा उपयोग किए जाने वाले शुरुआती जोखिम स्कोर में से एक था, जो उधारकर्ता को दिवालिया घोषित करने की संभावना की भविष्यवाणी करता था। इस मॉडल ने उधारकर्ता की क्रेडिट रिपोर्ट और द्विआधारी 0/1 ध्वज से विस्तृत डेटा का उपयोग भविष्यवाणी अवधि में दिवालियापन का संकेत देने के लिए किया था। फिर उस डेटा को ... yep में फीड किया .. आपने अनुमान लगाया।
एक सादा पुराना रैखिक प्रतिगमन
मुझे एक बार उन लोगों से बात करने का मौका मिला, जिन्होंने इस मॉडल का निर्माण किया था। मैंने उनसे मान्यताओं के उल्लंघन के बारे में पूछा। उन्होंने समझाया कि भले ही इसने अवशेषों आदि के बारे में मान्यताओं का पूरी तरह से उल्लंघन किया हो, लेकिन उन्होंने इसकी परवाह नहीं की।
पता चला है...
यह 0/1 रैखिक प्रतिगमन मॉडल (जब एक आसान-से-पढ़ा गया स्कोर के लिए मानकीकृत / बढ़ाया गया और एक उपयुक्त कटऑफ के साथ जोड़ा गया) ने डेटा के होल्डआउट नमूनों के खिलाफ सफाई से वैधता प्रदान की और दिवालियापन के लिए एक अच्छा / बुरा भेदभाव करनेवाला के रूप में बहुत अच्छा प्रदर्शन किया।
मॉडल का उपयोग फ़िक्को के जोखिम स्कोर (जो 60+ दिनों की क्रेडिट डेलिक्वेंसी की भविष्यवाणी करने के लिए डिज़ाइन किया गया था) के साथ दिवालिएपन की ओर बढ़ने के लिए दूसरे क्रेडिट स्कोर के रूप में वर्षों के लिए उपयोग किया गया था।