रैखिक प्रतिगमन सामान्य वितरण का उपयोग कैसे करता है?


26

रैखिक प्रतिगमन में, प्रत्येक अनुमानित मान को संभावित मानों के सामान्य वितरण से उठाया गया है। निचे देखो।

लेकिन प्रत्येक अनुमानित मूल्य को सामान्य वितरण से क्यों माना जाता है? रैखिक प्रतिगमन इस धारणा का उपयोग कैसे करता है? क्या होगा यदि संभव मानों को आम तौर पर वितरित नहीं किया जाता है?

यहाँ छवि विवरण दर्ज करें


2
केवल त्रुटियां एक सामान्य वितरण का अनुसरण करती हैं (जिसका अर्थ है Y दी गई X की सशर्त संभावना भी सामान्य है)। केंद्रीय सीमा प्रमेय से संबंधित कारणों के कारण यह संभवतः पारंपरिक है। लेकिन आप किसी भी सममित संभावना वितरण के साथ सामान्य को बदल सकते हैं और कम से कम वर्गों के माध्यम से गुणांक के समान अनुमान प्राप्त कर सकते हैं। हालांकि अलग-अलग मानक अवशिष्ट त्रुटि, फिट की अच्छाई और मान्यताओं को मान्य करने का तरीका अलग होगा।
कियान

4
सामान्य धारणाएं मुख्य रूप से अस्तित्व में आती हैं - परिकल्पना परीक्षण, सीआई, पीआई। यदि आप अलग-अलग धारणा बनाते हैं, तो वे अलग-अलग होंगे, कम से कम छोटे नमूनों में।
Glen_b -Reinstate मोनिका

7
संयोग से, साधारण रेखीय प्रतिगमन के लिए आपके आरेख को सामान्य वक्रों को लंबवत रूप से खींचना चाहिए, तिरछे नहीं।
Glen_b -Reinstate मोनिका

जवाबों:


29

अपने आप में रैखिक प्रतिगमन को सामान्य (गॉसियन) धारणा की आवश्यकता नहीं होती है, अनुमान लगाने वालों को इस तरह की धारणा की आवश्यकता के बिना (रैखिक कम से कम वर्गों द्वारा) गणना की जा सकती है, और इसके बिना सही समझ में आता है।

लेकिन फिर, सांख्यिकीविदों के रूप में हम इस पद्धति के कुछ गुणों को समझना चाहते हैं, जैसे सवालों के जवाब: कुछ अर्थों में सबसे कम वर्ग अनुमानक इष्टतम हैं? या हम कुछ वैकल्पिक अनुमानकों के साथ बेहतर कर सकते हैं? फिर, त्रुटि शर्तों के सामान्य वितरण के तहत, हम दिखा सकते हैं कि यह अनुमानक हैं, वास्तव में, इष्टतम, उदाहरण के लिए वे "न्यूनतम विचरण के निष्पक्ष", या अधिकतम संभावना हैं। सामान्य धारणा के बिना ऐसी कोई भी बात साबित नहीं की जा सकती।

इसके अलावा, यदि हम विश्वास अंतराल या परिकल्पना परीक्षणों के निर्माण (और गुणों का विश्लेषण) करना चाहते हैं, तो हम सामान्य धारणा का उपयोग करते हैं। लेकिन, हम इसके बजाय कुछ अन्य माध्यमों से विश्वास अंतराल का निर्माण कर सकते हैं, जैसे कि बूटस्ट्रैपिंग। फिर, हम सामान्य धारणा का उपयोग नहीं करते हैं, लेकिन, इसके बिना, यह हो सकता है कि हम कुछ अन्य अनुमानकों का उपयोग कम से कम वर्ग वाले, शायद कुछ मजबूत अनुमानकों का उपयोग करें?

व्यवहार में, ज़ाहिर है, सामान्य वितरण सबसे सुविधाजनक कथा साहित्य है। तो, वास्तव में महत्वपूर्ण सवाल यह है कि ऊपर बताए गए परिणामों का उपयोग करने के लिए हमें सामान्यता के कितना करीब होना चाहिए? यह एक बहुत पेचीदा सवाल है! इष्टतम परिणाम मजबूत नहीं होते हैं , इसलिए सामान्यता से बहुत छोटा विचलन भी इष्टतमता को नष्ट कर सकता है। यह मजबूत तरीकों के पक्ष में एक तर्क है। उस सवाल पर एक और समझौते के लिए, सामान्य त्रुटियों के बजाय हमें टी त्रुटियों का उपयोग क्यों करना चाहिए?

एक और प्रासंगिक सवाल यह है कि प्रतिगमन रेखा का आकलन करने के उद्देश्य से अवशेषों की सामान्यता "बमुश्किल महत्वपूर्ण क्यों है"?

 EDIT

इस जवाब ने एक बड़ी चर्चा में टिप्पणी की, जिसने फिर से मेरे नए प्रश्न को आगे बढ़ाया : रैखिक प्रतिगमन: ओएलएस और एमएलई की पहचान प्रदान करने वाला कोई भी गैर-सामान्य वितरण? जो अब अंत में (तीन) उत्तर मिला, उदाहरण देते हुए कि गैर-सामान्य वितरण कम से कम वर्गों के अनुमानकों का नेतृत्व करते हैं।


कम से कम चौकोर त्रुटि सामान्य धारणा के बराबर है।
नील जी

4
ऐसा कोई विरोधाभास नहीं है। उदाहरण के लिए, गॉस-मार्कोव प्रमेय कहता है कि सभी रैखिक अनुमानकों के बीच रैखिक कम से कम वर्ग इष्टतम (कम से कम विचरण अर्थ) है, बिना किसी वितरण की मान्यताओं के (मौजूदा विचरण के अलावा)। कम से कम वर्ग एक संख्यात्मक प्रक्रिया है जिसे किसी भी संभावित मॉडल से स्वतंत्र परिभाषित किया जा सकता है! संभाव्य मॉडल का उपयोग तब सांख्यिकीय दृष्टिकोण से इस प्रक्रिया का विश्लेषण करने के लिए किया जाता है।
kjetil b halvorsen

2
@NeilG निश्चित रूप से सामान्य के लिए MLE कम से कम वर्ग है, लेकिन इसका मतलब यह नहीं है कि कम से कम वर्ग सामान्यता की धारणा को पकड़ सकता है। दूसरी ओर, सामान्यता से बड़े विचलन कम से कम वर्गों को खराब विकल्प बना सकते हैं (जब सभी रैखिक अनुमानकर्ता खराब होते हैं)।
Glen_b -Reinstate Monica

1
@ नील ने जो कहा, वह किसी भी तरह से एलएस और सामान्यता के समान नहीं है, लेकिन आप स्पष्ट रूप से कहते हैं कि वे समान हैं, इसलिए मुझे नहीं लगता कि हमारे दो कथन भी तनातनी के करीब हैं।
Glen_b -Reinstate Monica

1
@ नील क्या आप दिखा सकते हैं कि आपके कथन का वास्तव में क्या अर्थ है? मैं वास्तव में इसे नहीं देखता।
Glen_b -Reinstate Monica

3

यह चर्चा क्या है यदि अवशिष्ट सामान्य रूप से वितरित किए जाते हैं, लेकिन y नहीं है? इस प्रश्न को अच्छी तरह से संबोधित किया है।

संक्षेप में, प्रतिगमन समस्या के लिए, हम केवल यह मान लेते हैं कि प्रतिक्रिया x के मूल्य पर सामान्य स्थिति है। यह आवश्यक नहीं है कि स्वतंत्र या प्रतिक्रिया चर स्वतंत्र हों।


1
  1. लेकिन प्रत्येक अनुमानित मूल्य को सामान्य वितरण से क्यों माना जाता है?

इसका कोई गहरा कारण नहीं है, और आप वितरण मान्यताओं को बदलने के लिए स्वतंत्र हैं, जीएलएम पर जा रहे हैं, या मजबूत प्रतिगमन के लिए। एलएम (सामान्य वितरण) लोकप्रिय है, क्योंकि इसकी गणना करना आसान है, काफी स्थिर और अवशिष्ट व्यवहार में हैं कम या ज्यादा सामान्य।

  1. रैखिक प्रतिगमन इस धारणा का उपयोग कैसे करता है?

किसी भी प्रतिगमन के रूप में, रैखिक मॉडल (सामान्य त्रुटि के साथ प्रतिगमन) उन मापदंडों की खोज करता है जो दिए गए वितरण धारणा के लिए संभावना का अनुकूलन करते हैं। रैखिक मॉडल के लिए संभावना की स्पष्ट गणना के उदाहरण के लिए यहां देखें । यदि आप एक रैखिक मॉडल की लॉग संभावना को लेते हैं, तो यह वर्गों के योग के लिए आनुपातिक हो जाता है, और उस के अनुकूलन की गणना काफी आसानी से की जा सकती है।

  1. क्या होगा यदि संभव मानों को आम तौर पर वितरित नहीं किया जाता है?

यदि आप अलग-अलग वितरण के साथ एक मॉडल फिट करना चाहते हैं, तो अगले पाठ्यपुस्तक के चरणों को सामान्यीकृत रैखिक मॉडल (जीएलएम) होगा, जो अलग-अलग वितरण, या सामान्य रैखिक मॉडल पेश करते हैं, जो अभी भी सामान्य हैं, लेकिन स्वतंत्रता को आराम देते हैं। कई अन्य विकल्प संभव हैं। यदि आप केवल आउटलेर्स के प्रभाव को कम करना चाहते हैं, तो आप उदाहरण के लिए मजबूत प्रतिगमन पर विचार कर सकते हैं।


0

प्रश्न की फिर से समीक्षा करने के बाद, मुझे लगता है कि सामान्य वितरण का उपयोग करने का कोई कारण नहीं है जब तक कि आप प्रतिगमन के पैरामीटर के बारे में किसी तरह का निष्कर्ष नहीं निकालना चाहते हैं। और आप रैखिक प्रतिगमन को लागू कर सकते हैं और शोर शब्द के वितरण की उपेक्षा कर सकते हैं।


2
मेरे लिए बहुत मायने नहीं रखता है।
लघुशंका

0

मुझे एक वैरिएबल रिग्रेशन के मामले से चिपके रहना चाहिए। विवरण समान हैं, लेकिन बहुभिन्नरूपी प्रतिगमन के मामले में संकेतन अधिक बोझिल है। किसी भी डेटा सेट को देखते हुए 'न्यूनतम वर्ग रेखा' , जो कि ताकि को कम से कम किया जा सके । वह शुद्ध गणित है। हालाँकि इस धारणा के तहत कि अवशेषy = बीटा एक्स + बीटा Σ मैं ( y मैं - Σ मैं बीटा एक्स मैं - सी ) 2(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ। मामले में क्या करना है कि त्रुटि अवधि के सांख्यिकीय गुण नहीं हैं? "द ग्रेजुएट" के लिए माफी के साथ - एक शब्द बूटस्ट्रैप।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.