रैखिक प्रतिगमन मॉडल में "निरंतर विचरण" होने का क्या मतलब है?


53

त्रुटि शब्द में "निरंतर विचरण" होने का क्या अर्थ है? जैसा कि मैं इसे देखता हूं, हमारे पास एक आश्रित चर और एक स्वतंत्र चर के साथ एक डेटा है। निरंतर विचलन रैखिक प्रतिगमन की धारणाओं में से एक है। मैं सोच रहा हूं कि होमोसेक्शुअलिटी का क्या मतलब है। यहां तक ​​कि अगर मेरी 500 पंक्तियां हैं, तो भी मेरे पास एक एकल विचरण मूल्य होगा जो स्पष्ट रूप से स्थिर है। किस चर के साथ मुझे विचरण की तुलना करनी चाहिए?

जवाबों:


34

इसका मतलब यह है कि जब आप अनुमानित मूल्य के खिलाफ व्यक्तिगत त्रुटि की साजिश करते हैं, तो अनुमानित मूल्य के त्रुटि का विचरण स्थिर होना चाहिए। नीचे दिए गए चित्र में लाल तीर देखें, लाल रेखाओं की लंबाई (इसके विचरण का एक छंद) समान है।

यहाँ छवि विवरण दर्ज करें


1
ठीक है समझ गया।!! लेकिन चूंकि यह एक धारणा है कि हमें मॉडल को चलाने से पहले धारणा को मान्य करने की आवश्यकता नहीं है। और हमें इस धारणा की आवश्यकता क्यों है
मुकुल

2
कुछ मान्यताओं को केवल मॉडल चलाने के बाद ही परीक्षण किया जा सकता है। एक मॉडल की गणना करना केवल गणित है और एक मॉडल की व्याख्या करने के समान नहीं है।
जॉन

6
रेंज पेंग्विन नाइट के बराबर नहीं होती है, इसलिए आप यहां अपने शब्द को अद्यतन करना चाहते हैं।
जॉन

4
यदि आपकी विचरण धारणा गलत है, तो इसका आमतौर पर मतलब होगा कि मानक त्रुटियां गलत हैं और कोई भी परिकल्पना परीक्षण गलत निष्कर्ष निकाल सकता है। (एक अलग जॉन)
जॉन

4
मैं थोड़ा अलग हूं। मैं यह नहीं कहूंगा कि विषमलैंगिकता का अर्थ है कि आपके दांव की मानक त्रुटियां गलत हैं, बल्कि यह है कि OLS अनुमानक अब सबसे कुशल निष्पक्ष अनुमानक नहीं है। यही है, आप अधिक शक्ति / परिशुद्धता प्राप्त कर सकते हैं यदि या तो आपके पास निरंतर विचरण था (शायद वाई के एक परिवर्तन के कारण), या यदि आपने सही ढंग से गैर-कब्ज को ध्यान में रखा (शायद सामान्यीकृत कम से कम वर्गों के अनुमानक के माध्यम से)।
गूँग - मोनिका

58

यह एक ऐसी जगह है जहाँ मुझे कुछ सूत्र देखने में मदद करते हैं, यहाँ तक कि कुछ गणित की चिंता वाले लोगों के लिए भी (मैं सुझाव नहीं दे रहा हूँ कि आप जरूरी काम करते हैं)। साधारण रेखीय प्रतिगमन मॉडल यह है: यहां यह नोट करना महत्वपूर्ण है कि यह मॉडल स्पष्ट रूप से है एक बार जब आप डेटा में सार्थक जानकारी का अनुमान लगा लेते हैं (जो कि " " है) पर सफेद शोर के अलावा कुछ नहीं बचा है। इसके अलावा, त्रुटियों को एक सामान्य के रूप में विचरण के साथ वितरित किया जाता है ।
β 0 + β 1 एक्स σ 2 ε

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

यह महसूस करना महत्वपूर्ण है कि एक चर नहीं है (हालांकि जूनियर हाई स्कूल स्तर बीजगणित में, हम इसे कहते हैं)। यह अलग नहीं है। बदलता रहता है। बदलता है। त्रुटि शब्द, , अनियमित रूप से बदलता है ; यह एक यादृच्छिक चर है । हालाँकि, पैरामीटर ( वे हैं जिन्हें हम नहीं जानते - वे अलग-अलग नहीं हैं। इसके बजाय, वे अज्ञात स्थिरांक हैं । इस चर्चा का तथ्य यह है कि कोई भी बात नहीं है कि क्या है (यानी, वहाँ क्या मान ), एक्स वाई ε बीटा 0 , बीटा 1 , σ 2 ε )σε2XYεβ0, β1, σε2)Xσε2एक ही रहता है। दूसरे शब्दों में, त्रुटियों / अवशिष्टों का विचरण स्थिर है। इसके विपरीत (और शायद अधिक स्पष्टता) के लिए, इस मॉडल पर विचार करें: इस मामले में, हम लिए एक मूल्य में प्लग करते हैं (तीसरी पंक्ति पर शुरू) , इसे फ़ंक्शन माध्यम से पास करें और त्रुटि विचरण प्राप्त करें जो कि सटीक मान पर प्राप्त होता है । फिर हम हमेशा की तरह शेष समीकरण से आगे बढ़ते हैं।

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

उपरोक्त चर्चा को धारणा की प्रकृति को समझने में मदद करनी चाहिए ; सवाल यह भी है कि इसका आकलन कैसे किया जाए। मूल रूप से दो दृष्टिकोण हैं: औपचारिक परिकल्पना परीक्षण और भूखंडों की जांच करना। यदि आपके पास प्रयोगात्मक-ईश डेटा है (यानी, केवल निश्चित मूल्यों पर होता है ) या एक एनोवा। मैं यहां कुछ ऐसे परीक्षणों की चर्चा करता हूं: क्यों लेवेन ने एफ-अनुपात के बजाय भिन्नताओं की समानता का परीक्षण कियाX। हालांकि, मुझे लगता है कि भूखंडों को देखना सबसे अच्छा है। @Penquin_Knight ने यह दिखाने का एक अच्छा काम किया है कि एक मॉडल के अवशिष्टों की साजिश रचने के द्वारा निरंतर वैरिएशन कैसा दिखता है जहां फिटेड वैल्यूज़ के खिलाफ होमोसैसिडिटी प्राप्त होती है। Heteroscedasticity भी संभवतः कच्चे डेटा के एक भूखंड में, या एक स्केल-लोकेशन (जिसे स्प्रेड-लेवल प्लॉट भी कहा जाता है) में पाया जा सकता है। आसानी से आप के लिए एक कॉल के साथ उत्तरार्द्ध भूखंडों plot.lm(model, which=2); यह फिट मान के साथ अवशिष्ट के पूर्ण मानों का वर्गमूल है, जिसमें निम्न वक्र सहायक है। आप चाहते हैं कि नीचता सपाट हो, ढलान वाली न हो।

नीचे दिए गए भूखंडों पर विचार करें, जो तुलना करते हैं कि इन तीन अलग-अलग प्रकार के आंकड़ों में होमोसैडैस्टिक बनाम विषमलैंगिक डेटा कैसे दिख सकता है। ऊपरी दो विषम भूखंडों के लिए फ़नल आकार पर ध्यान दें, और पिछले एक में ऊपर की ओर झुकी हुई निचली रेखा।

यहाँ छवि विवरण दर्ज करें

पूर्णता के लिए, यहां वह कोड है जो मैंने इन डेटा को उत्पन्न करने के लिए उपयोग किया था:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
धन्यवाद यह बहुत मददगार है। क्या आप यह भी समझा सकते हैं कि हमें आम आदमी की भाषा में इस धारणा की आवश्यकता क्यों है
मुकुल

5
आपका स्वागत है, @ मुकुल। होमोसिस्टैसिटी (निरंतर विचरण) की धारणा को ओएलएस अनुमानक बनाने के लिए आवश्यक है (यानी, बीट का अनुमान लगाने के लिए डिफ़ॉल्ट प्रक्रिया सॉफ़्टवेयर का उपयोग करता है), अनुमान प्रक्रिया जो बीट्स के नमूने वितरण का उत्पादन करेगी जिसमें सभी अनुमान प्रक्रियाओं की सबसे कम मानक त्रुटियां हैं जो उपज देती हैं। सैंपलिंग डिस्ट्रीब्यूशन जो सच्चे मूल्य पर केंद्रित हैं। IE, ओएलएस अनुमानक के लिए न्यूनतम विचरण निष्पक्ष अनुमानक होना आवश्यक है ।
गूँग - मोनिका

5
यदि आपकी प्रतिक्रिया चर द्विआधारी है , तो इसे एक द्विपद के रूप में वितरित किया जाएगा। IE, ऊपर वर्णित रैखिक प्रतिगमन मॉडल के कई हिस्से अनुचित हैं। उन मुद्दों में से 1 यह है कि, चूंकि द्विपद का विचलन मीन का एक कार्य है (माध्य: , विचरण: ), होमोसैसिडिटी की धारणा का उल्लंघन किया गया है। इन चीजों को बेहतर ढंग से समझने के लिए, मेरे जवाब को यहां पढ़ने में मदद मिल सकती है: अंतर-बीच-लॉगिट-और-प्रोबिट-मॉडल , हालांकि यह एक अलग संदर्भ में लिखा गया था। p(p(1p))/n)
गूँज - मोनिका

2
@ अपनी टिप्पणी में आप वाक्यांश में सभी शब्दों पर इटैलिक शब्द डालते हैं न्यूनतम भिन्नता निष्पक्ष अनुमानक। मैं समझता हूं कि विषमलैंगिकता के साथ अनुमानक कम कुशल (अधिक विचरण) हो जाएगा, लेकिन क्या यह पक्षपाती भी हो जाएगा?
user1205901 -

5
@ user1205901, यह निष्पक्ष रहता है।
गुंग - फिर से बहाल करें मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.