विषमलैंगिकता और अवशिष्टता सामान्यता


12

मेरे पास एक रेखीय प्रतिगमन है जो काफी अच्छा है, मुझे लगता है (यह एक विश्वविद्यालय परियोजना के लिए है इसलिए मुझे वास्तव में सुपर सटीक होने की आवश्यकता नहीं है)।

बिंदु है, अगर मैं अवशिष्ट बनाम अनुमानित मूल्यों की साजिश करता हूं, तो (मेरे शिक्षक के अनुसार) विषमलैंगिकता का संकेत है।

लेकिन अगर मैं अवशिष्टों के क्यूक्यू-प्लॉट की साजिश रचता हूं, तो यह स्पष्ट है कि वे सामान्य रूप से वितरित हैं। इसके अलावा, बच गया पर शापिरो परीक्षण एक है के -value 0.8 इसलिए मुझे लगता है इसमें कोई शक नहीं बच वास्तव में सामान्य रूप से वितरित कर रहे हैं वहाँ,।p0.8

प्रश्न: यदि अवशिष्ट सामान्य रूप से वितरित किए जाते हैं, तो पूर्वानुमानित मूल्यों पर हेटेरोसेडासिटी कैसे हो सकती है?


1
@Whubers उत्कृष्ट उत्तर के लिए एक बहुत ही छोटा जोड़: आप विषमता के लिए एक औपचारिक परीक्षण करने के लिए कार पैकेज के ncvTestकार्य का उपयोग कर सकते हैं । Whuber के उदाहरण में, आदेश एक पैदावार पी -value कि लगभग शून्य है और निरंतर त्रुटि विचरण के खिलाफ पुख्ता सबूत (जो उम्मीद थी ज़ाहिर है,) प्रदान करता है। RncvTest(fit)p
20 सितंबर को COOLSerdash

जवाबों:


16

इस प्रश्न का दृष्टिकोण करने का एक तरीका यह है कि हम इसे उल्टा देखें: हम सामान्य रूप से वितरित अवशेषों के साथ कैसे शुरू कर सकते हैं और उन्हें विषमलैंगिक होने की व्यवस्था कर सकते हैं? इस दृष्टि से उत्तर स्पष्ट हो जाता है: छोटे अवशिष्टों को छोटे अनुमानित मानों के साथ जोड़ दें।

स्पष्ट करने के लिए, यहाँ एक स्पष्ट निर्माण है।

आकृति

बाईं ओर डेटा स्पष्ट रूप से रैखिक फिट (लाल रंग में दिखाया गया है) के सापेक्ष विषमलैंगिक है। यह दाईं ओर स्थित भूखंड बनाम पूर्वानुमानित भूखंड द्वारा घर से प्रेरित है । लेकिन - निर्माण के द्वारा - अवशिष्ट का अनियंत्रित सेट सामान्य रूप से वितरित करने के करीब है, क्योंकि मध्य शो में उनका हिस्टोग्राम। (सामान्यता के शापिरो-विल्क परीक्षण में पी-मान 0.60 है, जो नीचे दिए गए कोड को चलाने के बाद जारी किए गए Rकमांड के साथ प्राप्त किया गया है shapiro.test(residuals(fit)))।

वास्तविक डेटा इस तरह भी दिख सकता है। नैतिकता यह है कि विषमलैंगिकता अवशिष्ट आकार और भविष्यवाणियों के बीच के संबंध को दर्शाती है जबकि सामान्यता हमें इस बारे में कुछ नहीं बताती है कि अवशिष्ट किसी अन्य चीज़ से कैसे संबंधित हैं।


यहाँ Rइस निर्माण के लिए कोड है।

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")

2
ठीक है तो आप कह रहे हैं कि अगर मैं कम अवशिष्टों को उच्च अनुमानित मूल्यों के साथ जोड़ता हूं, तो विषमताएं तब भी उत्पन्न हो सकती हैं, जब अवशिष्ट सामान्य रूप से वितरित किए जाते हैं? मुझे लगता है कि मुझे मिल गया है, हालांकि मुझे वास्तव में इसके बारे में अधिक सोचना चाहिए .. किसी भी तरह धन्यवाद!
एंट

... या कम अनुमानित मूल्यों के साथ कम अवशिष्ट (उदाहरण के रूप में यहां), या यहां तक ​​कि अधिक जटिल तरीकों से भी। उदाहरण के लिए, विषमलैंगिकता तब मौजूद होती है जब अवशिष्ट का औसत परिमाण अनुमानित मान के साथ दोलन करता है। (Heteroscedasticity के अधिकांश औपचारिक परीक्षण इस की पहचान करेगा नहीं है, लेकिन हमेशा की तरह नैदानिक भूखंडों स्पष्ट रूप से यह दिखाई देगा।)
whuber

0

भारित कम से कम वर्गों (डब्ल्यूएलएस) प्रतिगमन में, यह अनुमानित अवशिष्टों के यादृच्छिक कारक हैं जिन्हें आप देखना चाहते हैं कि वे सामान्य रूप से वितरित किए जा सकते हैं, हालांकि यह अक्सर बहुत महत्वपूर्ण नहीं होता है। अनुमानित अवशेषों को फैक्टर किया जा सकता है, जैसा कि एक सरल (एक प्रतिगामी और मूल के माध्यम से) प्रतिगमन मामले में दिखाया गया है, पृष्ठ 1 के निचले भाग में, और पृष्ठ 2 और 7 के निचले हिस्सों में https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys वैसे भी, यह दिखाने में मदद कर सकता है - यह तस्वीर में आ सकती है।


साइट पर आपका स्वागत है, @JimKnaub। हम आपको कभी-कभार सवाल पर अपनी विशेषज्ञता उधार देने के लिए पसंद करेंगे। अपना खाता क्यों नहीं पंजीकृत कराया? आप यह जान सकते हैं कि हमारे सहायता केंद्र के मेरा खाता अनुभाग में कैसे हैं । चूंकि आप यहां नए हैं, इसलिए आप हमारे दौरे को ले सकते हैं , जिसमें नए उपयोगकर्ताओं के लिए जानकारी है।
गूँग - मोनिका

3
हम प्रश्नों और उत्तरों के रूप में उच्च-गुणवत्ता वाले सांख्यिकीय जानकारी का एक स्थायी भंडार बनाने की कोशिश कर रहे हैं। इस प्रकार, हम उन उत्तरों से सावधान हैं जो लिंकरोट के कारण लिंक पर निर्भर करते हैं। क्या आप लिंक से पूर्ण उद्धरण और जानकारी का एक सारांश (जैसे, आंकड़े / स्पष्टीकरण) पोस्ट कर सकते हैं ताकि लिंक के मृत हो जाने पर भी जानकारी उपयोगी बनी रहे?
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.