अवशिष्टों की माप विषमता


16

यह विकिपीडिया लिंक ओएलएस अवशिष्टों की विषमलैंगिकता का पता लगाने के लिए कई तकनीकों को सूचीबद्ध करता है। मैं यह सीखना चाहूंगा कि विषमलैंगिकता से प्रभावित क्षेत्रों का पता लगाने में किस तकनीक का हाथ अधिक कुशल है।

उदाहरण के लिए, यहां ओएलएस 'रेजिड्यूल्स बनाम फिटेड' प्लॉट के मध्य क्षेत्र में प्लॉट के किनारों की तुलना में अधिक विचरण देखा गया है (मैं पूरी तरह से तथ्यों में निश्चित नहीं हूं, लेकिन मान लें कि यह प्रश्न के लिए मामला है)। पुष्टि करने के लिए, QQ प्लॉट में त्रुटि लेबल को देखकर हम देख सकते हैं कि वे अवशिष्ट प्लॉट के केंद्र में त्रुटि लेबल से मेल खाते हैं।

लेकिन हम अवशिष्ट क्षेत्र की मात्रा को कैसे बढ़ा सकते हैं जिसमें काफी अधिक भिन्नता है?

heteroscedasticity


2
मुझे यकीन नहीं है कि आप सही कह रहे हैं कि मध्य में उच्च विचरण है। तथ्य यह है कि आउटलेर्स मध्य क्षेत्र में हैं मुझे इस तथ्य का एक परिणाम दिखाई देता है कि जहां अधिकांश डेटा है। बेशक, यह आपके प्रश्न को अमान्य नहीं करता है।
पीटर एलिस

1
Qqplot का उद्देश्य वितरण की गैर-असमानता की पहचान करना है और सीधे अमानवीय रूपांतरों का नहीं।
माइकल आर। चेरिक जूल 25'12

@PeterEllis हां, मैंने इस सवाल में निर्दिष्ट किया कि मुझे यकीन नहीं है कि विचरण अलग है, लेकिन मेरे पास यह डायग्नोस्टिक्स चित्र काम में था और उदाहरण में वास्तव में कुछ विषमता हो सकती है।
रॉबर्ट कुब्रिक

@MichaelChernick मैंने केवल यह बताने के लिए qqplot का उल्लेख किया कि उच्चतम त्रुटि कैसे अवशिष्ट प्लॉट के मध्य में ध्यान केंद्रित करती है, इसलिए संभवतः उस क्षेत्र में उच्च विचरण का संकेत देती है।
रॉबर्ट कुब्रिक

जवाबों:


15

इस समस्या का एक खोजपूर्ण अनुभव है। जॉन टुके ने अपने क्लासिक, एक्सप्लोसिटरी डेटा एनालिसिस (एडिसन-वेसस 1977) में विषमलैंगिकता की खोज के लिए कई प्रक्रियाओं का वर्णन किया है । शायद सबसे सीधे उपयोगी उसकी " भटकती योजनाबद्ध साजिश " का एक प्रकार है । यह एक चर (जैसे कि अनुमानित मूल्य) को डिब्बे में स्लाइस करता है और प्रत्येक बिन के लिए दूसरे चर के स्थान, प्रसार और आकार को दिखाने के लिए एम-अक्षर सारांश (बॉक्सप्लेट के सामान्यीकरण) का उपयोग करता है। मौका विचलन के बजाय समग्र पैटर्न पर जोर देने के लिए एम-अक्षर के आंकड़ों को और अधिक सुचारू किया जाता है।

एक त्वरित संस्करण में boxplotप्रक्रिया का फायदा उठाकर पकाया जा सकता है R। हम स्पष्ट रूप से विषम डेटा की नकल के साथ स्पष्ट करते हैं:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

डेटा

आइए ओएलएस प्रतिगमन से अनुमानित मूल्यों और अवशिष्टों को प्राप्त करें:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

यहाँ, फिर, अनुमानित मूल्यों के लिए समान-गिनती वाले डिब्बे का उपयोग करके भटकने वाली योजनाबद्ध साजिश है। मैं lowessएक त्वरित और गंदे चिकनी के लिए उपयोग करता हूं ।

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

भटकते हुए योजनाबद्ध भूखंड

नीले रंग की वक्र मीडियन को चिकना करती है। इसकी क्षैतिज प्रवृत्ति इंगित करती है कि प्रतिगमन आम तौर पर एक अच्छा फिट है। अन्य वक्र बॉक्स के सिरों (चतुर्थांश) और बाड़ (जो आमतौर पर चरम मान हैं) को चिकना करते हैं। उनका मजबूत अभिसरण और बाद में पृथक्करण, विषमलैंगिकता की गवाही देता है - और हमें इसकी विशेषता और मात्रा निर्धारित करने में मदद करता है।

(क्षैतिज अक्ष पर ग़ैर-रेखीय पैमाने पर ध्यान दें, अनुमानित मूल्यों के वितरण को दर्शाता है। थोड़ा और अधिक काम करने के साथ इस अक्ष को रैखिक बनाया जा सकता है, जो कभी-कभी उपयोगी होता है।)


6
अच्छा उदाहरण, मैंने सोचा होगा कि कुछ मात्राओं को चलाने का कार्यान्वयन आर में उपलब्ध था (पूरी तरह से डिब्बे के साथ समस्या से बचने के लिए)। बैग-भूखंडों की याद दिलाता है । अपने रेनबो पैकेज में रोब हंडमैन का विस्तार भी देखें ।
एंडी डब्ल्यू

9

आमतौर पर, हेटेरोसेकेडसिटी को ब्रेस्च-पैगन दृष्टिकोण का उपयोग करके मॉडलिंग की जाती है। आपके रेखीय प्रतिगमन से अवशिष्ट तब चुक जाते हैं और आपके मूल रैखिक मॉडल में चर पर फिर से संगठित हो जाते हैं। बाद वाले प्रतिगमन को सहायक प्रतिगमन कहा जाता है ।

nआर2, कहाँ पे n टिप्पणियों की संख्या और है आर2 है आर2 सहायक प्रतिगमन से होमोसकेडसिटी की अशक्त परिकल्पना के लिए एक परीक्षण सांख्यिकीय के रूप में कार्य करता है।

अपने उद्देश्यों के लिए, आप इस मॉडल से अलग-अलग गुणांक पर ध्यान केंद्रित कर सकते हैं, यह देखने के लिए कि कौन से चर उच्च या निम्न विचरण परिणामों के सबसे अधिक पूर्वानुमान हैं।


1
+1 लेकिन कृपया ध्यान दें कि इस तरह के परीक्षण विषमता के रूपों में सीमित हैं जो वे पता लगा सकते हैं। मेरे उत्तर में दिखाए गए जैसे उदाहरण सही से फिसल सकते हैं, भले ही विषमलैंगिकता बहुत मजबूत हो।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.