अवशिष्ट भूखंड: प्लॉट बनाम फिट मूल्यों, मनाया नहीं मान?


20

ओएलएस प्रतिगमन के संदर्भ में मैं समझता हूं कि एक अवशिष्ट भूखंड (बनाम सज्जित मूल्यों) को पारंपरिक रूप से निरंतर विचरण के लिए परीक्षण करने और मॉडल विनिर्देशन का आकलन करने के लिए देखा जाता है। रेजिडेंशियल फिट्स के खिलाफ क्यों साजिश रची जाती है, और मान नहीं? इन दोनों प्लॉटों से जानकारी अलग कैसे है?Y

मैं एक मॉडल पर काम कर रहा हूं जो निम्नलिखित अवशिष्ट भूखंडों का उत्पादन करता है:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

इसलिए प्लॉट बनाम फिट किए गए मूल्य त्वरित नज़र में अच्छे लगते हैं, लेकिन मूल्य के खिलाफ दूसरे प्लॉट में एक पैटर्न है। मैं सोच रहा हूँ कि इस तरह के एक स्पष्ट पैटर्न भी अवशिष्ट बनाम फिट प्लॉट में क्यों नहीं प्रकट होगा ...।Y

मैं मॉडल के साथ मुद्दों का निदान करने में मदद की तलाश नहीं कर रहा हूं, लेकिन बस (1) अवशिष्ट बनाम फिट प्लॉट और (2) अवशिष्ट बनाम प्लॉट के बीच के अंतरों को समझने की कोशिश कर रहा हूं । Y

इसके लायक क्या है, मुझे यकीन है कि दूसरे चार्ट में त्रुटि पैटर्न छोड़े गए चर (ओं) के कारण है जो DV को प्रभावित करते हैं। मैं वर्तमान में उस डेटा को प्राप्त करने पर काम कर रहा हूं, जो मुझे उम्मीद है कि समग्र फिट और विनिर्देशन में मदद करेगा। मैं रियल एस्टेट डेटा के साथ काम कर रहा हूं: डीवी = बिक्री मूल्य। IVs: घर का Sq.ft, # गेराज स्थान, निर्मित वर्ष, निर्मित । 2


3
मैंने आपके इरादे को थोड़ा और करीब से मैच करने के लिए शीर्षक को ट्विक करने की स्वतंत्रता ले ली है। अर्थशास्त्रियों के बीच भी (आप एक हो सकते हैं) "IV" का एक और महत्वपूर्ण अर्थ है, हालांकि इस मामले में कोई अस्पष्टता नहीं है। कई सांख्यिकीय विज्ञानों में बेहतर संचार के लिए, हम में से कुछ स्थानीय रूप से उपयोग किए गए संक्षिप्त विवरणों को हतोत्साहित करते हैं जैसे DV (जो कि कुछ लोगों के लिए अभी भी डीओ वोलेंटे का मतलब है ) और IV एक तरफ प्रतिक्रिया या परिणाम के रूप में साक्ष्य के रूप में या भविष्यवक्ता या पूर्वसूचक अन्य। मुझे पता है कि यह आपके प्रश्न का एक विवरण है, लेकिन इसका अच्छी तरह से उत्तर दिया गया है।
निक कॉक्स

जवाबों:


11

एक ओएलएस मॉडल में त्रुटि शब्द के निर्माण से एक्स सहसंयोजक के देखे गए मानों के साथ कोई संबंध नहीं है। यह अवलोकन किए गए डेटा के लिए हमेशा सही होगा, भले ही मॉडल पक्षपाती अनुमान है कि एक पैरामीटर के सच्चे मूल्यों को प्रतिबिंबित नहीं करता है क्योंकि मॉडल की एक धारणा का उल्लंघन किया जाता है (जैसे एक लोप की गई चर समस्या या रिवर्स एक्टिविटी के साथ समस्या)। पूर्वानुमानित मूल्य पूरी तरह से इन सहसंयोजकों का एक कार्य है, इसलिए वे त्रुटि शब्द के साथ भी असंबंधित हैं। इस प्रकार, जब आप पूर्वानुमानित मूल्यों के खिलाफ अवशिष्टों की साजिश करते हैं, तो उन्हें हमेशा यादृच्छिक दिखना चाहिए क्योंकि वे वास्तव में अनुमानक के निर्माण से असंबद्ध हैं। इसके विपरीत, यह पूरी तरह से संभव है (और वास्तव में संभावित है) मॉडल के त्रुटि शब्द के लिए अभ्यास में वाई के साथ सहसंबद्ध होना। उदाहरण के लिए, एक द्विभाजित X चर के साथ आगे का Y या तो सही हैE(Y | X = 1)या E(Y | X = 0)फिर बड़ा अवशिष्ट होगा। यहाँ आर में नकली डेटा के साथ एक ही अंतर्ज्ञान है जहां हम जानते हैं कि मॉडल निष्पक्ष है क्योंकि हम डेटा बनाने की प्रक्रिया को नियंत्रित करते हैं:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

हम पक्षपाती मॉडल के साथ शून्य सहसंबंध का एक ही परिणाम प्राप्त करते हैं, उदाहरण के लिए यदि हम चूक करते हैं x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
सहायक, लेकिन स्पष्टता के लिए पहले वाक्य को फिर से लिखा जा सकता है। "निर्माण" अवशेषों का उत्पादन करता है; गणना से पहले त्रुटि शब्द को वहाँ और अस्तित्व में माना जाता है। इसी तरह, मैं कहूंगा कि यह अनुमान है कि निर्माण किए गए हैं, न कि अनुमानक, जो कि उनके निर्माण के लिए उपयोग की जाने वाली विधि है।
निक कॉक्स

लेकिन फिर हम अवशिष्ट चार्ट (बनाम फिट) को भी क्यों देखते हैं? उस भूखंड का क्या नैदानिक ​​उद्देश्य है? मैं साइट के लिए नया हूँ। क्या मुझे माइकल को टैग करना है या क्या उसे यह टिप्पणी अपने आप मिल जाती है? मेरी टिप्पणी नीचे @Glen_b उत्तर पर भी लागू होगी। दोनों उत्तर मेरी समझ में मदद करते हैं। धन्यवाद।
मैक

... क्योंकि वे अन्य संरचना को प्रकट कर सकते हैं। अवशिष्ट और फिट के बीच सहसंबंध की कमी का मतलब यह नहीं है कि अन्य चीजें भी नहीं हो सकती हैं। यदि आपको लगता है कि आपका मॉडल सही है, तो आपको विश्वास नहीं होगा कि यह संभव है .... अभ्यास में आपको अन्य प्रकार की संरचना की जांच करने की आवश्यकता है।
निक कॉक्स

@ मैक, मैं ईमानदार रहूंगा और कहूंगा कि मैं कभी इन भूखंडों को नहीं देखता। यदि आप एक कारण निष्कर्ष बनाने की कोशिश कर रहे हैं, तो आपको लोप किए गए परिवर्तनशील समस्याओं के माध्यम से सोचना चाहिए और वैचारिक रूप से कार्य-कारण की समस्याओं को उल्टा करना चाहिए। या तो समस्या हो सकती है और आप इसे इन भूखंडों से नहीं देख पाएंगे, क्योंकि वे अवलोकन संबंधी तुल्यता की समस्या हैं। अगर आप सभी की परवाह करते हैं कि आप भविष्यवाणी करते हैं, तो आपको अपने नमूने के माध्यम से यह सोचना चाहिए कि आपके मॉडल की भविष्यवाणियां कितनी अच्छी तरह से की गई हैं (अन्यथा यह भविष्यवाणी नहीं है)।
माइकल

@ नाइकॉक्स हाँ, मेरा मतलब है कि मॉडल द्वारा अनुमानित त्रुटि शब्द और पैरामीटर का सही मूल्य नहीं है।
माइकल

20

दो तथ्य जो मुझे लगता है कि आप मेरे साथ खुश हैं बस बताते हुए:

मैं। yमैं=y^मैं+^मैं

ii। cov(y^मैं,^मैं)=0

फिर:

cov(yमैं,^मैं)=cov(y^मैं+^मैं,^मैं)

=cov(y^मैं,^मैं)+cov(^मैं,^मैं)

=0+σ2

=σ2

इसलिए जबकि फिटेड मूल्य अवशिष्ट के साथ सहसंबद्ध नहीं है, अवलोकन है

वास्तव में, यह इसलिए है क्योंकि अवलोकन और अवशिष्ट दोनों त्रुटि शब्द से संबंधित हैं।

यह आमतौर पर नैदानिक ​​उद्देश्यों के लिए अवशिष्ट साजिश का उपयोग करना कुछ हद तक कठिन बनाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.