पॉइसन रिग्रेशन से प्राप्त अवशेषों बनाम सज्जित मूल्यों की व्याख्या करना


25

मैं आरएल में एक जीएलएम (पिसोन रिग्रेशन) के साथ डेटा को फिट करने की कोशिश कर रहा हूं। जब मैंने अवशेषों बनाम फिट किए गए मूल्यों की साजिश रची, तो प्लॉट ने कई (लगभग थोड़ा अवतल वक्र के साथ रैखिक) "लाइनें" बनाईं। इसका क्या मतलब है?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

यहाँ छवि विवरण दर्ज करें


मुझे नहीं पता कि क्या आप प्लॉट अपलोड कर सकते हैं (कभी-कभी नए लोग नहीं कर सकते), लेकिन यदि नहीं, तो आप कम से कम अपने डेटा और आर कोड को अपने प्रश्न में जोड़ सकते हैं ताकि लोग इसका मूल्यांकन कर सकें?
गंग -

Jocelyn, मैंने आपकी टिप्पणी में डाली गई जानकारी से आपकी पोस्ट अपडेट कर दी है। जैसा homeworkकि आपने असाइनमेंट के बारे में बात की थी, मैंने इसे भी टैग किया था।
CHL

यह देखने के लिए कि क्या ग्राफ थोड़ा अधिक पठनीय है, प्लॉट (जिटर (मॉड 1)) आज़माएं। आप हमारे लिए अवशिष्टों को परिभाषित क्यों नहीं करते हैं और हमें ग्राफ़ की व्याख्या करने के रूप में अपना सर्वश्रेष्ठ अनुमान दें।
माइकल बिशप

1
इस सवाल से, मैं यह मानने जा रहा हूं कि आप पॉइसन डिस्ट्रीब्यूशन और पूस रेज को समझते हैं, और रिड्यूस बनाम फिटेड वैल्यूज का एक प्लॉट आपको बताता है (अपडेट अगर यह गलत है), तो इस प्रकार आप केवल अंकों के विषम स्वरूप के बारे में सोच रहे हैं साजिश में। बी / सी यह होमवर्क है, हम अपनी सामान्य नीति के रूप में काफी जवाब नहीं देते हैं, लेकिन संकेत प्रदान करते हैं। मैंने देखा कि आपके पास बहुत सारे कोवरिएट्स हैं, मुझे आश्चर्य है कि अगर आपके पास 1 निरंतर और कई बाइनरी कोवरिएट्स हैं।
गूँग - मोनिका

1
गंग की टिप्पणी से दो अनुवर्ती। सबसे पहले, प्रयास करें table(dvisits$doctorco)। इस तालिका में आपके कथानक पर बनी १० घुमावदार रेखाएँ क्या हैं? साथ ही, 5000 से अधिक टिप्पणियों के साथ, 13 प्रतिगमन गुणांक फिटिंग के बारे में बहुत चिंता न करें।
अतिथि

जवाबों:


29

जब आप आश्रित चर असतत होते हैं, तो आप ऐसे भूखंड की अपेक्षा करते हैं।

भूखंड पर बिंदुओं के प्रत्येक वक्र बिंदु आश्रित चर y के निश्चित मान से मेल खाते हैं । हर मामले में जहां y = k की भविष्यवाणी हैkyy=ky^ky^ky^y^1log(y^)ky

हम इसी तरह के लेकिन मनमाने मॉडल (छोटे यादृच्छिक गुणांक का उपयोग करके) के माध्यम से साजिश को काफी बारीकी से पुन: उत्पन्न कर सकते हैं :

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

अवशिष्ट बनाम सज्जित


6
(+1) रंग दिखा रहा है कि क्या हो रहा है।
कार्डिनल

तो उपरोक्त कथानक क्या है? ग्रंथों (बायोमेडिकल शोधकर्ताओं के लिए सांख्यिकीय मॉडलिंग: कॉम्प्लेक्स डेटा के विश्लेषण का एक सरल परिचय, डुपोंट, 2002, पी। 316, जैसे) इंगित करते हैं कि फिट बनाम अवशिष्ट साजिश शून्य अवशिष्ट रेखा के बारे में केंद्रित होनी चाहिए, और या तो प्रशंसक (यदि कच्चा है) अवशिष्ट) या नहीं (यदि विचलन, जैसे)। परिणाम चर में सीमित सीमा के साथ, आपको ये बैंड मिलते हैं, और, जैसा कि ऊपर दिए गए प्लॉट में, वे y = 0. पर लाइन के बारे में केंद्रित नहीं हैं। हम ओपी के अवशिष्ट प्लॉट (या उदाहरण प्लॉट को कैसे जानते हैं) इस उत्तर में बनाया गया) इंगित करता है कि मॉडल डेटा को अच्छी तरह से फिट कर रहा है?
मेगा

1
@Meg वह सलाह सीधे GLM के अवशेषों पर लागू नहीं होती है। ध्यान दें कि इस उत्तर को दर्शाने के लिए उपयोग किया जाने वाला मॉडल सही माना जाता है क्योंकि यह डेटा उत्पन्न करने के लिए उपयोग किया जाता है।
whuber

1/2: धन्यवाद @whuber। मैं समझता हूं कि इस उत्तर के लिए मॉडल को सही माना जाता है क्योंकि डेटा किसी दिए गए वितरण से सिम्युलेटेड थे, लेकिन व्यवहार में यह अज्ञात है (जैसा कि ओपी के पोस्ट में है)। इसके अलावा, क्या मैं बच गया के बारे में लिखा है POI प्रतिगमन (सभी नहीं GLMs, नहीं, लेकिन यह एक) के लिए लागू होते हैं - संदर्भ मैं दे दी है विशेष रूप से POI प्रतिगमन चर्चा कर रहा था। मैंने केवल ग्रंथों को मानकीकृत POI अवशेषों (पियर्सन या डिविज़न, उदा) दिखाते हुए y = 0 के बारे में देखा है, इसलिए मुझे यकीन नहीं है कि मुझे क्या ढूंढना चाहिए, क्योंकि इस मॉडल के लिए (जो स्पष्ट रूप से सही है), कथानक दिखता है ऐसा कुछ भी नहीं है।
मेग

2/2: क्या आपके पास गो-टू रेफरेंस है जो किसी भी संयोग से POI के अवशेषों की अधिक गहन चर्चा करता है?
मेग

8

कभी-कभी अवशिष्ट भूखंडों में इनकी तरह की धारियां (लगभग) समान प्रेक्षित मूल्यों के साथ बिंदुओं का प्रतिनिधित्व करती हैं जो अलग-अलग भविष्यवाणियां प्राप्त करती हैं। अपने लक्षित मूल्यों को देखें: वे कितने अनूठे मूल्य हैं? यदि मेरा सुझाव सही है तो आपके प्रशिक्षण डेटा सेट में 9 अद्वितीय मूल्य होने चाहिए।


1
0,1,,9

-3

यह पैटर्न परिवार और / या लिंक के गलत मिलान की विशेषता है। यदि आपके पास डेटा ओवरड्रेस किया गया है, तो शायद आपको नकारात्मक द्विपद (गिनती) या गामा (निरंतर) वितरण पर विचार करना चाहिए। इसके अलावा, आपको सामान्य लीनियर मॉडल का उपयोग करते समय, रूपांतरित रैखिक भविष्यवक्ता के खिलाफ अपने अवशिष्टों की साजिश रचनी चाहिए, न कि भविष्यवक्ताओं की। पोइसन प्रेडिक्टर को बदलने के लिए आपको रैखिक भविष्यवक्ता के वर्गमूल को 2 गुना लेने की आवश्यकता होती है और उसके खिलाफ अपने अवशिष्टों को प्लॉट करना चाहिए। अवशिष्ट और भी अधिक विशेष रूप से पियर्सन अवशिष्ट नहीं होना चाहिए, अवशिष्ट अवशिष्ट और छात्र के निवास की कोशिश करें।


3
क्यों 2 गुना वर्गमूल, जब एक चमक में poisson परिवार के विहित लिंक लॉग है? यह रैखिक भविष्यवक्ता के एक्सप () नहीं होना चाहिए? लेकिन मैं यह नहीं देखता कि रैखिक भविष्यवक्ता के खिलाफ अवशिष्टों की साजिश रचने में क्या समस्या है, जो मुझे लगता है कि यहाँ क्या किया जा रहा है - शायद आप उस पर विस्तार कर सकते हैं।
पीटर एलिस

क्या आप यह बताना पसंद करेंगे कि "पैटर्न" का कौन सा पहलू आपका ध्यान किसी संभावित मॉडल मिस-स्पेसिफिकेशन, रेयान की ओर आकर्षित कर रहा है? यह एक सूक्ष्म बात लगती है, लेकिन संभवतः एक महत्वपूर्ण अंतर्दृष्टि है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.