एक पोइसन प्रतिगमन में गुणांक की व्याख्या कैसे करें?


64

मैं एक पॉइसन प्रतिगमन में मुख्य प्रभावों (डमी-कोडित कारक के लिए गुणांक) की व्याख्या कैसे कर सकता हूं?

निम्न उदाहरण मान लें:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

आउटपुट है:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

मुझे पता है कि घटना की दर numberofdrugsहै exp(-0.023)=0.977। लेकिन मैं डमी चर के मुख्य प्रभावों की व्याख्या कैसे करूं?


इसी तरह का उत्तर (लेकिन गणितीय रूप से तैयार किया गया) यहां पाया जा सकता है: पॉइसन जीएलएम परिणामों में पैरामीटर अनुमानों की व्याख्या कैसे करें
गूँग - मोनिका

यह दिलचस्प है कि संदर्भित प्रश्न को ऑफ-टॉपिक के रूप में बंद कर दिया गया था। (मैं इस बात से सहमत नहीं था कि यह ऑफ-टॉपिक है, क्योंकि कोई भी जवाब उपयोगकर्ता के लिए गुणांक की एक तालिका लौटाए गए किसी भी आँकड़े प्रोग्राम के आउटपुट पर भी लागू होगा, और क्या आप इससे सहमत हैं कि यह आधार के करीब है डुप्लिकेट होने की वजह से।) यह मुझे लगता है कि एसओ समुदाय उन सवालों पर "तंग" है जो आर से आउटपुट की व्याख्या के लिए पूछते हैं। वे वास्तव में स्टैकऑवरफ्लो के लिए विषय पर नहीं हैं क्योंकि कोई सुझाव नहीं है कि कोडिंग सहायता की आवश्यकता है।
डीडब्ल्यू

@, मुझे नहीं लगता कि सांख्यिकीय आउटपुट की व्याख्या करना क्रॉस मान्य पर विषय बंद है । मैंने इस प्रश्न को एक डुप्लिकेट के रूप में बंद करने के लिए मतदान किया। दूसरों को लगता है कि ओटी को वोट दिया है, मैं इकट्ठा करता हूं, क्योंकि यह उन्हें लग रहा था कि ओपी "डंप [अपने] कंप्यूटर आउटपुट को वहां एड करता है और [उम्मीद है कि किसी ने] उनके लिए स्टेट एनालिसिस चलाया होगा"।
गूँग - मोनिका

1
@ गुंग: मैं स्पष्ट था कि यह आप नहीं थे जो इसे ओटी कह रहा था। उस बिंदु पर आपकी टिप्पणी स्पष्ट थी। (मुझे लगा कि मैं आपके साथ सहमत था।) एक करीबी वोट पर सूचीबद्ध "कारण" अक्सर बहुमत या बहुलता का निर्णय होता है।
डीडविन

जवाबों:


56

Exponentiated numberofdrugsगुणांक गुणक अवधि अनुमानित गणना करने के लिए उपयोग करने के लिए है healthvalueजब numberofdrugs1 यूनिट तक बढ़ जाती है। श्रेणीगत (कारक) चर के मामले में, घातांक गुणांक उस चर के आधार (प्रथम कारक) स्तर के सापेक्ष गुणक शब्द है (चूंकि आर डिफ़ॉल्ट रूप से उपचार विरोधाभासों का उपयोग करता है)। exp(Intercept)आधारभूत दर है, और सभी अन्य अनुमान यह के सापेक्ष होगा।

आपके उदाहरण में ड्रग्स वाले healthvalueकिसी व्यक्ति के लिए अनुमानित 2, "placebo"और improvement=="none"होगा (गुणा के बराबर के रूप में एक्सपी के अतिरिक्त का उपयोग करके):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

पर किसी को एक ओर जहां 4दवाओं, "treated"और "some"सुधार करना होगा एक अनुमान के अनुसार healthvalueकी

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

ADDENDUM: इसका मतलब "लॉग स्केल पर एडिटिव" होना है। "लॉग-ऑड्स स्केल पर एडिटिव" वाक्यांश था जो मेरे शिक्षक, बारबरा मैकनाइट ने इस्तेमाल किया, जब किसी भी प्रकार की भविष्यवाणी करने पर लॉजिस्टिक रिग्रेशन में लागू होने वाले सभी शब्द गुणांकों का उपयोग करने की आवश्यकता पर जोर दिया। आप पहले सभी गुणांक समय covariate मान जोड़ते हैं और फिर घातांक करते हैं। आर में प्रतिगमन वस्तुओं से गुणांक वापस करने का तरीका आम तौर पर coef()एक्सट्रैक्टर फ़ंक्शन का उपयोग करना है (नीचे एक अलग यादृच्छिक वास्तविकता के साथ किया गया है:

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

तो 4दवाओं के साथ एक विषय के लिए अनुमान की गणना "treated", "some"सुधार के साथ होगी:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

और उस मामले के लिए रैखिक भविष्यवक्ता का योग होना चाहिए:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

इन सिद्धांतों को किसी भी आँकड़े पैकेज पर लागू होना चाहिए जो उपयोगकर्ता को गुणांक की एक तालिका लौटाता है। विधि और सिद्धांत आर के मेरे उपयोग से अधिक सामान्य हैं।


मैं चयनित स्पष्ट टिप्पणियों की प्रतिलिपि बना रहा हूं क्योंकि वे डिफ़ॉल्ट प्रदर्शन में 'गायब' हैं:

प्रश्न: तो आप गुणांक को अनुपात के रूप में व्याख्या करते हैं! धन्यवाद! - मार्कडॉलर

ए: गुणांक अनुपात के प्राकृतिक_लोगरिथम्स हैं। - डीडिन

Q2: उस मामले में, एक पॉज़िशन रिग्रेशन में, एक्सपेंडेनेटेड गुणांक को "ऑड्स रेशियो" के रूप में भी जाना जाता है? - ऊद

A2: नहीं। अगर यह लॉजिस्टिक रिग्रेशन होता तो वे पॉसन रिग्रेशन में होते, जहां एलएचएस घटनाओं की संख्या होती है और अंतर्निहित डोनोमिनेटर खतरे में संख्या है, तो एक्सपेक्टोरिएट किए गए गुणांक "रेट राइजर" या "रिलेटिव रिस्क" हैं।


तो यह आपको दो बार वोट करने देता है? कितना अच्छा है। मैंने सोचा था कि व्याख्या के आर कोड कार्यान्वयन की पेशकश इसे वर्गीकरण की परिधि के बलों से बचा सकती है। ओपी ने एक अच्छा आत्म निहित उदाहरण प्रस्तुत किया। शायद मुझे एक्स्ट्रेक्टर फ़ंक्शन का प्रदर्शन करना चाहिए था, इसलिए मुझे लगता है कि मैं करूँगा।
डीडिन

हां, मैंने एसओ पर आपकी प्रतिक्रिया को बढ़ा दिया, फिर यह यहां चला गया और मैंने फिर से :) :)
ब्रैंडन बर्टेल्सन

अब तक धन्यवाद! मुझे पता है कि डमी और कैवियारबल्स के बीच का अंतर है, लेकिन मैं सिर्फ मुख्य प्रभावों की व्याख्या करना चाहता हूं (मैंने उन्हें चिह्नित किया)। उदाहरण के लिए, डमी द्वारा इलाज किए गए 'एक्सप (-0.012) = 0.99' के लिए एक मुख्य प्रभाव से तेह आकस्मिक दर लेना संभव है, और इसे उस दर के रूप में व्याख्या करें जहां से उपचार श्रेणी के इलाज के लिए स्विच करते समय हीलेटवेल्यू कम हो जाता है? यह होना चाहिए, नहीं?
मार्कडॉलर

घातांक गुणांक हमेशा अनुपात के रूप में व्याख्या किया जाता है। Ati क्या ’का क्या’ करने का अनुपात विश्लेषण की इकाइयों पर निर्भर करता है। 'दरें' अलग-अलग हैं, जिनमें निहित संख्या और समय मूल्य है। इसलिए यदि आप अपनी शब्दावली बदलने के लिए तैयार हैं, तो शायद, 'हाँ'। विश्लेषण की स्थिति का पूरी तरह से वर्णन करने से सर्वश्रेष्ठ उत्तर
मिलते हैं

आह ठीक है यह वही है जो मैं जानना चाहता था। तो आप गुणांक को अनुपात के रूप में व्याख्या करते हैं! धन्यवाद!
मार्कडॉलर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.