पॉसन प्रतिगमन बनाम लॉग-काउंट कम से कम वर्ग प्रतिगमन?


21

एक Poisson प्रतिगमन लॉग-लिंक फ़ंक्शन के साथ एक GLM है

गैर-सामान्य रूप से वितरित गणना डेटा को मॉडल करने का एक वैकल्पिक तरीका है लॉग को (या यों कहें, लॉग (1 + गिनती) को 0 को संभालने के लिए पूर्वप्रक्रमित करना)। यदि आप लॉग-काउंट प्रतिक्रियाओं पर कम से कम वर्ग प्रतिगमन करते हैं, तो क्या यह एक पॉइसन प्रतिगमन से संबंधित है? क्या यह समान घटना को संभाल सकता है?


6
आप शून्य हैं जो किसी भी गिनती के लघुगणक लेने की योजना कैसे बनाते हैं?
whuber

3
निश्चित रूप से समकक्ष नहीं है। इसे देखने का एक आसान तरीका यह देखना है कि यदि आपने शून्य गणना देखी तो क्या होगा। (@ व्हॉबर की टिप्पणी देखने से पहले बनाई गई टिप्पणी। जाहिर तौर पर यह पृष्ठ मेरे ब्राउज़र पर उचित रूप से ताज़ा नहीं हुआ है।)
कार्डिनल

ठीक है, मुझे स्पष्ट रूप से कहना चाहिए, लॉग (1 + गिनती)। स्पष्ट रूप से समकक्ष नहीं है, लेकिन सोच रहा था कि क्या कोई संबंध था, या यदि वे समान घटना को संभाल सकते हैं।
ब्रेंडन OConnor

1
इस मुद्दे की उपयोगी चर्चा यहाँ है: blog.stata.com/2011/08/22/…
माइकल बिशप

जवाबों:


22

एक ओर, एक पॉइसन प्रतिगमन में, मॉडल समीकरण के बाएं हाथ में अपेक्षित गणना का लघुगणक है: log(E[Y|x])

दूसरी ओर, "मानक" रैखिक मॉडल में, बाएं हाथ की तरफ सामान्य प्रतिक्रिया चर का अपेक्षित मूल्य होता है: । विशेष रूप से, लिंक फ़ंक्शन पहचान फ़ंक्शन है।E[Y|x]

अब, हम मान लें कि : एक प्वासों चर रहा है और आप लॉग लेने के द्वारा यह सामान्य बनाने का इरादा है कि वाई ' = लॉग ऑन ( वाई ) । क्योंकि Y ' सामान्य माना जाता है आप मानक रेखीय मॉडल जिसके लिए बाएं ओर है फिट करने के लिए योजना बना रहे हैं [ Y ' | x ] = [ लॉग ( Y ) | x ] । लेकिन, सामान्य तौर पर, [ लॉग ( वाई ) | एक्स ] लॉग ( YY=log(Y)YE[Y|x]=E[log(Y)|x] । परिणामस्वरूप, ये दो मॉडलिंग दृष्टिकोण अलग हैं।E[log(Y)|x]log(E[Y|x])


6
वास्तव में, कभी जब तक पी ( वाई = ( एक्स ) | एक्स ) = 1 कुछ के लिए σ ( एक्स ) -measurable समारोह , यानी, Y पूरी तरह से एक्स द्वारा निर्धारित किया जाता है । E(log(Y)|X)log(E(Y|X)) P(Y=f(X)|X)=1σ(X)fYX
कार्डिनल

@cardinal। बहुत अच्छी तरह से डाल दिया।
सनकूलू

9

मुझे दो महत्वपूर्ण अंतर दिखाई देते हैं।

सबसे पहले, अनुमानित मान (मूल पैमाने पर) अलग व्यवहार करते हैं; लॉगलाइनियर कम से कम वर्गों में वे सशर्त ज्यामितीय साधनों का प्रतिनिधित्व करते हैं; लॉग-पॉइसन मॉडल में सशर्त साधन का प्रतिनिधित्व करते हैं। चूंकि इस प्रकार के विश्लेषण में डेटा अक्सर सही तिरछा होता है, इसलिए सशर्त ज्यामितीय माध्य सशर्त माध्य को कम करेगा।

एक दूसरा अंतर निहित वितरण है: लॉगऑनॉर्मल बनाम पॉइसन। यह अवशिष्टों की हेटेरोसेकेडासिटी संरचना से संबंधित है: चुकता अपेक्षित मूल्यों (लॉगेनॉर्मल) बनाम अवशिष्ट विचरण अनुपात के अनुपात में अवशिष्ट विचरण।


-1

एक स्पष्ट अंतर यह है कि पॉइसन प्रतिगमन पूर्णांक के रूप में बिंदु भविष्यवाणियों का उत्पादन करेगा जबकि लॉग-काउंट रैखिक प्रतिगमन गैर-पूर्णांक उत्पन्न कर सकता है।


12
वह कैसे काम करता है? क्या जीएलएम उम्मीदों का अनुमान नहीं लगाता है , जो जरूरी नहीं कि अभिन्न हैं?
whuber

1
यह असत्य है। यंत्रवत्, पॉइसन रेजग्रेसन पूरी तरह से गैर-पूर्णांक को संभालने में सक्षम हैं। मानक त्रुटियां वितरित नहीं की जाएंगी, लेकिन आप इसके बजाय मजबूत मानक त्रुटियों का उपयोग कर सकते हैं।
मैथ्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.