इस मामले में लीनियर रिग्रेशन पर पोइसन रिग्रेशन के क्या फायदे हैं?


12

मुझे एक डेटा सेट दिया गया है जिसमें एक हाई स्कूल में छात्रों द्वारा अर्जित पुरस्कारों की संख्या है जहाँ अर्जित किए गए पुरस्कारों की संख्या के भविष्यवाणियों में उस प्रकार का कार्यक्रम शामिल है जिसमें छात्र को दाखिला दिया गया था और मैथ्स में उनकी अंतिम परीक्षा का स्कोर था।

मैं सोच रहा था कि क्या कोई मुझे बता सकता है कि एक रेखीय प्रतिगमन मॉडल इस उदाहरण में अनुपयुक्त क्यों हो सकता है और एक पॉइसन प्रतिगमन का उपयोग करना बेहतर क्यों होगा? धन्यवाद।

जवाबों:


14

पॉज़ॉन बनाम सामान्य प्रतिगमन के बारे में तीन बिंदु, सभी मॉडल विनिर्देश के विषय में:

भविष्यवाणियों में परिवर्तन का प्रभाव

गणित के टेस्ट स्कोर जैसे निरंतर भविष्यवक्ता के साथ पोइसन रिग्रेशन (सामान्य लॉग लिंक के साथ) का अर्थ है कि पूर्वसूचक में एक इकाई परिवर्तन से पुरस्कारों की संख्या में प्रतिशत परिवर्तन होता है, अर्थात गणित परीक्षण पर 10 और अंक जैसे 25 प्रतिशत के साथ जुड़ा हुआ है अधिक पुरस्कार। यह उस पुरस्कार की संख्या पर निर्भर करता है जिसकी छात्र को पहले से ही आशंका है। इसके विपरीत, सामान्य प्रतिगमन एक निश्चित राशि के साथ 10 और अंक जोड़ता है, सभी परिस्थितियों में 3 और पुरस्कार कहते हैं। आपको उस मॉडल का उपयोग करने से पहले उस धारणा से खुश होना चाहिए जो इसे बनाता है। (fwiw मुझे लगता है कि यह बहुत ही उचित है, अगला बिंदु modulo है।)

बिना किसी पुरस्कार के छात्रों के साथ व्यवहार करना

जब तक वास्तव में बहुत सारे छात्र नहीं हैं, तब तक आपके पुरस्कारों की संख्या बहुत अधिक नहीं होगी। वास्तव में, मैं शून्य-मुद्रास्फीति की भविष्यवाणी करूंगा, अर्थात अधिकांश छात्रों को कोई पुरस्कार नहीं मिलता है, इसलिए बहुत सारे शून्य, और कुछ अच्छे छात्रों को काफी पुरस्कार मिलते हैं। यह पॉइसन मॉडल की मान्यताओं के साथ खिलवाड़ करता है और कम से कम सामान्य मॉडल के लिए उतना ही बुरा है।

यदि आपके पास डेटा की एक सभ्य राशि 'शून्य-फुलाया' या 'बाधा' मॉडल है तो स्वाभाविक होगा। यह दो मॉडल एक साथ बंधे हुए हैं: एक यह अनुमान लगाने के लिए कि क्या छात्र को कोई पुरस्कार मिलता है, और दूसरा यह अनुमान लगाने के लिए कि उसे कितने मिलते हैं यदि उसे कोई भी मिलता है (आमतौर पर पॉइसन मॉडल का कोई रूप)। मुझे उम्मीद है कि सभी कार्रवाई पहले मॉडल में होगी।

पुरस्कार विशिष्टता

अंत में, पुरस्कारों के बारे में एक छोटी सी बात। यदि पुरस्कार अनन्य हैं, यानी यदि एक छात्र को पुरस्कार मिलता है, तो कोई अन्य छात्र पुरस्कार नहीं प्राप्त कर सकता है, तो आपके परिणाम युग्मित हैं; छात्र के लिए एक गिनती हर दूसरे के संभावित गिनती को नीचे धकेलती है। क्या यह चिंता करने लायक है कि पुरस्कार संरचना और छात्र जनसंख्या के आकार पर निर्भर करता है। मैं इसे पहली बार में अनदेखा करूँगा।

अंत में, पॉइसन आराम से बहुत बड़ी संख्याओं को छोड़कर सामान्य पर हावी है, लेकिन अनुमान लगाने के लिए उस पर झुकाव से पहले पॉइसन की मान्यताओं की जांच करें, और यदि आवश्यक हो तो हल्के से अधिक जटिल मॉडल वर्ग में जाने के लिए तैयार रहें।


9

इस मामले में पॉइसन प्रतिगमन अधिक उपयुक्त होगा क्योंकि आपकी प्रतिक्रिया किसी चीज़ की गिनती है।

सीधे शब्दों में कहें, तो हम मॉडल करते हैं कि एक व्यक्तिगत छात्र के लिए पुरस्कारों की संख्या का वितरण एक पॉइसन वितरण से होता है, और यह कि प्रत्येक छात्र का अपना स्वयं का पॉइसन पैरामीटर होता है। पॉसन प्रतिगमन फिर इस पैरामीटर को गणना के बजाय व्याख्यात्मक चर से संबंधित करता है।λ

यह कारण सामान्य लीनियर रिग्रेशन से बेहतर है त्रुटियों के साथ करना है। यदि हमारा मॉडल सही है, और प्रत्येक छात्र का अपना स्वयं का , तो किसी दिए गए हम इसके चारों ओर काउंट्स के एक पॉइसन वितरण की उम्मीद करेंगे - यानी एक असममित वितरण। इसका मतलब यह है कि असामान्य रूप से उच्च मूल्य असामान्य रूप से कम के रूप में आश्चर्यजनक नहीं हैं।λλλ

सामान्य रेखीय प्रतिगमन औसत के आसपास सामान्य त्रुटियों को मानता है, और इसलिए समान रूप से उन्हें वजन करता है। यह कहता है कि यदि किसी छात्र के पास 1 के पुरस्कारों की अपेक्षित संख्या है, तो उनके लिए यह संभव है कि वे 2 पुरस्कार प्राप्त करें, जैसे कि उनके लिए 3 पुरस्कार प्राप्त करना: यह स्पष्ट रूप से बकवास है और पता लगाने के लिए कौन सी कविता बनाई गई है।


8

भविष्यवक्ताओं पर पुरस्कारों का साधारण न्यूनतम वर्ग प्रतिगमन निरंतर पैरामीटर अनुमान प्राप्त करेगा जब तक कि भविष्यवाणियों में पुरस्कारों का सशर्त मतलब रैखिक न हो। लेकिन यह अक्सर अपर्याप्त होता है क्योंकि इससे पुरस्कारों की अनुमानित संख्या नकारात्मक हो जाती है (यहां तक ​​कि भविष्यवाणियों के "उचित" मूल्यों के लिए), जो कोई मतलब नहीं है। फॉक्स अक्सर पुरस्कारों के प्राकृतिक लॉग को लेने और ओएलएस का उपयोग करके इसे मापने की कोशिश करेंगे। लेकिन यह विफल हो जाता है क्योंकि कुछ छात्रों को कोई पुरस्कार नहीं मिलता है, इसलिए तब आपको जैसे कुछ का उपयोग करना पड़ता है , लेकिन यह तब से अपनी समस्याएँ पैदा करता है जब आप पुरस्कारों की परवाह करते हैं, और फिर से परिवर्तन गैर-तुच्छ है।ln(awards+0.5)

इसके अलावा, जैसा कि पुरस्कारों की अपेक्षित संख्या बहुत बड़ी हो जाती है, OLS को @Corone द्वारा उल्लिखित कारणों से बेहतर प्रदर्शन करना चाहिए। में झील Wobegon , OLS जाने का रास्ता है।

यदि अपेक्षित संख्या कम है, तो बहुत सारे शून्य के साथ, मैं नकारात्मक द्विपद मॉडल पर मजबूत मानक त्रुटियों के साथ पॉइसन का उपयोग करूंगा। एनबी प्रतिगमन गुणांक उत्पन्न करने वाले पहले-क्रम की स्थितियों में दिखाई देने वाले विचरण के बारे में एक मजबूत धारणा बनाता है। यदि इन धारणाओं को संतुष्ट नहीं किया जाता है, तो गुणांक स्वयं दूषित हो सकते हैं। पोइसन के साथ ऐसा नहीं है।


4

@कोरोन अच्छे अंक जुटाता है, लेकिन ध्यान दें कि पोइसन केवल वास्तव में असममित है जब छोटा होता है। यहां तक ​​कि = 10 के लिए भी, यह बहुत ही सममित ई .. जी है।λλλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

0.31 की विषमता दिखाता है, जो 0 के करीब है।

मुझे @conjugateprior के अंक भी पसंद हैं। मेरे अनुभव में, पोइसन प्रतिगमन के लिए अच्छी तरह से फिट होना दुर्लभ है; मैं आमतौर पर या तो एक नकारात्मक द्विपद या शून्य-फुलाया हुआ मॉडल का उपयोग करके हवा करता हूं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.