निरंतर डेटा के लिए पॉइसन रिग्रेशन का उपयोग करना?


11

क्या सतत डेटा के साथ-साथ असतत डेटा का विश्लेषण करने के लिए पॉइज़न वितरण का उपयोग किया जा सकता है?

मेरे पास कुछ डेटा सेट हैं जहां प्रतिक्रिया चर निरंतर होते हैं, लेकिन एक सामान्य वितरण के बजाय एक पॉइसन वितरण जैसा होता है। हालांकि, पॉइसन वितरण एक असतत वितरण है और आमतौर पर संख्या या मायने रखता है।


आपके अनुभवजन्य वितरण गामा संस्करण से कैसे भिन्न होते हैं, फिर?
whuber

1
मैंने इन आंकड़ों के लिए गामा वितरण का उपयोग किया है। यदि आप एक लॉग लिंक के साथ गामा वितरण का उपयोग करते हैं, तो आपको लगभग एक ही परिणाम मिलता है जो आपको ओवर-छितरी हुई पॉइसन मॉडल से प्राप्त होता है। हालांकि, सांख्यिकीय पैकेजों में से अधिकांश में मैं पॉइसन रिग्रेशन से परिचित हूं सरल और अधिक लचीला है।
user3136

क्या ऐसे अन्य वितरण नहीं होंगे जो बेहतर हों, जैसे कि गामा के सुझाव के लिए व्हीबर का सुझाव?
पीटर Flom

1
@PeterFlom - मुझे आश्चर्य है कि अगर यह मुद्दा बहुत ऊपर आता है क्योंकि R में glmnet पैकेज एक लॉग लिंक फ़ंक्शन के साथ गामा परिवार या गौसियन परिवार का समर्थन नहीं करता है। हालांकि, चूँकि Glmnet का उपयोग भविष्य कहनेवाला मॉडलिंग पैकेज के रूप में किया जाता है (इसलिए उपयोगकर्ता केवल मॉडल गुणांक में रुचि रखते हैं, कोएफ़ नहीं। स्टेंड त्रुटियां) और चूंकि पॉइसन dbn लगातार कोएफ़ का उत्पादन करता है। वितरण की परवाह किए बिना लगातार प्रतिक्रियाओं के साथ ln [E (y)] = beta0 + Beta * X के मॉडल के लिए अनुमान, मैं अनुमान लगा रहा हूं कि ग्लमैनेट के लेखक इन अतिरिक्त परिवारों सहित परेशान नहीं हुए।
राबर्टएफ

जवाबों:


12

सामान्यीकृत रेखीय मॉडल की प्रमुख धारणा जो यहां प्रासंगिक है, भविष्यवाणियों के मूल्यों को देखते हुए, प्रतिक्रिया और माध्य के बीच संबंध है। जब आप एक पॉसों वितरण को निर्दिष्ट करते हैं, तो इसका मतलब यह है कि आप मान रहे हैं कि सशर्त विचरण सशर्त माध्य के बराबर है। * वितरण का वास्तविक आकार उतना मायने नहीं रखता है: यह पॉइसन, या गामा, या सामान्य हो सकता है। या कुछ और जब तक कि माध्य-विचरण संबंध बना रहता है।

* आप इस धारणा को शिथिल कर सकते हैं कि प्रसरण एक समानुपातिकता के लिए माध्य के बराबर है, और फिर भी आमतौर पर अच्छे परिणाम मिलते हैं।


9

यदि आप सामान्यीकृत रैखिक मॉडल में एक पॉइसन प्रतिक्रिया का उपयोग करने के बारे में बात कर रहे हैं, तो हाँ, यदि आप यह धारणा बनाने के लिए तैयार हैं कि प्रत्येक अवलोकन का विचरण इसके माध्य के बराबर है।

यदि आप ऐसा नहीं करना चाहते हैं, तो प्रतिक्रिया को बदलने के लिए एक और विकल्प हो सकता है (जैसे लॉग्स लेना)।


मुझे लगता है, आपकी बात के अलावा, भले ही @ user3136 माध्य = विचरण की धारणा बनाने को तैयार नहीं है, वह quasipoissonपरिवार का उपयोग कर सकता है glm
सनकूलू

2
लेकिन मेरी समस्या यह है कि आप असतत डेटा को बदलना क्यों चाहेंगे। यह अनिवार्य रूप से जानकारी खो रहा है। इसके अलावा, जब एक साधारण logपरिवर्तन ने काम किया होगा, तो आपके डेटा का विवेक क्यों? glmकार्यों का उपयोग करना , लेकिन हर परिणाम asymptotics आधारित है (जो पकड़ सकता है या नहीं)
suncoolsu

@suncoolsu: 1) क्वासिपोइसन विचरण के लिए आनुपातिक की धारणा बनाता है। 2) मेरा मतलब असतत में बदलना नहीं था, मेरा मतलब था कि रूपांतरण (निरंतरता बनाए रखना) ताकि आप एक अलग मॉडल का उपयोग कर सकें।
साइमन बायरन

हाँ - मैं समझ गया कि मैं आपसे सहमत हूँ। क्षमा करें, मैं सवाल के बारे में बात कर रहा था। Quasi-poisson, ओवरडिसर्सन के अधिकार को ध्यान में रखता है? (अगर मुझे सही से याद है, cf Faraway 2006)
suncoolsu

इस विशेष उदाहरण में मैं संतुष्ट नहीं था कि मेरे द्वारा किए गए किसी भी परिवर्तन (लॉग, sqrt, बॉक्स-कॉक्स) ने सामान्यता को एक अच्छा अनुमान दिया। संयोग से, अगर मैं सामान्य स्कोर परिवर्तन विधि का उपयोग करता हूं, तो मैं अधिकांश डेटा को लगभग सुंदर सामान्यता में बदल सकता हूं, लेकिन मैंने इस परिवर्तन को व्यापक रूप से उपयोग नहीं किया है इसलिए मुझे लगता है कि एक पकड़ है (यह बैक-ट्रांसफॉर्म के लिए कठिन है)।
user3136
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.