अतिविशिष्ट गणना डेटा के लिए पॉसन प्रतिगमन के विकल्प चुनना


12

मैं वर्तमान में व्यवहार प्रयोगों की एक श्रृंखला से डेटा का विश्लेषण कर रहा हूं जो सभी निम्नलिखित उपाय का उपयोग करते हैं। इस प्रयोग में भाग लेने वालों से ऐसे सुराग चुनने के लिए कहा जाता है जो (काल्पनिक) अन्य लोग 10 किलोग्राम की श्रृंखला को हल करने में मदद करने के लिए उपयोग कर सकते हैं। प्रतिभागियों को यह विश्वास दिलाने के लिए नेतृत्व किया जाता है कि ये अन्य लोग या तो पैसा हासिल करेंगे या खो देंगे, यह एंग्राम को सुलझाने में उनके प्रदर्शन पर निर्भर करता है। सुराग इस बात में भिन्न होते हैं कि वे कितने उपयोगी हैं। उदाहरण के लिए, एनएएनजीआर एनआईएनआरआरआईएन के लिए, रनिंग के एनाग्राम, तीन सुराग हो सकते हैं:

  1. तेज़ी से आगे बढ़ना
  2. मैराथन दौड़ में आप क्या करते हैं (सहायक)
  3. हमेशा एक स्वस्थ शौक (बेकार नहीं)

उपाय बनाने के लिए, मैं समय की संख्या (10 में से) की गणना करता हूं, एक प्रतिभागी दूसरे व्यक्ति के लिए एक अनपेक्षित सुराग चुनता है। प्रयोगों में, मैं उन विभिन्न सुरागों का उपयोग कर रहा हूं जो लोगों द्वारा चुने गए सुरागों की मदद को प्रभावित करते हैं।

चूँकि सहायक / अनहेल्दी माप काफी दृढ़ता से सकारात्मक रूप से तिरछा होता है (लोगों का एक बड़ा हिस्सा हमेशा 10 सबसे उपयोगी सुरागों का चयन करता है), और क्योंकि माप एक गिनती चर है, इसलिए मैं इन आंकड़ों का विश्लेषण करने के लिए एक पॉइसन सामान्यीकृत रैखिक मॉडल का उपयोग कर रहा हूं। हालाँकि, जब मैंने पोइसन रिग्रेशन पर कुछ और पठन किया, तो मुझे पता चला कि क्योंकि पॉइसन रिग्रेशन स्वतंत्र रूप से किसी वितरण के माध्य और विचरण का अनुमान नहीं लगाता है, यह अक्सर डेटा के एक सेट में विचरण को कम करके आंका जाता है। मैंने पॉइसन रिग्रेशन के विकल्पों की जांच शुरू कर दी, जैसे कि कैसिपोइसन रिग्रेशन या नकारात्मक द्विपद रिग्रेशन। हालांकि, मैं मानता हूं कि मैं इस प्रकार के मॉडल के लिए नया हूं, इसलिए मैं यहां सलाह के लिए आ रहा हूं।

क्या किसी के पास इस तरह के डेटा के लिए किस मॉडल का उपयोग करने की कोई सिफारिश है? क्या कोई अन्य विचार है कि मुझे इसके बारे में पता होना चाहिए (उदाहरण के लिए, क्या एक विशेष मॉडल दूसरे की तुलना में अधिक शक्तिशाली है?)। यदि मैं जिस मॉडल का चयन करता हूं, उसे यह निर्धारित करने के लिए कि मुझे अपने डेटा को उचित तरीके से संभालना है, तो मुझे किस प्रकार के निदान को देखना चाहिए?


इस धारणा को शिथिल करने के लिए कि एक मजबूत विचरण / सहसंयोजक अनुमानक के बारे में क्या विचरण मतलब के बराबर है?
बोस्कोविच

2
चूंकि वे डेटा और गैर-नकारात्मक की गणना करते हैं, क्वासि-पोइसन या एक नकारात्मक द्विपद प्रतिगमन मॉडल के बारे में क्या है, जो फैलाव के लिए जिम्मेदार है?
अरुण

1
मैंने एक अर्ध-कविता या नकारात्मक द्विपद मॉडल का उपयोग करने के बारे में सोचा है, लेकिन जो मुझे समझ में नहीं आता है वह यह है कि खुद को आश्वस्त करने के लिए कि मैं अपने डेटा को उचित रूप से मॉडलिंग कर रहा हूं, यह देखने के लिए किस तरह के विकर्ण हैं। चूंकि कई विकल्प हैं (अर्ध-पॉज़िशन, नकारात्मक द्विपद, और "शून्य-संवर्धित" मॉडल), मैं यह भी सोच रहा हूं कि क्या इन विकल्पों के बीच चयन करने का एक अच्छा तरीका है। उदाहरण के लिए, क्या एक विधि आम तौर पर दूसरों की तुलना में अधिक शक्तिशाली है?
पैट्रिक एस। फ़ॉश्चर

1
जो डेटा पर निर्भर करता है। उन सभी को अपने डेटा (पॉइसन, नकारात्मक द्विपद, शून्य-फुलाए हुए पॉइसन और नकारात्मक द्विपद, प्रश्न में उन लोगों के लिए बाधा मॉडल) के लिए फिट क्यों नहीं करें) और एआईसी या बीआईसी के माध्यम से उनकी तुलना करें? देखें cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf फिर अपने डेटा के लिए सबसे उपयुक्त एक चुनें। आप अर्ध-संभावना मॉडल का उपयोग भी कर सकते हैं, लेकिन यह स्वाद की बात है, मैं उन्हें इतना पसंद नहीं करता।
मोमो

1
आपकी प्रतिक्रिया के लिए वितरण क्या एक अच्छा मॉडल हो सकता है यह जांचने के लिए, आप vcd :: distplot function का उपयोग कर सकते हैं।
मोमो

जवाबों:


12

आपका परिणाम 10 में से सहायक सुरागों की संख्या है, जो एक द्विपद यादृच्छिक चर है। तो आपको इसे किसी प्रकार के द्विपद प्रतिगमन के साथ विश्लेषण करना चाहिए, शायद अर्ध-द्विपद को अतिविशिष्टता की अनुमति देने के लिए। ध्यान दें कि पॉइसन और भ्रामक रूप से नामित नकारात्मक द्विपद वितरण, अनबाउंड काउंट डेटा के लिए अनुकूल हैं।


2
मैंने नकारात्मक द्विपद का उल्लेख किया है क्योंकि यह पोइसन का एक अतिविशिष्ट विकल्प है जिसे पॉसर ने शुरू में सुझाया था। चूँकि प्रत्येक उत्तरदाता के पास x / 10 सुराग होते हैं, यह द्विपद हो सकता है, लेकिन प्रत्येक 10 सुराग के लिए ith प्रतिवादी के लिए एक निश्चित संभाव्यता पाई होती है और घटनाएँ स्वतंत्र होती हैं। यह मामला हो सकता है।
माइकल आर। चेरिक

2
बीटा-द्विपद एक और संभावना है (बीटा-द्विपद द्विपद के रूप में नकारात्मक द्विपद पोइसन के लिए है)। betabinमें aodपैकेज यह करना होगा।
बेन बोलकर

5

मैं भी नकारात्मक द्विपद को देखने की सलाह दूंगा यदि संभावित परिणाम पोइसन की तरह अनंत थे। आप जो हिल्बे की पुस्तकों में से एक से परामर्श करना चाह सकते हैं। उनके पास GEE पर एक और नकारात्मक द्विपद प्रतिगमन पर एक है जो उन्होंने पॉइसन प्रतिगमन के साथ विरोधाभास किया है। लेकिन जैसा कि Aniko द्वारा बताया गया था कि केवल 10 सुराग हैं, इसलिए प्रत्येक प्रतिवादी केवल 0, 1, 2, 3, ..., 10 हो सकता है और इसलिए न तो पॉइसन और न ही नकारात्मक घातांक उपयुक्त है।


4

@Aniko द्वारा अच्छा बिंदु। एक अन्य विकल्प बीटा प्रतिगमन है। "ए बेटर लेमन स्क्वीज़र" शीर्षक के साथ एक पेपर था जिसने इस पद्धति पर बहुत सारी जानकारी दी।


2
लेकिन बीटा का उपयोग अनुपात के मॉडल के लिए किया जाएगा न कि पूर्णांकों के सीमित सेट पर एक गणना चर के लिए।
माइकल आर। चेरनिक

इसके व्यापक उपयोग हैं, @MichaelChernick, लेख देखें, जो काफी अच्छा है।
पीटर फ्लॉम - मोनिका

@PeterFlom यह अंतराल [0,1], केवल (0,1) पर डेटा को संभाल नहीं सकता है।
कॉलिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.