गिनती डेटा और अतिउत्पादन के साथ एक प्रतिगमन में पॉइज़न या क्वासी पोइसन?


16

मेरे पास ग्राहकों की गिनती की संख्या के साथ डेटा (मांग / प्रस्ताव विश्लेषण है, जो संभवतः - कई कारकों पर निर्भर करता है)। मैंने सामान्य त्रुटियों के साथ एक रेखीय प्रतिगमन की कोशिश की, लेकिन मेरा क्यूक्यू-प्लॉट वास्तव में अच्छा नहीं है। मैंने उत्तर के एक लॉग रूपांतरण की कोशिश की: एक बार फिर, खराब क्यूक्यू-प्लॉट।

इसलिए अब, मैं पोइसन एरर्स के साथ एक प्रतिगमन की कोशिश कर रहा हूं। सभी महत्वपूर्ण चर के साथ एक मॉडल के साथ, मुझे मिलता है:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

अवशिष्ट अवतरण स्वतंत्रता की अवशिष्ट डिग्री से बड़ा है: मेरे पास अतिविशिष्टता है।

मुझे कैसे पता चल सकता है कि मुझे क्वासिपोइसन का उपयोग करने की आवश्यकता है? इस मामले में क्वासिपोइसन का लक्ष्य क्या है? मैंने यह सलाह क्रॉली की "द आर बुक" में पढ़ी है, लेकिन मुझे इस मामले में न तो बात दिखाई दे रही है और न ही बड़े सुधार की।

जवाबों:


18

यह निर्धारित करने का प्रयास करते समय कि आप किस प्रकार के glm समीकरण का अनुमान लगाना चाहते हैं, आपको अपने लक्ष्य चर के अपेक्षित मूल्य और दाहिने हाथ की ओर (rhs) चर के बीच प्रशंसनीय संबंधों के बारे में सोचना चाहिए और लक्ष्य चर के रूप में rhs चर दिए गए। अवशिष्ट के भूखंड बनाम आपके सामान्य मॉडल से फिट किए गए मूल्य इस के साथ मदद कर सकते हैं। पोइसन रिग्रेशन के साथ, माना गया संबंध यह है कि विचरण अपेक्षित मूल्य के बराबर है; बल्कि प्रतिबंधात्मक, मुझे लगता है कि आप सहमत होंगे। "मानक" रैखिक प्रतिगमन के साथ, धारणा यह है कि अपेक्षित मूल्य की परवाह किए बिना विचरण स्थिर है। एक अर्ध-शिरासन प्रतिगमन के लिए, विचरण को माध्य का रैखिक कार्य माना जाता है; नकारात्मक द्विपद प्रतिगमन के लिए, एक द्विघात कार्य।

हालाँकि, आप इन रिश्तों तक सीमित नहीं हैं। एक "परिवार" ("अर्ध" के अलावा) के विनिर्देश मतलब-विचरण संबंध निर्धारित करते हैं। मेरे पास द आर बुक नहीं है, लेकिन मुझे लगता है कि इसमें एक मेज है जो पारिवारिक कार्यों और इसी माध्य-विचरण संबंधों को दिखाती है। "क्वासी" परिवार के लिए आप कई माध्य-विचरण संबंधों को निर्दिष्ट कर सकते हैं, और आप अपना स्वयं का भी लिख सकते हैं; आर प्रलेखन देखें । यह हो सकता है कि आप "क्वैसी" मॉडल में माध्य-विचरण समारोह के लिए गैर-डिफ़ॉल्ट मान निर्दिष्ट करके बहुत बेहतर फिट पा सकते हैं।

आपको लक्ष्य चर की सीमा पर भी ध्यान देना चाहिए; आपके मामले में यह गैर-गणनात्मक डेटा है। यदि आपके पास कम मानों का पर्याप्त अंश है - 0, 1, 2 - निरंतर वितरण संभवतः अच्छी तरह से फिट नहीं होंगे, लेकिन यदि आप नहीं करते हैं, तो असतत वितरण का उपयोग करने में बहुत अधिक मूल्य नहीं है। यह दुर्लभ है कि आप पॉइसन और सामान्य वितरण को प्रतियोगियों के रूप में मानेंगे।


हाँ तुम सही हो। यहां मेरे पास गिनती के आंकड़े हैं लेकिन बड़े मूल्यों के साथ। मुझे निरंतर वितरण का उपयोग करना चाहिए।
एंटोनिन

8

आप सही हैं, इन आंकड़ों की संभावना अधिक हो सकती है। क्वासिपोइसन एक उपाय है: यह एक पैमाने के पैरामीटर के रूप में अच्छी तरह से अनुमान लगाता है (जो कि पॉइसन मॉडल के लिए तय किया गया है क्योंकि विचरण भी माध्य है) और बेहतर फिट प्रदान करेगा। हालाँकि, यह अब अधिकतम संभावना नहीं है कि आप क्या कर रहे हैं और कुछ मॉडल परीक्षण और सूचकांकों का उपयोग नहीं किया जा सकता है। वेनेबल्स और रिप्ले, एस के साथ आधुनिक एप्लाइड सांख्यिकी (धारा 7.5) में एक अच्छी चर्चा पाई जा सकती है ।

एक विकल्प एक नकारात्मक द्विपद मॉडल का उपयोग करना है, उदाहरण के लिए glm.nb()पैकेज में फ़ंक्शन MASS


1
लेकिन क्या मैं इस मामले में क्वासिपोइसन का उपयोग करने के लिए "मजबूर" हूं? मैं पूछ रहा हूं क्योंकि मेरा गैर-क्सिपोइसन मॉडल बेहतर है (सिर्फ मूल पॉइज़न) इस अर्थ में कि अधिक चर महत्वपूर्ण हैं।
एंटोनिन

2
हालांकि यह समझ में नहीं आता है? अगर मैंने एक प्रतिगमन मॉडल का उपयोग किया, जहां मैंने अनुमान लगाया कि सिग्मा डेटा से अनुमान का उपयोग करने के बजाय .00001 है (2.3 मान लीजिए) तो निश्चित रूप से चीजें अधिक महत्वपूर्ण होने जा रही हैं।
दस्सन

1
एंटोनिन: मैं कहूंगा कि सिर्फ इसलिए कि अधिक चर महत्वपूर्ण हैं, यह चीजों को "बेहतर" नहीं बनाता है। यदि आप त्रुटि विचरण को कम आंकते हैं, तो दासोन ने बताया कि आसानी से झूठे सकारात्मक हो सकते हैं। मैं निश्चित रूप से इस मामले में एक अर्ध-विधि या नकारात्मक द्विपद का उपयोग करूंगा, लेकिन जब तक मैं आपके कागज की समीक्षा नहीं करता, तब तक आपको कुछ भी करने के लिए मजबूर नहीं किया जाएगा;)
मोमो

आपके उत्तरों के लिए बहुत धन्यवाद! क्या आप अर्ध-पोइसन और नकारात्मक द्विपद मॉडल की तुलना करने का कोई तरीका जानते हैं? अधिकांश पुस्तकों में, वे मॉडल प्रस्तुत करते हैं लेकिन यह नहीं समझाते हैं कि उनके बीच चयन कैसे करें।
एंटोनिन

1
आउटपुट से, ऐसा लगता है कि आप 53-17 = 16 मापदंडों को 53 + 1 = 54 डेटा बिंदुओं पर फिट कर रहे हैं; क्या यह सही है? यदि ऐसा कोई तरीका जो कि एसिम्प्टोटिक सन्निकटन पर निर्भर करता है, जिसमें उपयोग शामिल है glm()और glm.nb()बुरी तरह से कैलिब्रेटेड इंजेक्शन देने के लिए उत्तरदायी है; यह अपेक्षा की जानी चाहिए कि यह अतिरंजित होने की संभावना है। यह जानना अधिक उपयोगी होगा कि आप इस प्रतिगमन को क्यों करना चाहते हैं; यह संभव तरीके हैं जो छोटे नमूना स्थितियों में बेहतर प्रदर्शन करते हैं बजाय इसके इस्तेमाल किया जा सकता है।
अतिथि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.