अविकसित गणना डेटा के लिए उपयुक्त मॉडल क्या है?


24

मैं आर में डेटा गणना करने की कोशिश कर रहा हूं जो कि स्पष्ट रूप से अंडरड्रेसड (फैलाव पैरामीटर ~ .40) है। यह संभवत: इसीलिए या इसके glmसाथ family = poissonएक नकारात्मक द्विपद ( glm.nb) मॉडल महत्वपूर्ण नहीं है। जब मैं अपने डेटा के विवरणों को देखता हूं, तो मेरे पास गणना डेटा का विशिष्ट तिरछा नहीं होता है और मेरी दो प्रायोगिक स्थितियों में अवशिष्ट भी सजातीय हैं।

तो मेरे सवाल हैं:

  1. क्या मुझे भी अपने गणना डेटा के लिए विशेष प्रतिगमन विश्लेषण का उपयोग करना होगा, यदि मेरा गणना डेटा वास्तव में गणना डेटा की तरह व्यवहार नहीं करता है? मैं कभी-कभी गैर-सामान्यता का सामना करता हूं (आमतौर पर कुर्तोसिस के कारण), लेकिन मैंने गैर-सामान्यता के लिए खाते में ट्रिम किए गए साधनों (विलकॉक्स, 2012) की तुलना करने के लिए प्रतिशतक बूटस्ट्रैप विधि का उपयोग किया। क्या विल्क्स द्वारा सुझाए गए किसी भी मजबूत तरीके और डब्ल्यूआरएस पैकेज में महसूस किए गए आंकड़ों की गणना की जा सकती है?

  2. यदि मुझे गणना डेटा के लिए प्रतिगमन विश्लेषण का उपयोग करना है, तो मैं कैसे फैलाव के लिए खाता हूं? पॉसन और नकारात्मक द्विपद वितरण एक उच्च फैलाव मानते हैं, इसलिए यह उचित नहीं होना चाहिए? मैं अर्ध-पॉइसन वितरण को लागू करने के बारे में सोच रहा था , लेकिन आमतौर पर अधिक फैलाव के लिए सिफारिश की जाती है। मैं बीटा-द्विपद मॉडल के बारे में पढ़ता हूं जो कि खाते में सक्षम होने के साथ-साथ अंडरडिस्पोर्टेशन VGAMआर के पैकेज में उपलब्ध हैं। लेखक हालांकि एक टिल्ड पॉइसन वितरण की सिफारिश करते हैं , लेकिन मैं इसे पैकेज में नहीं पा सकता हूं ।

क्या कोई अंडरड्रेसड डेटा के लिए एक प्रक्रिया की सिफारिश कर सकता है और शायद इसके लिए कुछ उदाहरण आर कोड प्रदान करता है?


1
आपको कैसे पता चलेगा कि आपका डेटा कम आंका गया है? आप फैलाव पैरामीटर की गणना कैसे कर रहे हैं?
हांग ओई

1
यह हमें यह बताने में भी मदद करेगा कि आप किस चीज में रुचि रखते हैं। रेखीय भविष्यवक्ता बिंदु अनुमानों और मूल्यों की भविष्यवाणी के लिए, अविकसितता शायद ही कभी एक समस्या है, लेकिन परीक्षण और अंतराल अनावश्यक रूप से रूढ़िवादी हो सकते हैं (अर्ध परिवार इसके साथ मदद करेंगे)। उस ने कहा, "सामान्य" संभावना दृष्टिकोण के लिए COM पॉइसन और अन्य सामान्यीकृत पॉइसन मॉडल देखें।
मोमो

@ हंग ओय: मैंने फैलाव का परीक्षण किया (पोइसोनमॉडल, वैकल्पिक = सी ("कम")) और परीक्षण महत्वपूर्ण निकला।
सिल

1
@ मोमो: अगर मैं दो प्रायोगिक परिस्थितियों में डॉग्स पर बातचीत करना चाहता हूं, तो वे सही प्रस्ताव देते हैं। सही प्रस्ताव का मतलब है कि रईस अधिक मुद्दों का दावा करते हैं जो अन्य दलों के लिए अधिक क़ीमती मुद्दों का दावा करने के बजाय अपनी टीमों के संबंधित हितों के अनुरूप हैं। सबसे पहले, मैं यह भी नहीं जानता था कि यह गणना डेटा है। क्या आपका मतलब कॉन-मैक्सवेल-पॉइसन डिस्ट्रीब्यूशन द्वारा COM पॉसों है? बहुत पहले से धन्यवाद!
सिल

3
अतिरिक्त सूचना के लिए धन्यवाद। हां, मेरा मतलब था कि कॉनवे-मैक्सवेल पॉजिशन। Shmueli & co ने इसके लिए एक तरह का सामान्यीकृत रैखिक मॉडल विकसित किया, अगर आप कोशिश करना चाहें तो R पैकेज भी है।
मोमो

जवाबों:


9

सबसे अच्छा --- और मानक तरीके अंडरस्टैंडेड पॉइसन डेटा को संभालने के लिए एक सामान्यीकृत पॉइसन या शायद एक बाधा मॉडल का उपयोग करके है। तीन पैरामीटर गणना मॉडल का उपयोग अंडरड्रेस्ड डेटा के लिए भी किया जा सकता है; जैसे फड्डी-स्मिथ, वारिंग, फेमोई, कॉनवे-मैक्सवेल और अन्य सामान्यीकृत गणना मॉडल। इनके साथ एकमात्र दोष व्याख्या है। लेकिन सामान्य अंडरड्रेस्ड डेटा के लिए सामान्यीकृत पॉइज़न का उपयोग किया जाना चाहिए। यह अतिविशिष्ट डेटा के लिए नकारात्मक द्विपद की तरह है। मैं कैम्ब्रिज यूनिवर्सिटी प्रेस द्वारा अपनी दो पुस्तकों, मॉडलिंग काउंट डेटा (2014) और नकारात्मक द्विपद प्रतिगमन, द्वितीय संस्करण, (2011) दोनों में कुछ विस्तार से इस पर चर्चा करता हूं। आर में वीजीएएम पैकेज सामान्यीकृत पॉइसन (जीपी) प्रतिगमन के लिए अनुमति देता है। फैलाव पैरामीटर के नकारात्मक मान अंडरड्रेस के लिए समायोजन का संकेत देते हैं। आप ओवरस्पीड डेटा के लिए जीपी मॉडल का उपयोग कर सकते हैं, लेकिन आम तौर पर एनबी मॉडल बेहतर होता है। जब यह नीचे आता है, तो यह सबसे अच्छा है कि यह अंडरडाइस्प्रेशन का कारण निर्धारित करे और फिर इससे निपटने के लिए सबसे उपयुक्त मॉडल का चयन करें।


वापसी पर स्वागत है! कृपया अपने खातों को पंजीकृत और / या मर्ज करें (आप हमारे सहायता केंद्र के मेरा खाता अनुभाग में यह कैसे करें के बारे में जानकारी पा सकते हैं ), फिर आप अपने प्रश्न पर संपादित और टिप्पणी कर सकेंगे। (आपका मूल खाता है यहाँ ।)
गुंग - को पुनः स्थापित मोनिका

क्या आप SPSS पर एक सामान्यीकृत पॉइसन विश्लेषण कर सकते हैं?
ग्रेस कैरोल

3

मुझे एक बार छितरी हुई पोइसन से सामना करना पड़ा, जिसका फ़्रीक्वेंसी के साथ क्या करना था जिस पर लोग एक सामाजिक खेल खेलते थे। यह पता चला कि यह चरम नियमितता के कारण था जिसके साथ लोग शुक्रवार को खेलते थे। शुक्रवार के आंकड़ों को हटाने से मुझे अपेक्षित ओवरस्पीड पॉइसन मिला। शायद आपके पास अपने डेटा को समान रूप से संपादित करने का विकल्प है।


1

ऐसी परिस्थितियां हैं जहां शून्य-मुद्रास्फीति के साथ अंतर्विरोध सहता है जो कि दोनों लिंगों के व्यक्तियों द्वारा पसंदीदा बच्चों के लिए विशिष्ट है। मुझे आज तक इसे पकड़ने का कोई तरीका नहीं मिला है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.