गणना डेटा के लिए उपयुक्त मॉडल तय करने की रणनीति


16

गणना डेटा के साथ किस मॉडल का उपयोग करना है, यह तय करने के लिए उपयुक्त रणनीति क्या है? मेरे पास गणना डेटा है कि मुझे एक बहुस्तरीय मॉडल के रूप में मॉडल करने की आवश्यकता है और यह मेरे लिए (इस साइट पर) सिफारिश की गई थी कि ऐसा करने का सबसे अच्छा तरीका बग या एमसीएमसीजीएमएम है। हालाँकि मैं अभी भी बायेसियन आँकड़ों के बारे में जानने की कोशिश कर रहा हूँ, और मुझे लगा कि मुझे पहले अपने डेटा को सामान्यीकृत रैखिक मॉडल के रूप में फिट करने की कोशिश करनी चाहिए और डेटा की नेस्टेड संरचना को नज़रअंदाज़ करना चाहिए (बस इसलिए मुझे उम्मीद है कि एक अस्पष्ट विचार मिल सकता है)।

लगभग 70% डेटा 0 हैं और माध्य के लिए विचरण का अनुपात 33 है। इसलिए डेटा काफी अधिक फैला हुआ है।

कई अलग-अलग विकल्पों (पॉइसन, नकारात्मक द्विपद, अर्ध और शून्य फुलाया हुआ मॉडल सहित) की कोशिश करने के बाद, मुझे परिणामों में बहुत कम स्थिरता दिखाई देती है (सब कुछ अलग-अलग होना महत्वपूर्ण है)।

मैं किस प्रकार के मॉडल के बारे में एक सूचित निर्णय लेने के बारे में जा सकता हूं कि 0 मुद्रास्फीति और अधिक फैलाव के आधार पर किस प्रकार का मॉडल चुनना है? उदाहरण के लिए, मैं यह कैसे पता लगा सकता हूं कि अर्ध-शिरासन नकारात्मक द्विपद (या विसे वर्सा) की तुलना में अधिक उपयुक्त है और मुझे कैसे पता चलेगा कि अतिरिक्त शून्य के साथ या तो पर्याप्त रूप से (या नहीं) का उपयोग किया है? इसी तरह, मैं कैसे मूल्यांकन करता हूं कि यदि शून्य-फुलाया गया मॉडल का उपयोग किया जाता है तो अधिक फैलाव नहीं होता है? या मुझे एक शून्य फुलाए हुए पॉइसन और एक शून्य फुलाए हुए नकारात्मक द्विपद के बीच कैसे तय करना चाहिए?

जवाबों:


9

आप हमेशा उनकी भविष्यवाणियों को देखकर गणना मॉडल की तुलना कर सकते हैं (अधिमानतः एक होल्ड आउट सेट पर)। जे। स्कॉट लॉन्ग इस आलेख पर चर्चा करते हैं (वास्तविक के विरूद्ध अनुमानित मूल्यों की साजिश रचते हुए)। यहाँ उनकी पाठ्य पुस्तक विवरणों में वर्णित है लेकिन आप इस दस्तावेज़ पर 6.4 भी देख सकते हैं ।

आप AIC या BIC का उपयोग करके मॉडल की तुलना कर सकते हैं और Voung परीक्षण नामक एक परीक्षण भी है जिससे मैं बहुत परिचित नहीं हूं लेकिन शून्य को नस्टेड मॉडल से तुलना कर सकता है। यहाँ एक सास पेपर है जो आपको शुरू करने के लिए पृष्ठ 10 पर संक्षेप में वर्णन करता है । यह आर पोस्टिंग में भी निहित है


सलाह के लिए धन्यवाद। मैं निश्चित रूप से मॉडल पर निर्णय लेने से पहले भविष्यवाणियों की जांच करने की कोशिश करूंगा
जॉर्ज माइकलाइड्स

5

B_Miner ने क्या कहा:

1) आपने लिखा है कि मॉडल "सब कुछ महत्वपूर्ण" से "कुछ भी नहीं" के लिए अलग है लेकिन यह मॉडल की तुलना करने का एक अच्छा तरीका नहीं है। इसके बजाय, पूर्वानुमानित मूल्यों पर (जैसा कि B_miner ने सुझाव दिया है) और प्रभाव आकार देखें।

2) यदि डेटा का 70% 0 है, तो मैं सोच भी नहीं सकता कि 0 मुद्रास्फीति के बिना एक मॉडल उपयुक्त है।

3) यहां तक ​​कि अगर आप बायेसियन नहीं जाना चाहते हैं, तो आप SAS (PROC GLIMMIX या NLMIXED) और R (विभिन्न पैकेज) में GLMM का उपयोग कर सकते हैं। नेस्टेड प्रकृति की अनदेखी सब कुछ गड़बड़ कर सकती है।

4) सामान्य तौर पर, यह तय करना कि कौन सा मॉडल सबसे अच्छा है, एक कला है, विज्ञान नहीं। उपयोग करने के लिए आँकड़े हैं, लेकिन वे निर्णय लेने के लिए एक मार्गदर्शक हैं। आपने जो लिखा है, उसे देखते हुए, मैं कहूंगा कि एक ZINB मॉडल सही लगता है


अभिप्राय यह है कि मैं अंततः बायेसियन का उपयोग करके इसे मॉडल करने की कोशिश करूंगा, लेकिन मैं यह समझने की कोशिश कर रहा था कि मैं मॉडल को फिट करने से पहले कैसे निर्णय ले सकता हूं। यदि कोई संभावना है कि डेटा की नेस्टेड प्रकृति की अनदेखी चीजों को गड़बड़ कर देती है, तो मैं उन्हें पहले GLMMs कोशिश करूंगा। आर के लिए एकमात्र पैकेज जो मुझे पता है कि मल्टीलेवल ZINB कर सकता है glmmADMB है। क्या आप किसी अन्य पैकेज की सिफारिश करेंगे?
जॉर्ज माइकलाइड्स

4

मेरी समझ यह है कि शून्य-स्पंदन वितरण का उपयोग तब किया जाना चाहिए जब शून्य वस्तुओं के लिए किसी अन्य गणना बनाम किसी अन्य गणना के लिए औचित्य हो। दूसरे शब्दों में, शून्य-स्पंदन वितरण का उपयोग किया जाना चाहिए, यदि शून्य को एक अलग प्रक्रिया द्वारा उत्पादित किया जाता है, जो दूसरे की गणना करता है। यदि आपके पास इसके लिए कोई औचित्य नहीं है, तो आपके नमूने में अतिविशिष्टता को देखते हुए, मैं एक नकारात्मक द्विपद वितरण का उपयोग करने का सुझाव देता हूं क्योंकि यह शून्य की प्रचुरता का सही प्रतिनिधित्व करता है और यह इस पैरामीटर का स्वतंत्र रूप से आकलन करके अप्रतिष्ठित विषमता का प्रतिनिधित्व करता है। जैसा कि ऊपर उल्लेख किया गया है, स्कॉट लॉन्ग की पुस्तक एक महान संदर्भ है।


आपके उत्तर के लिए धन्यवाद। दरअसल, मैंने इस बारे में सोचना शुरू कर दिया था कि क्या अलग-अलग आइटम 0s बनाम किसी भी अन्य गिनती का उत्पादन कर सकते हैं और मुझे वास्तव में लगता है कि मेरे चर के कुछ जोड़े हैं जो केवल 0s बनाम किसी अन्य गणना को समझाएंगे। इसलिए शायद मुझे कम से कम ZINB को पहले यह देखने की कोशिश करनी चाहिए कि क्या ये चर मेरे काम करने के तरीके से काम करेंगे।
जॉर्ज माइकलएड्स

3

मैट ने जो कहा, उससे बिल्कुल सहमत हैं, पहले आपको डेटा की पृष्ठभूमि के बारे में सोचना होगा ... यह ZI मॉडल को फिट करने के लिए कोई मतलब नहीं है, जब आबादी में कोई शून्य उत्पादक ट्रिगर नहीं हैं! एनबी मॉडल का लाभ यह है कि वे एक गामा वितरित यादृच्छिक चर में अप्रमाणित विषमता प्रदर्शित कर सकते हैं। तकनीकी रूप से: अतिवृद्धि के मुख्य कारण हैं हॉबेरोजेनिटी और जीरो इन्फ्लेशन। मैं नहीं मानता कि आपका फिट खराब है। फिट रहने के लिए Btw आप हमेशा अपने मॉडल की स्वतंत्रता की डिग्री के साथ Deviance की तुलना करना चाहिए। यदि डिविंस डी, एन से अधिक है (पी + 1) (यह डीएफ है) की तुलना में आपको एक बेहतर मॉडल खोजना चाहिए। हालांकि ओवरस्पीड से छुटकारा पाने के लिए ZINB से बेहतर कोई मॉडल नहीं हैं।

यदि आप R के साथ ZINB फिट करना चाहते हैं, तो पैकेज प्राप्त psclकरें और कमांड का उपयोग करने का प्रयास करें zeroinfl(<model>, dist=negative)। अधिक जानकारी के ?zeroinflलिए आवश्यक पैकेज लोड करने के बाद देखें !

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.