शून्य-छिन्न नकारात्मक द्विपद GEE के लिए R / Stata पैकेज?


13

यह मेरा पहला पोस्ट है। मैं इस समुदाय के लिए वास्तव में आभारी हूं।

मैं अनुदैर्ध्य गणना डेटा का विश्लेषण करने की कोशिश कर रहा हूं जो शून्य-ट्रेंकेटेड है (संभावना है कि प्रतिक्रिया चर = 0 0 है), और माध्य! = विचरण, इसलिए एक नकारात्मक द्विपद वितरण एक पॉइसन पर चुना गया था।

मेरे द्वारा किए गए कार्य / आदेश:

आर

  • जी () आर में फ़ंक्शन शून्य-ट्रंकेशन के लिए नहीं है और न ही नकारात्मक द्विपद वितरण (एमएएससी लोड के साथ भी नहीं)
  • glm.nb () R में विभिन्न सहसंबंध संरचनाओं के लिए अनुमति नहीं है
  • VGAM पैकेज से vglm () पॉज़नेबिनोमियल परिवार का उपयोग कर सकते हैं, लेकिन इसमें स्टैटा के ztnb कमांड (नीचे देखें) के रूप में एक ही समस्या है कि मैं एक गैर-स्वतंत्र coralation संरचना का उपयोग करके मॉडल को परिष्कृत नहीं कर सकता।

Stata

  • यदि डेटा अनुदैर्ध्य नहीं था, तो मैं अपने विश्लेषण को चलाने के लिए सिर्फ स्टैटा पैकेज ztnb का उपयोग कर सकता था, लेकिन वह आदेश मान लेता है कि मेरी टिप्पणियां स्वतंत्र हैं।

मैंने विभिन्न कार्यप्रणाली / दार्शनिक कारणों से GLMM को भी खारिज कर दिया है।

अभी के लिए, मैं स्टाटा के xtgee कमांड पर बस गया हूं (हां, मुझे पता है कि xtnbreg भी यही काम करता है) जो गैर-निर्भर सह-संबंध संरचनाओं और नकारात्मक द्विपद परिवार दोनों को ध्यान में रखता है, लेकिन शून्य-ट्रंकेशन नहीं। Xtgee का उपयोग करने का अतिरिक्त लाभ यह है कि मैं अपनी प्रतिक्रिया चरों के लिए सर्वोत्तम फिटिंग सहसंबंध संरचनाओं का निर्धारण करने के लिए qic मानों (qic कमांड का उपयोग करके) की गणना भी कर सकता हूं।

यदि आर या स्टैटा में एक पैकेज / कमांड है जो 1) नैबोनोमियल परिवार, 2) जीईई और 3) शून्य-ट्रंकेशन को ध्यान में रख सकता है, तो मुझे पता चल जाएगा।

मुझे आपके द्वारा दिए गए किसी भी विचार की बहुत सराहना होगी। धन्यवाद।

-Casey

जवाबों:


12

R दो विकल्पों को ध्यान में रखते हुए, दोनों के लिए मैं केवल सबसे अच्छे से परिचित हूं।

पहला psclपैकेज है, जो बहुत ही अच्छे, लचीले तरीके से शून्य छिन्न- भिन्न और बाधा मॉडल फिट कर सकता है। psclपैकेज के उपयोग का सुझाव sandwichपैकेज है जो "पार अनुभागीय, समय श्रृंखला और अनुदैर्ध्य डेटा के लिए मॉडल-मजबूत मानक त्रुटि आकलनकर्ता" प्रदान करता है। तो आप अपने गिनती मॉडल को फिट कर सकते हैं और फिर sandwichपैकेज का उपयोग करके डेटा के अनुदैर्ध्य प्रकृति को ध्यान में रखते हुए अवशिष्ट के लिए एक उपयुक्त कोवरियन मैट्रिक्स का अनुमान लगा सकते हैं।

दूसरा विकल्प geepackपैकेज को देखने के लिए हो सकता है जो ऐसा दिखता है कि आप जो चाहते हैं वह कर सकते हैं, लेकिन केवल ज्ञात थॉट के साथ एक नकारात्मक द्विपद मॉडल के लिए, क्योंकि यह किसी भी प्रकार के जीएलएम को फिट करेगा जो आर का glm()कार्य कर सकता है (इसलिए एमएएसई से पारिवारिक फ़ंक्शन का उपयोग करें) ।

एक तीसरे विकल्प ने सिर उठाया: gamlssऔर यह ऐड-ऑन पैकेज है gamlss.tr। उत्तरार्द्ध में एक फ़ंक्शन शामिल होता है gen.trun()जो किसी भी gamlss()वितरण को एक लचीले तरीके से छंटनी द्वारा समर्थित में बदल सकता है - आप उदाहरण के लिए 0 नकारात्मक द्विपद वितरण पर बाईं छंटनी निर्दिष्ट कर सकते हैं। gamlss()खुद में यादृच्छिक प्रभावों के लिए समर्थन शामिल है जो डेटा के अनुदैर्ध्य प्रकृति का ध्यान रखना चाहिए। यह तुरंत स्पष्ट नहीं है, अगर आपको मॉडल में एक कोवरिएट के कम से कम एक चिकनी फ़ंक्शन का उपयोग करना है या जीएलएम में रैखिक कार्यों के रूप में सब कुछ मॉडल कर सकता है।


मानस पैकेज, मेरा मानना ​​है, केवल शून्य-फुलाया और बाधा मॉडल फिट बैठता है। बाधा मॉडल में बाईं-छंटनी वाली गणना घटक और दाएं-सेंसर वाले बाधा घटक दोनों शामिल होते हैं। मैं कैसे या भले ही मैं बाधा घटक के बिना एक बाधा मॉडल को चलाने में सक्षम हूं, लेकिन मैं सैंडविक पैकेज में देखूंगा। जीपैक पैकेज के लिए, यह वही समस्या है जो जी पैकेज के रूप में है; जब मैं थीटा निर्दिष्ट किए बिना एक "negative.binomial" परिवार (MASS से) निर्दिष्ट करता हूं, तो यह थीटा के लिए पूछेगा। हालाँकि, जब मैं एक थीटा मान निर्दिष्ट करता हूँ, तो यह एक गैर मान्यता प्राप्त परिवार है, यह कहते हुए एक त्रुटि होगी।
आइरिस त्सू

@ कैसी - क्षमा करें, मैंने आपकी आवश्यकताओं को फिर से शून्य कर दिया है। शर्म आती है कि जीपबैक उस पारिवारिक कार्य के साथ काम नहीं करता है। अगर मैं कुछ और सोचता हूं, तो मैं यहां अपडेट करूंगा।
मोनिका - जी। सिम्पसन

@ कैसी मैंने gamlssपैकेज के बारे में एक नोट जोड़ा है जो आर में भी बिल फिट हो सकता है।
मोनिका को बहाल करें - जी। सिम्पसन

संसाधनों और कार्यों के कई सुझावों के कारण अपना जवाब स्वीकार करना, जिससे मेरी समझ में सुधार हुआ है। ऐसा लगता है कि to गेमल्स ’मेरे मुद्दे को हल करने का एक संभव तरीका होगा, लेकिन क्योंकि मैं वास्तव में एक गैर-सांख्यिकीविद् हूं, मेरे पास वर्तमान में गणित की पृष्ठभूमि नहीं है और न ही खुलने का समय है जो अभी कीड़े की (लेकिन शायद अंततः) मैं करूंगा। जैसा कि एक अन्य टिप्पणी में उल्लेख किया गया है, मेरे डेटा के लिए कम से कम, ऐसा लगता है कि शून्य-ट्रंकेशन को अनदेखा करने से मेरे अनुमान और एसटीडी त्रुटियों में बहुत बदलाव नहीं होगा। अपने इच्छित दर्शकों के लिए, मेरा मानना ​​है कि एक nbinomial GEE ठीक काम करेगा। धन्यवाद!
आइरिस त्सू

9

हम्म, अच्छा पहला सवाल! मुझे ऐसे पैकेज का पता नहीं है जो आपकी सटीक आवश्यकताओं को पूरा करता हो। मुझे लगता है कि अगर आप भी ह्यूबर-व्हाइट मानक त्रुटियों को देने का विकल्प निर्दिष्ट करते हैं, या यदि यह व्यावहारिक है , तो स्टैटा का xtgee एक अच्छा विकल्प है । इनमें से कोई भी विकल्प यह सुनिश्चित करेगा कि मानक त्रुटि मॉडल अनुमान के बावजूद लगातार अनुमान लगाया जाता है जिसे आपने शून्य ट्रंकेशन को अनदेखा करके किया होगा।vce(robust)vce(bootstrap)

यह सवाल छोड़ देता है कि शून्य सूदखोरी को नजरअंदाज करने से आपके लिए ब्याज के बिंदु अनुमान (नों) पर क्या प्रभाव पड़ेगा। यह देखने के लिए एक त्वरित खोज के लायक है कि क्या सामान्य रूप से इस पर प्रासंगिक साहित्य है, अर्थात जरूरी नहीं कि जीईई संदर्भ में - मैंने सोचा होगा कि आप बहुत सुरक्षित रूप से मान सकते हैं कि ऐसे परिणाम जीईई मामले में भी प्रासंगिक होंगे। यदि आपको कुछ नहीं मिल रहा है, तो आप हमेशा शून्य-ट्रंकेशन और ज्ञात प्रभाव अनुमानों के साथ डेटा का अनुकरण कर सकते हैं और सिमुलेशन द्वारा पूर्वाग्रह का आकलन कर सकते हैं।


1
मैंने मजबूत मानक त्रुटियों का अनुमान लगाना सुनिश्चित किया। इसके अलावा, ज़्यूरुर, एट अल, 2009 के पेज 261 पर "मिश्रित प्रभाव वाले मॉडल और एक्सटेंशन इन आर" के साथ पारिस्थितिकी में, वे उल्लेख करते हैं, "यदि प्रतिक्रिया चर का मतलब अपेक्षाकृत बड़ा है, तो ट्रंकेशन समस्या की अनदेखी करना, फिर आवेदन करना एक पॉइसन या नकारात्मक द्विपद (एनबी) सामान्यीकृत रैखिक मॉडल (जीएलएम), एक समस्या पैदा करने की संभावना नहीं है। " सौभाग्य से, मेरे प्रतिक्रिया चर के साधन बड़े हैं, इसलिए मुझे जीईई की तुलना में शून्य-रद्दीकरण और मेरे प्रतिगमन के नकारात्मक पहलुओं की तुलना में थोड़ा अधिक आरामदायक लगता है।
आइरिस त्सू

लगता है जैसे आप पहले से ही इस विषय के बारे में अधिक जानते हैं कि मैं क्या करता हूं! या अन्य प्रतिक्रियाओं की कमी को देखते हुए, इस साइट पर कोई और।
OneStop

यह थोड़ा अविश्वसनीय है; कौन जानता था कि अति-अनुदैर्ध्य गणना डेटा का विश्लेषण करना इतना मुश्किल होगा (जीएलएमएम किए बिना, जिसे मैंने अभी तक देखने में नहीं देखा है)? यदि केवल मेरा डेटा शून्य-फुलाया गया था, तो यह एक और कहानी होगी।
आइरिस त्सू

5

मेरे शोध प्रबंध में भी यही मुद्दा था। स्टैटा में, मैंने अभी खुद को एक कस्टम .ado प्रोग्राम बनाया है जिसमें दो कॉल xtgee के लिए हैं।

इसके लिए, मुझे पार्थ देब, विलार्ड मैनिंग और एडवर्ड नॉर्टन द्वारा "मॉडलिंग हेल्थ केयर कॉस्ट एंड काउंट्स" स्लाइड्स / प्रोग्राम उपयोगी लगे। वे अनुदैर्ध्य डेटा के बारे में बात नहीं करते हैं, लेकिन यह एक उपयोगी प्रारंभिक बिंदु है।


1

मैं glmmADMB व्याख्या पर जवाब की तलाश में था और मैंने आपकी पोस्ट देखी। मुझे पता है कि यह बहुत समय पहले था लेकिन मेरे पास इसका जवाब हो सकता है।

बाधा मॉडल का उपयोग करते समय पैकेज glmmADMB में देखें। आपको अपने डेटा के दो विश्लेषणों में विभाजित करना होगा: उनमें से एक बस शून्य डेटा का इलाज करता है। आप मिश्रित प्रभाव जोड़ सकते हैं और वितरण को चुन सकते हैं। शर्त यह है कि डेटा शून्य-फुलाया जाना है और मुझे नहीं पता कि क्या यह आपकी आवश्यकताओं को पूरा करता है! वैसे भी, मुझे आशा है कि आपको बहुत पहले पता चला था!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.