पॉसन प्रतिगमन में मजबूत मानक त्रुटियों का उपयोग कब करें?


10

मैं गणना डेटा के लिए एक पॉइसन रिग्रेशन मॉडल का उपयोग कर रहा हूं और सोच रहा हूं कि क्या पैरामीटर अनुमानों के लिए मजबूत मानक त्रुटि का उपयोग करने के कारण हैं ? मैं विशेष रूप से चिंतित हूं क्योंकि बिना मजबूत मेरे कुछ अनुमान महत्वपूर्ण नहीं हैं (जैसे, पी = 0.13) लेकिन मजबूत के साथ महत्वपूर्ण हैं (पी <0.01)।

एसएएस में यह proc genmod(जैसे repeated subject=patid;) दोहराया बयान का उपयोग करके उपलब्ध है । मैं एक उदाहरण के रूप में http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm का उपयोग कर रहा हूं जो मजबूत मानक त्रुटियों का उपयोग करने के समर्थन में कैमरन और त्रिवेदी (2009) द्वारा एक पेपर का हवाला देते हैं।

जवाबों:


6

सामान्य तौर पर यदि आपको कोई संदेह है कि आपकी त्रुटियां विषमलैंगिक हैं, तो आपको मजबूत मानक त्रुटियों का उपयोग करना चाहिए। तथ्य यह है कि जब आप मजबूत एसईएस का उपयोग नहीं करते हैं (लेकिन साबित नहीं होता है) तो मजबूत एसई की आवश्यकता होने पर आपके अनुमान गैर-महत्वपूर्ण हो जाते हैं! ये एसई पूर्वाग्रह के लिए "मजबूत" हैं कि एक सामान्यीकृत रैखिक मॉडल में हेटेरोसेडासिटी का कारण हो सकता है।

यह स्थिति थोड़ी अलग है, हालांकि, इसमें आप उन्हें पॉइसन रिग्रेशन के शीर्ष पर रख रहे हैं।

पॉसन के पास एक अच्छी तरह से ज्ञात संपत्ति है जो फैलाव को इस मतलब के बराबर होने के लिए मजबूर करती है, चाहे डेटा समर्थन करता है या नहीं। मजबूत मानक त्रुटियों पर विचार करने से पहले, मैं एक नकारात्मक द्विपद प्रतिगमन की कोशिश करूंगा, जो इस समस्या से ग्रस्त नहीं है। यह निर्धारित करने में मदद करने के लिए एक परीक्षण (टिप्पणी देखें) है कि क्या मानक त्रुटियों में परिणामी परिवर्तन महत्वपूर्ण है।

मुझे यह पता नहीं है कि क्या आप जो परिवर्तन देख रहे हैं (मजबूत एसई को आगे बढ़ाते हुए सीआई को बताता है) का तात्पर्य अंडर-फैलाव से है, लेकिन ऐसा लगता है कि संभावना नहीं है। उपयुक्त मॉडल पर एक नज़र डालें (मुझे लगता है कि नकारात्मक द्विपद है, लेकिन एक त्वरित गुगली भी अर्ध-फैलाव के लिए अर्ध-पॉइसन का सुझाव देती है?) और देखें कि आपको उस सेटिंग में क्या मिलता है।


अच्छा उत्तर! आमतौर पर ओएलएस में हेट्रोसेकेडसिटी के कारण पैरामीटर निष्पक्ष नहीं होते हैं (केवल अक्षम)। हालांकि यह सामान्यीकृत रैखिक मॉडल के लिए सही नहीं है, डेव जाइल्स द्वारा इस पोस्ट को संदर्भों के लिए देखें। मुझे नहीं लगता कि मैंने इसके लिए वुआंग परीक्षण की सिफारिश देखी है (गैर-नेस्टेड शून्य फुलाए हुए मॉडल की तुलना के लिए जो मैंने सुझाव दिया है)। पोइसन नेग के भीतर घोंसला है। द्विपद मॉडल, इसलिए एक फैलाव पैरामीटर के लिए संभावना अनुपात परीक्षण का उपयोग कर सकता है।
एंडी डब्ल्यू

आपके उत्तर के लिए धन्यवाद। मैंने नकारात्मक द्विपद प्रतिगमन की कोशिश की, लेकिन चेतावनी में भाग गया: "0.0046138565 की सापेक्ष हेसियन अभिसरण मानदंड 0.0001 की सीमा से अधिक है। अभिसरण संदिग्ध है।" ध्यान दें कि मेरा प्रतिक्रिया चर 0 से 4 तक के मूल्यों के साथ एक गिनती है। क्या आश्रित या स्वतंत्र चर का एक रूपांतरण है जो अभिसरण में मदद करेगा? या इस मामले में कोई क्या करता है?
काड़ा

इसके अलावा, गैर-मजबूत एसईएस के छोटे होने से संबंधित - मेरे विश्लेषण में मैं देखता हूं कि यह मजबूत एसई है जो छोटे हैं और यह वह जगह है जहां महत्व निहित है (गैर-मजबूत परिणामों में नहीं)। यही कारण है कि मैं इस बारे में सावधान रहना चाहता हूं कि क्या मजबूत परिणामों की रिपोर्ट करना है या नहीं - मैं इस पद्धति का चयन केवल महत्वपूर्ण पैलेट के कारण नहीं करना चाहता हूं! एक बार फिर धन्यवाद!
kara

@AndyW मैंने अपने नोट्स चेक किए और Vuong वास्तव में ZI बनाम पॉइसन के लिए है। अपडेट की गई पोस्ट। कारा मैं पलटने से चूक गया। आपके पास डेटा बिखरा हुआ हो सकता है, इस मामले में NBD संभावित रूप से समाधान भी है :-)
अरी बी। फ्रीडमैन

@kara टिप्पणियों में अपनी गैर-कनवर्जेन्स समस्या का निदान करना मुश्किल है। मैं उस पर एक नया सवाल करने की कोशिश करूंगा, जितनी जानकारी आप प्रदान कर सकते हैं।
अरी बी। फ्रीडमैन

1

मैं बाद में "जीईई" के रूप में संदर्भित करके मॉडल के आधार पर मजबूत मानक त्रुटियों का उपयोग करके विश्लेषण करता हूं, जो वास्तव में एक विनिमेय परिभाषा है। Scortchi की शानदार व्याख्या के अलावा:

GEEs छोटे नमूनों में "पक्षपाती" हो सकते हैं, यानी 10-50 विषय: (लिप्सिट्ज, लेयर्ड, और हैरिंगटन, 1990; एमरिक और पीडमॉंट, 1992; शार्प्स एंड ब्रेस्लो, 1992; लिप्सित् स) अल-1994; 1994; क्विड, पिडमॉनेट, और। विलियम्स, 1994; गनसोलली, गेटेकेल, और चिंचिल्ली, 1995; शर्मन और ले सेसी, 1997.) जब मैं कहता हूं कि जीईई पक्षपाती हैं तो मेरा मतलब है कि मानक त्रुटि का अनुमान छोटे या शून्य सेल काउंट के कारण रूढ़िवादी या एंटीकोन्सर्वेटिव हो सकता है। , इस पर निर्भर करता है कि कौन से फिट किए गए मूल्य इस व्यवहार को प्रदर्शित करते हैं और वे प्रतिगमन मॉडल के समग्र रुझान के साथ कितने सुसंगत हैं।

सामान्य तौर पर, जब पैरामीट्रिक मॉडल सही ढंग से निर्दिष्ट किया जाता है, तब भी आपको मॉडल आधारित CI से सही मानक त्रुटि अनुमान मिलते हैं, लेकिन GEE का उपयोग करने का पूरा बिंदु उस बहुत बड़े "यदि" को समायोजित करना है। GEEs सांख्यिकीविद को केवल डेटा के लिए काम करने की संभावना मॉडल को निर्दिष्ट करने की अनुमति देते हैं, और मापदंडों (कड़ाई से पैरामीट्रिक ढांचे में व्याख्या किए जाने के बजाय) को "छलनी" का एक प्रकार माना जाता है जो अंतर्निहित, अज्ञात डेटा उत्पन्न करने के बावजूद प्रतिलिपि प्रस्तुत करने योग्य मान उत्पन्न कर सकता है। तंत्र। यह अर्ध-पैरामीट्रिक विश्लेषण का दिल और आत्मा है, जिसका एक जीईई एक उदाहरण है।

GEEs डेटा में सहसंबंध के अनमोल स्रोतों को भी संभालते हैं, यहां तक ​​कि एक स्वतंत्र सहसंबंध मैट्रिक्स के विनिर्देश के साथ। यह मॉडल आधारित सहसंयोजक मैट्रिक्स के बजाय अनुभवजन्य के उपयोग के कारण है। उदाहरण के लिए, पॉइसन मॉडलिंग में, आपको विभिन्न धाराओं से प्राप्त सामन की प्रजनन दर में रुचि हो सकती है। मादा मछली से काटे गए ओवा में एक अंतर्निहित पॉइज़न वितरण हो सकता है, लेकिन आनुवांशिक भिन्नता जो विशिष्ट धाराओं में साझा आनुवांशिकता और उपलब्ध संसाधनों से युक्त होती है, अन्य धाराओं की तुलना में उन धाराओं के भीतर मछली बना सकती है। जीईई सही जनसंख्या मानक त्रुटि अनुमान देगा, जब तक कि नमूना दर उनकी जनसंख्या के अनुपात के अनुरूप हो (या अन्य तरीकों से निर्धारित है)।


1

आप विषुव के नल की एक परीक्षा करते हैं। यह एक साधारण सहायक OLS प्रतिगमन है। कैमरन और त्रिवेदी के पेज 670 पर विवरण है । बड़े अतिप्रवाह के साथ, मानक त्रुटियां बहुत ही कम हो जाती हैं, इसलिए मैं किसी भी परिणाम से बहुत सावधान रहूंगा जो अति-विशिष्ट वीसीई पर टिका हुआ है जब अतिविशिष्टता है। अंतर्विरोध के साथ, विपरीत सच होगा, जो उस परिदृश्य की तरह लगता है जो आप में हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.