नकारात्मक द्विपद प्रतिगमन प्रश्न - क्या यह एक खराब मॉडल है?


31

मैं काउंटर डेटा के लिए प्रतिगमन मॉडल पर सेलर्स और शुमेली द्वारा एक बहुत ही दिलचस्प लेख पढ़ रहा हूं । शुरुआत के करीब (पृष्ठ 944) वे मैककुल्फ और नेल्डर (1989) का हवाला देते हुए कहते हैं कि नकारात्मक द्विपद प्रतिगमन अलोकप्रिय है और एक समस्याग्रस्त विहित लिंक है। मुझे संदर्भित मार्ग मिला और यह कहता है (एम और एन का पृष्ठ 374)

"छोटे उपयोग से लगता है कि अनुप्रयोगों में नकारात्मक द्विपद वितरण से बना है, विशेष रूप से, विहित लिंक का उपयोग समस्याग्रस्त है क्योंकि यह रैखिक भविष्यवक्ता को विचरण समारोह के एक पैरामीटर का एक कार्य बनाता है"।

पिछले पेज पर वे उस लिंक फंक्शन को देते हैं

η=log(α1+α)=log(μμ+k)

और विचरण समारोह

V=μ+μ2k.

वितरण के रूप में दिया जाता है

Pr(Y=y;α,k)=(y+k1)!y!(k1)!αy(1+α)y=k

मैंने एनबी प्रतिगमन को काफी व्यापक रूप से उपयोग करने के लिए पाया है (और कई पुस्तकों में अनुशंसित)। क्या ये सभी उपयोग और सिफारिशें त्रुटि में हैं?

इस समस्याग्रस्त लिंक के परिणाम क्या हैं?


3
संभवत: वर्ष 1989 के लिए जिम्मेदार होने के लिए कम से कम भाग में करना होगा। मैं शर्त लगाने को तैयार हूं कि एनबी के अधिकांश वर्तमान उपयोग अधिक हाल के हैं। एनबी मॉडल आमतौर पर बहुत उपयोगी होता है जब आप सामान्य द्विपद संभावना (यानी लॉजिस्टिक रिग्रेशन) मामले में अति-फैलाव की समस्याओं से निपट रहे होते हैं।

5
मैं विवरण पर बादल हूँ (और जब तक कि यह नेगबिन की बात हो तो एक नौसिखिया होने से दूर है) लेकिन याद रखें कि जोसेफ हिलाबे ने अपनी पुस्तक निगेटिव बिनोमियल रिग्रेशन (द्वितीय संस्करण) में इस पर चर्चा की है। वह p.9 पर टिप्पणी करता है कि नेगबिन के पॉइसन-गामा मिश्रण दृश्य की एक प्राकृतिक अभिव्यक्ति है। उनकी 1989 की किताब के बाद Nelder विकसित केके GenStat के लिए मैक्रो, जिसमें उन्होंने बीच एक सीधा संबंध के पक्ष में और विचरण के साथ और इस प्रत्यक्ष parametrisation बहुत लोकप्रिय साबित हो गया है कि हाल ही में। α μ 2 V = μ + α μ 2Vαμ2V=μ+αμ2
मोनिका की बहाली - जी। सिम्पसन

3
मैं उन टिप्पणियों को नमक के दाने के साथ ले जाऊंगा। पुन: एमएन: उनके पास एक बहुत सख्त परिभाषा थी कि जीएलएम क्या है (अच्छे कारणों से मुझे लगता है)। अज्ञात आकार के पैरामीटर के साथ नेगबिन मॉडल मेकुल्लाघ, नेल्डर, प्रीगिबोन और इसके बाद जीएलएम की बहुत सख्त परिभाषा का पालन नहीं करते हैं। तो तकनीकी रूप से यह लगभग सभी उपयोग मामलों में GLM नहीं है। एक अलग मॉडल वर्ग के रूप में व्याख्या की गई और अधिकतम संभावना के माध्यम से अनुमान लगाया गया, अब कोई समस्या नहीं है। Re S & S को COM पॉइसन को प्रेरित करने के लिए एक मामले की आवश्यकता थी, इसलिए M & N का उद्धरण काम आया।
मोमो

4
मैं यह नहीं देखता कि विहित लिंक के कथित खराब गुण नेगनीज़ मॉडल को समग्र रूप से अवांछनीय क्यों बनाते हैं। आप अपना लिंक फ़ंक्शन डेटा और उस समस्या के आधार पर चुनते हैं जिसे आप हल करने का प्रयास कर रहे हैं, गणितीय सिद्धांत के संदर्भ में नहीं। वास्तव में मुझे संदेह है कि कोई भी विहित लिंक का उपयोग कर रहा है। यह गामा GLMs की एक समान कहानी है; विहित लिंक व्युत्क्रम है, लेकिन मैं शर्त लगाता हूं कि व्याख्या की आसानी, और प्राकृतिक स्थितियों के कारण बहुत से लोग लॉग लिंक का उपयोग करते हैं।
हांग ओई जूल

4
जहां तक ​​मैं बता सकता हूं, नकारात्मक द्विपद मॉडल का उपयोग करने का लगभग कोई कारण नहीं है। यहां तक ​​कि अगर आपका डेटा वास्तव में एक नकारात्मक द्विपद मॉडल द्वारा उत्पन्न किया गया था, तो पॉइसन प्रतिगमन औसत प्रतिक्रिया पर स्वतंत्र चर के प्रभावों के लगातार अनुमानकों की पैदावार करता है --- और यह वास्तव में हमेशा वही होता है जो शोधकर्ता अनुमान लगाना चाहता है। सामान्य मानक त्रुटियां गलत हैं यदि पॉइसन धारणा गलत है, लेकिन बूटस्ट्रैपिंग इसे ठीक करता है। किसी भी समय , आप लगातार Poisson का उपयोग करके का अनुमान लगा सकते हैं । β{Y|एक्स}=एक्सपी(एक्सβ)β
बिल

जवाबों:


10

मैं कई दृष्टिकोणों से कथनों पर विवाद करता हूं:

i) जबकि विहित लिंक अच्छी तरह से 'समस्याग्रस्त' हो सकता है, यह तुरंत स्पष्ट नहीं है कि किसी को उस लिंक में रुचि होगी - जबकि, उदाहरण के लिए, पॉइसन में लॉग-लिंक अक्सर सुविधाजनक और प्राकृतिक दोनों होते हैं, और इसलिए लोग अक्सर होते हैं उस में रुचि है। फिर भी, पोइसन मामले में लोग अन्य लिंक कार्यों को देखते हैं।

इसलिए हमें विहित लिंक पर अपने विचार को प्रतिबंधित करने की आवश्यकता नहीं है।

एक 'समस्यात्मक कड़ी' अपने आप में नकारात्मक द्विपद प्रतिगमन के खिलाफ विशेष रूप से बताने वाले तर्क की नहीं है।

उदाहरण के लिए, लॉग-लिंक कुछ नकारात्मक द्विपद अनुप्रयोगों में काफी उचित विकल्प प्रतीत होता है, उदाहरण के लिए, उन मामलों में जहां डेटा सशर्त रूप से पॉइसन हो सकते हैं लेकिन पॉइज़न दर में विषमता है - लॉग लिंक लगभग व्याख्या योग्य हो सकता है जैसा कि यह पोइसन मामले में है।

तुलना करके, मैं अक्सर गामा GLMs का उपयोग करता हूं, लेकिन मुझे याद नहीं है (पाठ्यपुस्तक के उदाहरण एक तरफ), कभी भी इसकी विहित लिंक का उपयोग करते हुए - मैं लगभग हमेशा लॉग-लिंक का उपयोग करता हूं, क्योंकि यह समस्याओं के प्रकारों के लिए उपयोग करने के लिए एक अधिक प्राकृतिक लिंक है। मैं साथ काम करता हूं।

ii) "थोड़ा लगता है कि बना दिया गया है ... अनुप्रयोगों में" 1989 में बस के बारे में सच हो सकता है, लेकिन मुझे नहीं लगता कि यह अब खड़ा है। [यहां तक ​​कि अगर यह अब भी खड़ा था, तो यह एक तर्क नहीं है कि यह एक खराब मॉडल है, केवल यह कि इसका व्यापक रूप से उपयोग नहीं किया गया है - जो सभी कारणों से हो सकता है।]

नकारात्मक द्विपद प्रतिगमन अधिक व्यापक रूप से उपयोग हो गया है क्योंकि यह अधिक व्यापक रूप से उपलब्ध है, और मुझे लगता है कि यह अब और अधिक व्यापक रूप से अनुप्रयोगों में उपयोग किया जाता है। आर में, उदाहरण के लिए, मैं MASSउस समर्थन में कार्यों का उपयोग करता हूं (और इसी पुस्तक, वेनबेल्स और रिप्ले का, एस के साथ आधुनिक एप्लाइड सांख्यिकी , कुछ दिलचस्प अनुप्रयोगों में नकारात्मक द्विपद प्रतिगमन का उपयोग करता है) - और मैंने कुछ कार्यक्षमता का उपयोग किया है आर में उपयोग करने से पहले ही कुछ अन्य पैकेजों में।

मैंने नकारात्मक द्विपद प्रतिगमन का उपयोग किया होगा, पहले भी, अगर यह मेरे लिए आसानी से उपलब्ध था; मुझे उम्मीद है कि कई लोगों के लिए भी यही सच है - इसलिए यह तर्क कि इसका उपयोग बहुत कम किया गया था, यह एक अवसर से अधिक प्रतीत होता है।

हालांकि यह नकारात्मक द्विपद प्रतिगमन से बचने के लिए संभव है, (अतिविशिष्ट पॉइसन मॉडल का उपयोग करके कहें), या कई परिस्थितियां जहां यह वास्तव में बहुत मायने नहीं रखता कि आप क्या करते हैं , विभिन्न कारण हैं जो पूरी तरह से संतोषजनक नहीं हैं।

उदाहरण के लिए, जब मेरी रुचि गुणांक के अनुमानों की तुलना में पूर्वानुमान अंतराल की ओर है, तो यह तथ्य कि गुणांक नहीं बदलता है, नकारात्मक द्विपद से बचने के लिए पर्याप्त कारण नहीं हो सकता है।

बेशक अभी भी अन्य विकल्प हैं जो फैलाव को मॉडल करते हैं (जैसे कि कॉनवे-मैक्सवेल-पॉइसन जो आपके द्वारा उल्लिखित कागज का विषय है); जबकि वे निश्चित रूप से विकल्प हैं, कभी-कभी ऐसी परिस्थितियां होती हैं जहां मैं काफी खुश हूं कि नकारात्मक द्विपद मेरी समस्या के लिए एक मॉडल के रूप में एक बहुत अच्छा 'फिट' है।

क्या ये सभी उपयोग और सिफारिशें त्रुटि में हैं?

मैं सच में ऐसा नहीं लगता! यदि वे थे, यह अब तक काफी स्पष्ट हो जाना चाहिए था। वास्तव में, अगर मैक्कुलघ और नेल्डर ने इसी तरह महसूस करना जारी रखा, तो उनके पास न तो अवसर की कमी थी, और न ही ऐसे मंचों की कमी थी, जिसमें शेष मुद्दों को स्पष्ट किया जा सके। नेल्डर का निधन (2010) हो चुका है, लेकिन मैक्कुलघ स्पष्ट रूप से अभी भी आसपास हैं

अगर मैककुलघ और नेल्डर में यह छोटा रास्ता है, तो वे कहते हैं कि मैं एक बहुत कमजोर तर्क हूं।

इस समस्याग्रस्त लिंक के परिणाम क्या हैं?

मुझे लगता है कि मुद्दा मुख्य रूप से विचरण समारोह और लिंक फ़ंक्शन के असंबंधित होने के बजाय संबंधित है (जैसा कि लोकप्रिय उपयोग में अन्य सभी मुख्य GLM परिवारों के लिए मामला है), जो रैखिक भविष्यवक्ता के पैमाने पर व्याख्या करता है कम सीधा (यह कहने के लिए नहीं है कि यह एकमात्र मुद्दा है; मुझे लगता है कि यह एक व्यवसायी के लिए मुख्य मुद्दा है)। यह बहुत सौदा नहीं है।


पी

इसमें से कुछ भी कॉनवे-मैक्सवेल-पॉइसन मॉडल (सेलर्स और श्मुएल पेपर का विषय) से कुछ भी नहीं लेना है , जो कि अधिक व्यापक रूप से उपयोग किए जा रहे हैं - मैं निश्चित रूप से एक नकारात्मक द्विपद में भाग लेने की इच्छा नहीं रखता हूं - COM -पिसोन शूटिंग मैच।

मैं बस इसे एक-या-दूसरे के रूप में नहीं देखता, इससे अधिक (अब और अधिक व्यापक रूप से बोलते हुए) मैं सांख्यिकीय समस्याओं पर एक विशुद्ध रूप से बायसीयन और न ही विशुद्ध रूप से लगातारवादी रुख लेता हूं। मैं उन विशेष परिस्थितियों में सबसे अच्छी पसंद के रूप में मुझ पर जो भी प्रहार करता हूँ, उसका उपयोग करूँगा और प्रत्येक पसंद के फायदे और नुकसान होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.