गणना डेटा के साथ उपयोग करने के लिए कौन सा प्रतिगमन मॉडल सबसे उपयुक्त है?


10

मैं आंकड़ों में थोड़ा उतरने की कोशिश कर रहा हूं, लेकिन मैं किसी चीज में फंस गया हूं। मेरे डेटा इस प्रकार हैं:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

मैं अब एक प्रतिगमन मॉडल का निर्माण करना चाहता हूं जो डेटा के आधार पर किसी भी वर्ष के लिए जीन की संख्या की भविष्यवाणी करने में सक्षम हो। मैंने इसे अब तक रैखिक प्रतिगमन के साथ किया था, लेकिन मैंने कुछ पढ़ने का काम किया है और यह इस तरह के डेटा के लिए सबसे अच्छा विकल्प नहीं लगता है। मैंने पढ़ा है कि पॉइसन प्रतिगमन उपयोगी हो सकता है, लेकिन मैं अनिश्चित हूं कि क्या उपयोग करना है। तो मेरा सवाल है:

क्या इस तरह के डेटा के लिए एक सामान्य प्रतिगमन मॉडल है? यदि नहीं, तो मुझे यह पता लगाने के लिए क्या करना होगा कि किस विधि का उपयोग करने के लिए सबसे उपयुक्त है (डेटा के बारे में मुझे क्या पता लगाना है)?


यहाँ मेरा जवाब है: आँकड़ें ।stackexchange.com / questions / 142338/… बहुत प्रासंगिक है।
kjetil b halvorsen

2
क्या यह समय श्रृंखला डेटा के बारे में है?
माइकल एम

जवाबों:


22

नहीं, कोई सामान्य गणना डेटा प्रतिगमन मॉडल नहीं है।

(जिस तरह निरंतर डेटा के लिए कोई सामान्य प्रतिगमन मॉडल नहीं है । सामान्य रूप से वितरित होमोसकेस्टिक शोर के साथ एक रैखिक मॉडल आमतौर पर माना जाता है, और साधारण जानवर वर्गों का उपयोग करके फिट किया जाता है। हालांकि, गामा प्रतिगमन या घातीय प्रतिगमन का उपयोग अक्सर विभिन्न त्रुटि वितरण मान्यताओं से निपटने के लिए किया जाता है। , या सशर्त heteroskedasticity मॉडल, ARCH या GARCH की तरह एक समय श्रृंखला के संदर्भ में, विषमलैंगिक शोर से निपटने के लिए।)

सामान्य मॉडल में , जैसा कि आप लिखते हैं, या नकारात्मक द्विपद रिग्रेशन। ये मॉडल सभी प्रकार के सॉफ़्टवेयर, ट्यूटोरियल या पाठ्यपुस्तकों को खोजने के लिए पर्याप्त रूप से व्यापक हैं। मैं विशेष रूप से हिलबे के नकारात्मक द्विपद प्रतिगमन को पसंद करता हूंयह पहले वाला सवाल चर्चा करता है कि अलग-अलग गणना डेटा मॉडल के बीच कैसे चयन किया जाए।

यदि आपके डेटा में "कई" शून्य हैं, और विशेष रूप से यदि आपको संदेह है कि शून्य गैर-शून्य की तुलना में एक अलग डेटा-जनरेटिंग प्रक्रिया द्वारा संचालित किया जा सकता है (या कि कुछ शून्य एक डीजीपी से आते हैं, और अन्य शून्य और गैर-शून्य आते हैं) एक अलग DGP से), मॉडल उपयोगी हो सकते हैं। सबसे आम एक शून्य-फुलाया हुआ पॉइज़न (ज़िप) प्रतिगमन है।

आप हमारे पिछले प्रश्नों के माध्यम से "प्रतिगमन" और "गणना-डेटा" दोनों को टैग कर सकते हैं ।


EDIT: @MichaelM एक अच्छी बात उठाता है। यह करता है गिनती डेटा की समय श्रृंखला की तरह देखो। (और 1992 और 1994 के लापता आंकड़े मुझे सुझाव देते हैं कि इन वर्षों में प्रत्येक में एक शून्य होना चाहिए। यदि हां, तो इसे शामिल करें। शून्य एक वैध संख्या है, और यह जानकारी लेती है।) इसके प्रकाश में, मैं यह भी सुझाव है कि हमारे पिछले प्रश्नों को "समय-श्रृंखला" और "गणना-डेटा" दोनों के रूप में देखें


4
अच्छा है, लेकिन साधारण जानवर वर्ग एक अनुमान प्रक्रिया है, न कि एक मॉडल। आप जानते हैं कि यह एक आम भ्रम है, इसलिए हमें इसे लिखना नहीं चाहिए।
निक कॉक्स

@ नाइकॉक्स: अच्छी बात है। मैंने अपनी पोस्ट संपादित की।
स्टीफन कोलासा

11

"डिफ़ॉल्ट", सबसे अधिक इस्तेमाल किया और वर्णित, गणना डेटा के लिए पसंद का वितरण पॉसों वितरण है । बहुधा इसके पहले व्यावहारिक उपयोग के उदाहरण का उदाहरण दिया गया है:

इस वितरण का एक व्यावहारिक अनुप्रयोग 1898 में लडिसलॉस बॉर्टिकविज़ द्वारा किया गया था, जब उन्हें घोड़ा किक्स द्वारा गलती से मारे गए प्रशिया की सेना में सैनिकों की संख्या की जांच का काम दिया गया था; इस प्रयोग ने विश्वसनीयता इंजीनियरिंग के क्षेत्र में पॉइसन वितरण की शुरुआत की।

Poisson वितरण दर निश्चित समय अंतराल ( भी है यह मतलब है और विचरण) द्वारा दर द्वारा है। प्रतिगमन के मामले में, हम लॉग-लीनियर लिंक फ़ंक्शन के साथ सामान्यीकृत रैखिक मॉडल में पॉइसन वितरण का उपयोग कर सकते हैंλλλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

इसे पॉइसन रिग्रेशन कहा जाता है , क्योंकि हम मान सकते हैं कि पॉसों के वितरण की एक दर है। हालाँकि, ध्यान दें कि लॉग-लीनियर रिग्रेशन के लिए आपको इस तरह की धारणा बनाने की आवश्यकता नहीं है और बस गैर-गणना डेटा वाले लॉग लिंक के साथ GLM का उपयोग करें । मापदंडों की व्याख्या करते समय आपको याद रखने की आवश्यकता होती है कि लॉग ट्रांसफ़ॉर्मेशन का उपयोग करने के कारण, पूर्वानुमानित गणनाओं में स्वतंत्र परिवर्तनशील चर परिणाम में परिवर्तन होता है।λ

वास्तविक जीवन के डेटा के लिए पॉइसन वितरण का उपयोग करने में समस्या यह है कि इसका मतलब है कि यह विचरण के बराबर है। इस धारणा के उल्लंघन को अतिविशिष्टता कहा जाता है । ऐसे मामलों में आप हमेशा अर्ध-पॉइसन मॉडल का उपयोग कर सकते हैं , गैर-पॉइसन लॉग-लीनियर मॉडल (बड़े वितरण के लिए पॉइसन को सामान्य वितरण द्वारा अनुमानित किया जा सकता है), नकारात्मक द्विपद रिग्रेशन (पोइसन से निकटता से संबंधित; देखें बर्क और मैकडोनाल्ड, 2008), या; अन्य मॉडल, जैसा कि स्टेफ़न कोलासा द्वारा वर्णित है ।

पॉसन प्रतिगमन के कुछ अनुकूल परिचय के लिए आप Lavery (2010), या कॉक्स, वेस्ट और ऐकेन (2009) द्वारा कागजात की जांच कर सकते हैं।


लवरी, आर। (2010)। एक एनिमेटेड गाइड: पॉसन रिग्रेशन का एक परिचय। NESUG पेपर, sa04।

कॉक्स, एस।, वेस्ट, एसजी और एकेन, एलएस (2009)। गणना डेटा का विश्लेषण: पॉसन प्रतिगमन और इसके विकल्पों के लिए एक सौम्य परिचय। व्यक्तित्व मूल्यांकन की पत्रिका, 91 (2), 121-136।

बर्क, आर।, और मैकडोनाल्ड, जेएम (2008)। अतिवृद्धि और पॉइसन प्रतिगमन। जर्नल ऑफ़ क्वांटिटेटिव क्रिमिनोलॉजी, 24 (3), 269-284।


2
आप एक पॉइसन रिग्रेशन का उपयोग करने के साथ एक पॉइसन डिस्ट्रीब्यूशन को फिट करने के लिए तैयार हैं। यह पॉइसन प्रतिगमन के लिए एक पूर्ण आवश्यकता नहीं है कि प्रतिक्रिया में पॉइसन वितरण है। पॉइसन प्रतिगमन कई सकारात्मक प्रतिक्रियाओं के लिए अच्छी तरह से काम करता है, जिसमें मापा चर भी शामिल हैं। यह अनुमान के लिए मानक त्रुटियों के बारे में सावधान रहने के लिए एक अच्छा विचार है, लेकिन यह पता लगाने योग्य है। उदाहरण के लिए देखें blog.stata.com/2011/08/22/…
निक कॉक्स

@NickCox सही है, लेकिन सवाल गणना डेटा के बारे में कड़ाई से था, इसलिए पॉसों के प्रतिगमन के अन्य उपयोगों के बारे में विवरण में जाने की आवश्यकता नहीं है।
टिम

3
विस्तार में जाने की आवश्यकता नहीं है, सहमत; लेकिन पोइसन रिग्रेशन को थोड़ा धक्का देने का हर कारण। इसकी उपयोगिता आश्चर्यजनक रूप से बहुत कम ज्ञात है; यह कम से कम कई अधिक मध्यवर्ती ग्रंथों में होना चाहिए। इसके अलावा, और यहाँ अधिक महत्वपूर्ण है, मैं बिल्कुल भी सहमत नहीं हूं कि एक बार विचरण करने का मतलब नहीं है कि आपको अन्य मॉडलों का उपयोग करना चाहिए; यह दो अलग समस्याओं को भ्रमित करता है।
निक कॉक्स

इसके अलावा, तथ्य यह है कि मापा वेरिएबल्स के साथ पॉइसन रिग्रेशन का उपयोग किया जा सकता है, यह उचित है, क्योंकि इस तरह के मामलों में माध्य समानताओं का अर्थ भी सार्थक नहीं है क्योंकि उनके विभिन्न आयाम हैं। इस तरह के मामले इस बात को रेखांकित करते हैं कि आवश्यकता कोई ऐसी चीज नहीं है।
निक कॉक्स

3
समस्या का हिस्सा शब्दावली है। मेरे विचार में लॉगलिनियर रिग्रेशन पोइसन रिग्रेशन से बेहतर शब्द होगा, यह देखते हुए कि पॉइसन केंद्रीय नहीं है। लेकिन अगर इस तरह के शब्द का उपयोग किया जाता है और इसे बिल्कुल समझा जाता है, तो यह आम तौर पर पूरी तरह से मॉडलिंग के लिए वर्गीकृत डेटा के लिए होता है। इसलिए, शब्दावली काफी गलत तरीका है: लॉगलाइनर को पॉइसन होना चाहिए और पॉइसन को लॉगलाइनियर होना चाहिए। किसी भी तरह से, इस मामले का दिल यह है कि सामान्य रूप से गैर-नकारात्मक प्रतिक्रियाओं की औसत संरचना के लिए पहली कॉल का एक उत्कृष्ट बंदरगाह है। exp(Xb)
निक कॉक्स

0

पॉइसन या नकारात्मक द्विपद गणना डेटा के लिए दो व्यापक रूप से उपयोग किए जाने वाले मॉडल हैं। मैं नकारात्मक द्विपद का विकल्प चुनूंगा क्योंकि इसमें विचरण के लिए बेहतर धारणाएं हैं।


3
"बेहतर" से आपका क्या मतलब है?
टिम

2
जैसा कि यह खड़ा है यह एक उत्तर की तुलना में एक टिप्पणी का अधिक है। क्या आपको लगता है कि आप इस पर विस्तार कर सकते हैं? आपको टिम की टिप्पणी के बारे में निश्चित रूप से सोचना चाहिए - शब्द "बेहतर" बहुत अस्पष्ट है
सिल्वरफ़िश

नकारात्मक द्विपद (एनबी) मॉडल क्लस्टरिंग के कारण यह मानकर अतिशेष (OD) डेटा के साथ सौदा करते हैं। यह तब एक यादृच्छिक इंटरसेप्ट मॉडल का उपयोग करता है जिसमें पोइसन वितरित 'भीतर' और एक गामा वितरित 'संरचना' के बीच होता है। जो बेहतर है वह OD के लिए आपकी धारणा पर निर्भर करता है। यदि आप मानते हैं कि OD की डिग्री क्लस्टर आकार के साथ भिन्न होती है, तो NB मदद कर सकता है। यदि आप मानते हैं कि आयुध डिपो क्लस्टर आकार के लिए आनुपातिक है, तो अर्ध-पोइसन में यह धारणा है। अगर ओडी सिर्फ गॉसियन शोर है तो एनबी का अनुमान पक्षपाती होगा। पॉसन कम पक्षपाती होंगे, लेकिन मानक त्रुटियां OD से बहुत कम हो सकती हैं।
मेनार्ड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.