नकारात्मक द्विपद प्रतिगमन की धारणाएं क्या हैं?


30

मैं एक बड़े डेटा सेट के साथ काम कर रहा हूं (गोपनीय, इसलिए मैं बहुत अधिक साझा नहीं कर सकता), और निष्कर्ष पर आया कि एक नकारात्मक द्विपद प्रतिगमन आवश्यक होगा। मैंने पहले कभी glm रिग्रेशन नहीं किया है, और मुझे इस बारे में कोई स्पष्ट जानकारी नहीं मिल सकती है कि धारणाएं क्या हैं। क्या वे एमएलआर के लिए समान हैं?

क्या मैं चर को उसी तरह बदल सकता हूं (मैंने पहले ही पता लगा लिया है कि आश्रित चर को बदलना एक बुरा कॉल है क्योंकि इसे एक प्राकृतिक संख्या होने की आवश्यकता है)? मैंने पहले से ही निर्धारित किया है कि नकारात्मक द्विपद वितरण मेरे डेटा में अति-फैलाव के साथ मदद करेगा (विचरण लगभग 2000 है, मतलब 48 है)।

सहायता के लिए धन्यवाद!!

जवाबों:


42

मैं एक बड़े डेटा सेट के साथ काम कर रहा हूं (गोपनीय, इसलिए मैं बहुत अधिक साझा नहीं कर सकता),

एक छोटा डेटा सेट बनाना संभव हो सकता है जिसमें चर नामों के बिना वास्तविक डेटा की कुछ सामान्य विशेषताएं हैं और न ही वास्तविक मूल्यों में से कोई।

और निष्कर्ष पर आया कि एक नकारात्मक द्विपद प्रतिगमन आवश्यक होगा। मैंने पहले कभी glm रिग्रेशन नहीं किया है, और मुझे इस बारे में कोई स्पष्ट जानकारी नहीं मिल सकती है कि धारणाएं क्या हैं। क्या वे एमएलआर के लिए समान हैं?

स्पष्ट रूप से नहीं! आप पहले से ही जानते हैं कि आप प्रतिक्रिया कर रहे हैं कि सशर्त रूप से नकारात्मक द्विपद है, सशर्त रूप से सामान्य नहीं है। ( कुछ धारणाएँ साझा की जाती हैं। उदाहरण के लिए स्वतंत्रता।)

मुझे आम तौर पर पहले GLMs के बारे में बात करने दें।

GLM में कई प्रतिगमन शामिल हैं, लेकिन कई तरीकों से सामान्यीकृत होते हैं:

1) प्रतिक्रिया का सशर्त वितरण (निर्भर चर) घातीय परिवार से है , जिसमें पॉइसन, द्विपद, गामा, सामान्य और कई अन्य वितरण शामिल हैं।

2) माध्य प्रतिक्रिया एक लिंक फ़ंक्शन के माध्यम से भविष्यवक्ताओं (स्वतंत्र चर) से संबंधित है । वितरण के प्रत्येक परिवार में एक संबद्ध विहित लिंक फ़ंक्शन है - उदाहरण के लिए पॉइसन के मामले में, विहित लिंक लॉग है । विहित लिंक लगभग हमेशा डिफ़ॉल्ट होते हैं, लेकिन अधिकांश सॉफ़्टवेयर में आपके पास आमतौर पर प्रत्येक वितरण विकल्प के भीतर कई विकल्प होते हैं। द्विपद के लिए विहित लिंक लॉगिट है (रैखिक भविष्यवक्ता लॉग मॉडलिंग कर रहा है ( p), एक सफलता की लॉग-ऑड्स, या एक "1") और गामा के लिए विहित लिंक व्युत्क्रम है - लेकिन दोनों ही मामलों में अन्य लिंक फ़ंक्शंस अक्सर उपयोग किए जाते हैं।लॉग(पी1-पी)

यदि आपकी प्रतिक्रिया और आपके भविष्यवक्ता X 1 और X 2 थे , तो लॉग लिंक के साथ एक पोइसन रिग्रेशन आपके पास आपके विवरण के लिए हो सकता है कि Y का मतलब X से कैसे संबंधित है :Yएक्स1एक्स2Yएक्स

(Yमैं)=μमैं

लॉगμमैं=ηमैं ( को 'लीनियर ' कहा जाता है, और यहां लिंक फ़ंक्शन , लिंक फ़ंक्शन का प्रतिनिधित्व करने के लिए अक्सर प्रतीक का उपयोग किया जाता है)ηलॉगजी

ηमैं=β0+β1एक्स1मैं+β2एक्स2मैं

3) प्रतिक्रिया का विचरण स्थिर नहीं है, लेकिन विचरण-फ़ंक्शन (माध्य का एक कार्य, संभवतः स्केलिंग पैरामीटर) के माध्यम से संचालित होता है। उदाहरण के लिए, एक पोइसन का विचरण माध्य के बराबर होता है, जबकि गामा के लिए यह माध्य के वर्ग के समानुपाती होता है। (अर्ध-वितरण, ग्रहण किए गए वितरण से कुछ हद तक वेरिएंस फ़ंक्शन के डिकॉउलिंग की अनुमति देते हैं)

-

तो क्या आप एमएलआर से याद करते हैं जो आम धारणाएं हैं?

  • आजादी अभी भी है।

  • होमोसकेडिसिटी अब नहीं माना जाता है; विचरण स्पष्ट रूप से माध्य का एक कार्य है और इसलिए सामान्य तौर पर भविष्यवक्ताओं के साथ भिन्न होता है (इसलिए जब कि मॉडल आम तौर पर हेट्रोसेकेडैस्टिक होता है, तो हेटेरोस्केडासिटी एक विशिष्ट रूप लेता है)।

  • रैखिकता: मॉडल अभी भी मापदंडों में रैखिक है (यानी रैखिक भविष्यवक्ता ), लेकिन अपेक्षित प्रतिक्रिया रैखिक रूप से उनसे संबंधित नहीं है (जब तक कि आप पहचान लिंक फ़ंक्शन का उपयोग नहीं करते हैं!)।एक्सβ

  • प्रतिक्रिया का वितरण काफी अधिक सामान्य है

आउटपुट की व्याख्या कई मायनों में समान है; आप अभी भी उदाहरण के लिए उनकी मानक त्रुटियों से विभाजित अनुमानित गुणांक को देख सकते हैं, और उन्हें समान रूप से व्याख्या कर सकते हैं (वे asymptotically सामान्य हैं - एक Wald z- परीक्षण - लेकिन लोग अभी भी उन्हें t-ratios कहते हैं, तब भी जब वे कोई जानकारी नहीं बनाते हैं) उन्हें distributed सामान्य तौर पर)।टी

नेस्टेड मॉडल (सेटअप की तरह 'एनोवा-टेबल' के बीच तुलना) थोड़ा अलग है, लेकिन समान (एसिम्प्टोटिक ची-स्क्वायर परीक्षण शामिल है)। यदि आप एआईसी और बीआईसी के साथ सहज हैं तो इनकी गणना की जा सकती है।

इसी प्रकार के नैदानिक ​​डिस्प्ले आमतौर पर उपयोग किए जाते हैं, लेकिन व्याख्या करना कठिन हो सकता है।

यदि आप मतभेदों को ध्यान में रखते हैं तो आपके कई लीनियर रिग्रेशन इंट्यूशन खत्म हो जाएंगे।

यहां एक ऐसी चीज का उदाहरण दिया गया है, जिसे आप एक चमक के साथ कर सकते हैं, जिसे आप वास्तव में रैखिक प्रतिगमन के साथ नहीं कर सकते हैं (वास्तव में, ज्यादातर लोग इसके लिए गैर-रेखीय प्रतिगमन का उपयोग करेंगे, लेकिन सामान्य मामले में GLM आसान और इसके लिए अच्छा है) - सामान्य है , एक समारोह के रूप में मॉडलिंग की :Yएक्स

(Y)=exp(η)=exp(एक्सβ)=exp(β0+β1एक्स) (यानी, एक लॉग-लिंक)

वार(Y)=σ2

यही है, और बीच एक घातीय संबंध के एक न्यूनतम वर्ग फिट है ।Yएक्स

क्या मैं चर को उसी तरह बदल सकता हूं (मैंने पहले ही पता लगा लिया है कि आश्रित चर को बदलना एक बुरा कॉल है क्योंकि इसे एक प्राकृतिक संख्या होने की आवश्यकता है)?

आप (आमतौर पर) प्रतिक्रिया (DV) को बदलना नहीं चाहते हैं। आप कभी-कभी रैखिक भविष्यवक्ता की रैखिकता प्राप्त करने के लिए भविष्यवाणियों (IVs) को बदलना चाह सकते हैं।

मैंने पहले से ही निर्धारित किया है कि नकारात्मक द्विपद वितरण मेरे डेटा में अति-फैलाव के साथ मदद करेगा (विचरण लगभग 2000 है, मतलब 48 है)।

हाँ, यह अतिविशिष्टता से निपट सकता है। लेकिन ध्यान रखें कि बिना शर्त फैलाव के साथ सशर्त फैलाव को भ्रमित न करें ।

एक और आम दृष्टिकोण - अगर थोड़ा और अधिक गुदगुदी और इसलिए कुछ हद तक मेरे मन को संतुष्ट करता है - है अर्ध-पॉइसन रिग्रेशन (अतिविशिष्ट पॉइसन रिग्रेशन)।

नकारात्मक द्विपद के साथ, यह घातीय परिवार में है यदि आप अपने किसी विशेष पैरामीटर को निर्दिष्ट करते हैं (जिस तरह से यह आम तौर पर जीएलएमएस के लिए कम से कम पुनर्गठित होता है)। कुछ पैकेज इसे फिट करेंगे यदि आप पैरामीटर निर्दिष्ट करते हैं, तो अन्य जीएलएम रूटीन के आसपास उस पैरामीटर के एमएल अनुमान (प्रोफाइल संभावना के माध्यम से) को लपेटेंगे, प्रक्रिया को स्वचालित करेंगे। कुछ आपको वितरण के एक छोटे सेट तक सीमित कर देंगे; आप यह नहीं कहते हैं कि आप किस सॉफ्टवेयर का उपयोग कर सकते हैं, इसलिए वहां ज्यादा कुछ कहना मुश्किल है।

मुझे लगता है कि आमतौर पर लॉग-लिंक का उपयोग नकारात्मक द्विपद प्रतिगमन के साथ किया जाता है।

वहाँ कई परिचयात्मक स्तर के दस्तावेज़ हैं (आसानी से Google के माध्यम से पाए जाते हैं) जो कुछ बुनियादी पॉइसन GLM और फिर डेटा के नकारात्मक द्विपद GLM विश्लेषण के माध्यम से आगे बढ़ते हैं, लेकिन आप GLM पर एक पुस्तक को देखना पसंद कर सकते हैं और हो सकता है कि पहले थोड़ा Poisson प्रतिगमन करें। बस उस के लिए इस्तेमाल किया पाने के लिए।


1
+1 मैं COOLSerdash से सहमत हूं। यहाँ अच्छी जानकारी के बहुत सारे! अनुशंसित Google खोज के अलावा, मैं विशेष रूप से गुजराती द्वारा उदाहरण के लिए अर्थमिति नामक एक पाठ्यपुस्तक की सिफारिश करूंगा। अध्याय 12 में पॉइसन प्रतिगमन मॉडल और नकारात्मक-द्विपद प्रतिगमन मॉडल शामिल हैं। जैसा कि पुस्तक के शीर्षक से पता चलता है, उदाहरण हैं। पुस्तक में उपयोग किया गया डेटा पुस्तकों की साथी वेबसाइट से उपलब्ध है और इसलिए अध्याय 12 का सारांश भी है। मैं सुझाव देता हूं कि ओपी इसकी जांच करता है।
ग्रीम वाल्श

मुझे पार्टी के लिए देर हो रही है ... लेकिन इस जवाब ने मुझे लाइब्रेरी में पुस्तकों के एक पूरे ढेर से बेहतर सामान्यीकृत रैखिक मॉडल को समझने में मदद की।
haff

0

कुछ संदर्भों को मैंने विशेष रूप से नकारात्मक द्विपद वितरण के साथ डेटा का विश्लेषण करने में मददगार पाया है (लिस्टिंग मान्यताओं सहित) और जीएलएम / जीएलएमएम आमतौर पर हैं:

बेट्स, डीएम, बी। माचलर, बी। बोल्कर और एस। वॉकर। 2015 lme4 का उपयोग करके रैखिक मिश्रित-प्रभाव वाले मॉडल फिटिंग। जे स्टेट। सॉफ्टवेयर 67: 1-48।

बोल्कर, बीएम, एमई ब्रूक्स, सीजे क्लार्क, एसड गेंज, जेआर पॉल्सेन, एमएचएच स्टीवंस और जे व्हाइट। सामान्यीकृत रैखिक मिश्रित मॉडल: पारिस्थितिकी और विकास के लिए एक व्यावहारिक मार्गदर्शिका। पारिस्थितिकी और विकास में रुझान 127-135।

जीलीस ए।, सी। केलीबर सी और एस। जैकमैन 2008. आरजे स्टेट में डेटा की गणना के लिए प्रतिगमन मॉडल। सॉफ्टवेयर। 27: 1-25

ज़्यूर एएफ, एन इने, एन वाकर, एए सेवेलिव, और जीएम स्मिथ। 2009. मिश्रित प्रभाव मॉडल और पारिस्थितिकी में आर स्प्रिंगर, एनवाई, यूएसए के साथ एक्सटेंशन।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.