1 और 0 सहित अनुपात डेटा का बीटा प्रतिगमन


19

मैं एक मॉडल का उत्पादन करने की कोशिश कर रहा हूं जिसके लिए मेरे पास एक प्रतिक्रिया चर है जो 0 और 1 के बीच का अनुपात है, इसमें काफी कुछ 0 और 1 s शामिल हैं, लेकिन बीच में कई मान भी शामिल हैं। मैं बीटा प्रतिगमन का प्रयास करने के बारे में सोच रहा हूं। आर (बीट्रेग) के लिए मुझे जो पैकेज मिला है, वह केवल 0 और 1 के बीच के मूल्यों को अनुमति देता है, लेकिन उन्हें 0 या 1 शामिल नहीं करता है। मैंने कहीं और पढ़ा है कि सैद्धांतिक रूप से बीटा वितरण 0 या 1 के मूल्यों को संभालने में सक्षम होना चाहिए, लेकिन मुझे नहीं पता कि आरआई में इसे कैसे संभालना है, कुछ लोगों ने शून्य से 0.001 जोड़कर और 0.001 लोगों से लेने के लिए देखा है, लेकिन मैं नहीं हूं यकीन है कि यह एक अच्छा विचार है?

वैकल्पिक रूप से मैं प्रतिक्रिया चर को परिवर्तित कर सकता था और रैखिक प्रतिगमन का उपयोग कर सकता था। इस मामले में मुझे 0 और 1 के साथ वही समस्या है जो लॉग रूपांतरित नहीं की जा सकती है।


यह जानते हुए कि मायने रखता है --not सिर्फ अनुपात - कोई फर्क नहीं पड़ता कि आप क्या करते महत्वपूर्ण है। लेकिन एक बार जब आपके पास मायने रखता है, तो विचार करने वाला पहला मॉडल, भले ही यह केवल प्रस्थान का बिंदु हो, लॉजिस्टिक प्रतिगमन है।
whuber

खैर, एक बीटा 0 और 1 के बीच है ( लगभग निश्चित रूप से )। यदि आप उन्हें देखते हैं तो आपको एक मॉडल का उपयोग करना चाहिए जो आपके नमूने का निरीक्षण करने का मौका देता है। जवाब के एक जोड़े को इस तरह के दृष्टिकोण को कवर करने के लिए लगता है; मैं उनके साथ शुरू करूँगा।
Glen_b -Reinstate मोनिका

जवाबों:


19

आप शून्य- और / या एक फुलाए हुए बीटा रिग्रेशन मॉडल का उपयोग कर सकते हैं जो क्रमशः 0 और 1 को कुछ संभाव्यता प्रदान करने के लिए पतले वितरण के साथ बीटा वितरण को मिलाते हैं। जानकारी के लिए निम्नलिखित संदर्भ देखें:

ओस्पिना, आर।, और फेरारी, एसएलपी (2010)। बँधा हुआ बीटा वितरण। सांख्यिकीय कागजात, 51 (1), 111-126। ओस्पिना, आर।, और फेरारी, एसएलपी (2012)। शून्य-या-एक फुलाया गया बीटा प्रतिगमन मॉडल का एक सामान्य वर्ग। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण, 56 (6), 1609 - 1623।

ये मॉडल आर के लिए गेमल्स पैकेज के साथ लागू करना आसान है।


क्या आपके पास आर पर उन्हें लागू करने का एक उदाहरण है?
ऑइस्टिटी

2
@Ouistiti zoibपैकेज इसे आसानी से करता है।
मार्क व्हाइट

12

आर betaregपैकेज के लिए प्रलेखन में उल्लेख किया गया है कि

अगर y भी चरम सीमा 0 और 1 को मानता है, तो व्यवहार में एक उपयोगी परिवर्तन है (y * (n) 1) + 0.5) / n जहां n नमूना आकार है।

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

वे संदर्भ स्मिथसन एम, वेरकुइलेन जे (2006) देते हैं। "एक बेहतर नींबू निचोड़नेवाला; बीटा-वितरित आश्रित चर के साथ अधिकतम-संभावना प्रतिगमन।" मनोवैज्ञानिक तरीके, 11 (1), 54–71।


1

क्या आप एक परिवर्तन को शून्य से अनंत से लेकर चर तक अनंत बनाने के लिए एक परिवर्तन नहीं करते हैं? मुझे यकीन नहीं है कि अगर 0 और 1 वाले डेटा में कोई समस्या होनी चाहिए। क्या यह कोई त्रुटि संदेश दिखा रहा है? वैसे, यदि आपके पास केवल अनुपात है तो आपका विश्लेषण हमेशा गलत होगा। आपको मामलों की संख्या के साथ उपयोग weight=argumentकरने की आवश्यकता है glm

यदि कुछ भी काम नहीं करता है, तो आप एक मध्ययुगीन विभाजन या एक चतुर्थक विभाजन या जो भी कट बिंदु आप उचित समझ सकते हैं का उपयोग करके DV को कई श्रेणियों में विभाजित कर सकते हैं और फिर इसके बजाय एक साधारण लॉजिस्टिक प्रतिगमन चला सकते हैं। यह काम कर सकता है। इन चीजों को आजमाएं।

मैं व्यक्तिगत रूप से यह नहीं सोचता कि शून्य को 0.001 में जोड़ना और 0.001 लोगों से लेना बहुत बुरा विचार है, लेकिन इसमें कुछ समस्याएं हैं जिन पर बाद में चर्चा की जाएगी। जरा सोचिए, आप 0.000000001 (या दशमलव से अधिक) क्यों नहीं जोड़ते और घटाते हैं? यह बेहतर 0 और 1 का प्रतिनिधित्व करेगा !! यह आपको लग सकता है कि इससे बहुत फर्क नहीं पड़ता। लेकिन यह वास्तव में करता है।

आइए निम्नलिखित देखें:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

तो, आप देखते हैं, आपको बाधाओं को (0/1) और (1/0) के करीब रखने की आवश्यकता है। आप माइनस इनफिनिटी से लेकर प्लस इनफिनिटी तक लॉग लॉग की उम्मीद करते हैं। तो, जोड़ने या घटाने के लिए, आपको वास्तव में लंबे दशमलव स्थान तक चुनने की आवश्यकता है, ताकि लॉग ऑड्स अनंत (या बहुत बड़ी) के करीब हो जाए !! जिस सीमा तक आप पर्याप्त रूप से विचार करेंगे, पूरी तरह आप पर निर्भर करता है।


1

निम्नलिखित की जाँच करें, जहां एक तदर्थ परिवर्तन का उल्लेख किया गया है maartenbuis.nl/pretations/berlin10.pdf 17 स्लाइड पर। इसके अलावा, आप 0 और 1 को दो अलग-अलग लॉजिस्टिक रेजिमेंट के साथ मॉडलिंग कर सकते हैं और फिर उन सीमाओं पर बीटा प्रतिगमन का उपयोग कर सकते हैं जो सीमा पर नहीं हैं।


1
(y*(n-1)+0.5)/nn

1

"द एनालाइजेशन फैक्टर" में करेन ग्रेस-मार्टिन द्वारा 'जीरो-वन इन्फ्लाटेड बीटा मॉडल्स' पर एक मौजूदा ऑनलाइन रिव्यू पीस , प्रस्तावित समाधान (2013 में मैटी ओ द्वारा ऊपर उल्लिखित) को रेखांकित करते हुए, 0,1 घटना को संबोधित किया। । गैर-तकनीकी समीक्षा से भागों को उद्धृत करने के लिए:

इसलिए यदि कोई ग्राहक 30 दिनों में से 30 दवाएँ लेता है, तो बीटा प्रतिगमन नहीं चलेगा। डेटा सेट में आपके पास कोई 0s या 1s नहीं हो सकता है।

ज़ीरो-वन इन्फ्लेटेड बीटा मॉडल

हालाँकि, बीटा रिग्रेशन मॉडल का एक संस्करण है जो इस स्थिति में काम कर सकता है। यह उन मॉडलों में से एक है जो थोड़ी देर के लिए सिद्धांत के आसपास रहे हैं, लेकिन केवल पिछले कुछ वर्षों में (कुछ) मुख्यधारा के भौगोलिक सॉफ्टवेयर में उपलब्ध हो गए हैं।

इसे ज़ीरो-वन-इन्फ्लेस्ड बीटा कहा जाता है और यह ज़ीरो-इन्फ्लेस्ड पॉइज़न मॉडल की तरह बहुत काम करता है।

यह एक प्रकार का मिश्रण मॉडल है जो कहता है कि वास्तव में तीन प्रक्रियाएं चल रही हैं।

एक ऐसी प्रक्रिया है जो शून्य और गैर शून्य के बीच अंतर करती है। विचार यह है कि गुणात्मक रूप से कुछ अलग है उन लोगों के बारे में जो अपनी दवा कभी नहीं लेने वालों की तुलना में कम से कम कभी-कभी लेते हैं।

इसी तरह, एक प्रक्रिया है जो लोगों और गैर-लोगों के बीच अंतर करती है। फिर, उन लोगों के बारे में गुणात्मक रूप से कुछ अलग है जो हमेशा अपनी दवा लेते हैं जो कभी-कभी या कभी नहीं करते हैं।

और फिर एक तीसरी प्रक्रिया है जो यह निर्धारित करती है कि यदि कोई व्यक्ति कुछ समय के लिए अपनी दवा लेता है।

पहली और दूसरी प्रक्रिया एक लॉजिस्टिक रिग्रेशन के माध्यम से और तीसरी एक बीटा रिग्रेशन के माध्यम से चलाई जाती है।

इन तीन मॉडलों को एक साथ चलाया जाता है। उनमें से प्रत्येक के पास भविष्यवक्ताओं का अपना सेट और गुणांक का अपना सेट हो सकता है ...

वितरण के आकार के आधार पर, आपको तीनों प्रक्रियाओं की आवश्यकता नहीं हो सकती है। यदि डेटा सेट में शून्य नहीं हैं, तो आपको केवल 1 पर मुद्रास्फीति को समायोजित करने की आवश्यकता हो सकती है।

यह अत्यधिक लचीला है और आपके डेटा विश्लेषण टूलबॉक्स में महत्वपूर्ण विकल्प जोड़ता है। "

यहां 'जोइब: एन आर पैकेज फॉर बेयसियन इन्वेंशन फॉर बीटा रिग्रेशन एंड जीरो / वन इन्फ्लेस्ड बीटा रिग्रेशन' के लिए एक और हालिया दिसंबर 2015 तकनीकी पेपर स्रोत भी है । लेखक नोट करते हैं कि y चर, शून्य / एक फुलाया हुआ बीटा (ZOIB) प्रतिगमन मॉडल (ओं) में लागू किया जा सकता है, जब y बंद इकाई अंतराल [0, 1] से मान लेता है। जाहिरा तौर पर, ज़ोइब मॉडल मानता है कि यिज एक टुकड़ा करने योग्य वितरण (p.33 पर (1) में दर्शाया गया सिस्टम देखें)।


0

पीपी

,,

एक्स1,...,एक्सnnΣजे[ψ(Σमैंएक्समैं)-ψ(एक्सजे)]Σजे[ψ(Σमैं1-एक्समैं)-ψ(1-एक्सजे)]। ये आपके बीटा वितरण के मापदंडों पर वितरण के पैरामीटर हैं, जो आपके अनुपात को मॉडल करते हैं।


1
आप इस मेटा थ्रेड पर भाग लेना चाह सकते हैं। आंकड़े.मेटा.स्टैकएक्सचेंज.com
कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.