शून्य ने वितरण को फुलाया, वे वास्तव में क्या हैं?


15

मैं शून्य फुलाए हुए वितरण को समझने के लिए संघर्ष कर रहा हूं। वे क्या हैं? क्या बात है?

यदि मेरे पास कई शून्य के साथ डेटा है, तो मैं एक लॉजिस्टिक रिग्रेशन फिट कर सकता हूं सबसे पहले जीरो की संभावना की गणना करें, और फिर मैं सभी जीरो को हटा सकता हूं, और फिर मेरी पसंद के वितरण (पॉइसन जैसे) का उपयोग करके एक नियमित रिग्रेशन फिट कर सकता हूं।

फिर किसी ने मुझसे कहा "हे, एक शून्य फुलाया हुआ वितरण का उपयोग करें", लेकिन इसे देखते हुए, यह ऊपर दिए गए सुझाव से अलग कुछ भी नहीं लगता है? यह एक नियमित पैरामीटर , और फिर शून्य की संभावना मॉडल करने के लिए एक और पैरामीटर पी ? यह सिर्फ एक ही समय में दोनों चीजें नहीं करता है?μp


3
आप सभी शून्य क्यों निकालते हैं? आप इसे एक साथ कर सकते हैं, आप पहले 0 और 1 की संभावना की गणना करते हैं और उस वजन को अपने पॉइसन वितरण के लिए उपयोग करते हैं जो कि शून्य फुलाया हुआ मॉडल (वितरण) है। इसे पढ़ें, यह काफी स्पष्ट है। enikwipedia.org/wiki/Zero-inflated_model
दीप उत्तर

जवाबों:


13

एक लॉजिस्टिक रिग्रेशन फिट करें सबसे पहले जीरो की संभावना की गणना करें, और फिर मैं सभी जीरो को हटा सकता हूं, और फिर मेरी पसंद के वितरण के लिए एक रेगुलर रिग्रेशन फिट कर सकता हूं (जैसे पिसोन)

आप बिल्कुल सही कह रहे है। यह शून्य-फुलाए गए मॉडल को फिट करने का एक तरीका है (या जैसा कि अचिम जीलीस टिप्पणियों में बताते हैं, यह कड़ाई से एक "बाधा मॉडल" है, जिसे कोई एक शून्य-फुलाया गया मॉडल के विशेष मामले के रूप में देख सकता है)।

आपके द्वारा वर्णित प्रक्रिया और "ऑल-इन-वन" शून्य-फुलाया गया मॉडल के बीच का अंतर त्रुटि प्रसार है। आंकड़ों में अन्य सभी दो-चरण प्रक्रियाओं की तरह, चरण 2 में आपकी भविष्यवाणियों की समग्र अनिश्चितता अनिश्चितता को ध्यान में नहीं रखेगी कि क्या भविष्यवाणी 0 होनी चाहिए या नहीं।

कभी-कभी यह एक आवश्यक बुराई है। सौभाग्य से, इस मामले में यह आवश्यक नहीं है। आर में, आप उपयोग कर सकते हैं pscl::hurdle()या fitdistrplus::fitdist()


क्या आप इसे समझा सकते हैं "चरण 2 में आपकी भविष्यवाणियों की समग्र अनिश्चितता अनिश्चितता को ध्यान में नहीं रखेगी कि क्या भविष्यवाणी 0 होनी चाहिए या नहीं"? जब आप एक ज़िप पॉइसन करते हैं तो आप पॉसन मॉडल की संभावना फ़ंक्शन के पहले भाग की संभावना को कई गुणा करेंगे, इसलिए चरण 2 में 0 या 1. की अनिश्चितता को ध्यान में रखा जाएगा
डीप नॉर्थ

1
P(Y=1|X=x)=0.510.51

3
@ssdecontrol आमतौर पर इसे शून्य-फुलाया गया मॉडल नहीं बल्कि बाधा मॉडल (जैसे, pscl::hurdle()) कहा जाता है। और शून्य के बिना डेटा के लिए नियोजित वितरण को उचित रूप से प्राप्त करने के लिए शून्य-छंटनी की जानी चाहिए (या पहले स्थान पर किसी शून्य का नेतृत्व नहीं करना चाहिए)। अधिक विवरण के लिए मेरा उत्तर देखें।
अचिम जाइलिस

9

आपके द्वारा वर्णित मूल विचार एक वैध दृष्टिकोण है और इसे अक्सर शून्य-प्रवाह मॉडल के बजाय एक बाधा मॉडल (या दो-भाग मॉडल) कहा जाता है ।

हालाँकि, यह महत्वपूर्ण है कि शून्य शून्य डेटा के लिए मॉडल शून्य हटा दिया जाए। यदि आप शून्य के बिना डेटा के लिए एक पॉइसन मॉडल फिट करते हैं तो यह निश्चित रूप से एक खराब फिट का उत्पादन करेगा क्योंकि पॉइसन वितरण में हमेशा शून्य के लिए सकारात्मक संभावना है। प्राकृतिक विकल्प शून्य-काट-छाँट पॉइसन वितरण का उपयोग करना है जो गिनती डेटा के लिए बाधा प्रतिगमन के लिए क्लासिक दृष्टिकोण है।

शून्य-फुलाए गए मॉडल और बाधा मॉडल के बीच मुख्य अंतर यह है कि संभावना प्रतिगमन के बाइनरी भाग में मॉडलिंग की जाती है। बाधा मॉडल के लिए यह केवल शून्य बनाम गैर-शून्य की संभावना है। शून्य-फुलाए गए मॉडल में यह एक अतिरिक्त शून्य होने की संभावना है , अर्थात, एक शून्य की संभावना जो संयुक्त राष्ट्र-फुलाए गए वितरण (जैसे, पॉइसन) के कारण नहीं है।

आर में गणना डेटा के लिए बाधा और शून्य-मुद्रास्फीति मॉडल दोनों की चर्चा के लिए, जेएसएस में प्रकाशित हमारी पांडुलिपि देखें और psclपैकेज के लिए एक विगनेट के रूप में भी भेजें : http://dx.doi.org/10.18637/jss.v027.i08


7

Ssdecontrol ने जो कहा वह बहुत सही है। लेकिन मैं चर्चा में कुछ सेंट जोड़ना चाहूंगा।

मैंने अभी YouTube पर रिचर्ड मैकलेरथ द्वारा गणना डेटा के लिए ज़ीरो इंफ्लेस्ड मॉडल पर व्याख्यान देखा था ।

यह शुद्ध पोइसन मॉडल की दर की व्याख्या करने वाले चर के लिए पी का अनुमान लगाने के लिए समझ में आता है, विशेष रूप से यदि आप मानते हैं कि पॉसों के वितरण से उत्पन्न मनाया गया शून्य का मौका 100% नहीं है।

जीरो ने मल्टीलेवल मॉडल के रूप में वितरण को फुलाया

यह तब भी मायने रखता है जब आप मॉडल के मापदंडों पर विचार करते हैं, क्योंकि आप अनुमान लगाने के लिए दो चर के साथ समाप्त होते हैं, पी और पॉइसन मॉडल की दर, और दो समीकरण, जब गिनती शून्य होती है और जब गिनती भिन्न होती है तो मामला शून्य।

छवि स्रोत: सांख्यिकीय रीथिंकिंग - ए बेसेसियन कोर्स विथ एग्ज़ाम्पल इन आर एंड स्टैन बाय रिचर्ड मैकलेरेथ

संपादित करें : टाइपो


सीखने की सामग्री के संदर्भ की सराहना की जाती है ... लेकिन यह सवाल का जवाब कैसे देता है? यह एक उत्तर के रूप में पोस्ट की गई टिप्पणी की तरह दिखता है ...
RTbecard
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.