परिकल्पना शून्य फुलाया निरंतर डेटा पर परीक्षण


10

मैं निम्नलिखित समस्या पर आपकी सलाह की बहुत सराहना करूंगा:

मुझे बहुत सारे शून्य (~ 95%) के साथ एक बड़ा निरंतर डेटासेट मिला है और मुझे यह जांचने का सबसे अच्छा तरीका खोजने की आवश्यकता है कि क्या इसके कुछ सबसेट "दिलचस्प" हैं, यानी समान वितरण से आहरित नहीं होते हैं बाकी। शून्य मुद्रास्फीति इस तथ्य से आती है कि प्रत्येक डेटा बिंदु सही और नमूना दोनों शून्य के साथ एक गणना माप पर आधारित है, लेकिन परिणाम निरंतर है क्योंकि यह गणना द्वारा भारित कुछ अन्य मापदंडों को ध्यान में रखता है (और यदि गणना शून्य है, तो परिणाम शून्य भी है)।

क्या सबसे अच्छा तरीका होगा यह करने का? मुझे लगता है कि विलकॉक्सन और यहां तक ​​कि जानवर-बल के क्रमपरिवर्तन परीक्षण अपर्याप्त हैं क्योंकि वे इन शून्य से तिरछे हो जाते हैं। गैर-शून्य माप पर ध्यान केंद्रित करना भी सच्चे शून्य को हटा देता है जो अत्यंत महत्वपूर्ण हैं। गणना डेटा के लिए शून्य-फुलाया गया मॉडल अच्छी तरह से विकसित है, लेकिन मेरे मामले के लिए अनुपयुक्त है।

मैंने डेटा पर ट्वीडी वितरण को फिट करने पर विचार किया और फिर प्रतिक्रिया = f (subset_label) पर एक चमक फिट की। सैद्धांतिक रूप से, यह संभव प्रतीत होता है, लेकिन मैं सोच रहा हूं कि क्या (ए) यह ओवरकिल है और (बी) अभी भी स्पष्ट रूप से यह मान लेगा कि सभी शून्य नमूना शून्य हैं, अर्थात एक क्रमांकन के रूप में उसी तरह (सबसे अच्छे रूप में) पक्षपाती होगा?

सहज रूप से, ऐसा लगता है कि कुछ प्रकार के पदानुक्रमित डिज़ाइन हैं जो शून्य के अनुपात के आधार पर एक द्विपद सांख्यिकीय को जोड़ती है और कहते हैं, गैर-शून्य मानों (या, बेहतर अभी भी, गैर-शून्य मान) के अंश के साथ पूरक एक विलकॉक्सन सांख्यिकीय कुछ पूर्व पर आधारित शून्य)। एक बायेसियन नेटवर्क की तरह लगता है ...

उम्मीद है कि मैं इस समस्या से जूझने वाला पहला व्यक्ति नहीं हूं, इसलिए यदि आप मुझे उपयुक्त मौजूदा तकनीकों की ओर इशारा कर सकते हैं तो बहुत आभारी होंगे ...

बहुत धन्यवाद!


अपडेट करें। अब तक, मैंने इस पेपर को मेरी जैसी समस्या को संबोधित करते हुए पाया है: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

मैं सोच रहा हूं कि क्या यह बेहद सरलीकृत सन्निकटन समझ में आता है, यह देखते हुए कि शून्य पूर्ण बहुमत बनाते हैं: 1) प्रत्येक सबसेट में शून्य के अनुपात का पता लगाएं। 2) मान लें कि सबसे छोटी संख्या वाले शून्य के साथ सबसेट में सभी शून्य सही हैं। 3) प्रत्येक सबसेट से, सबसे "शून्य-समृद्ध" डेटासेट में शून्य के अनुपात के बराबर शून्य के अनुपात को हटा दें। 4) इस संशोधित डेटासेट पर मानक गैर-पैरामीट्रिक आँकड़े चलाएँ।
a11msp

आपकी पहली टिप्पणी में कागज के लिए हाइपरलिंक मृत प्रतीत होता है। क्या आप इसके बजाय एक प्रशस्ति पत्र प्रदान कर सकते हैं?
जूल 5'19

1
इसे इंगित करने के लिए धन्यवाद: doi.org/10.1007/s10651-005-6817-1
a11msp

जवाबों:


9

@ एलएसपी, मुझे लगता है कि आप उस लगाव में दो चरण के मॉडल को देख रहे हैं (मेरे पास इसे पढ़ने का समय नहीं है), लेकिन शून्य फुलाया हुआ निरंतर डेटा वह प्रकार है जो मैं बहुत काम करता हूं। इस डेटा के लिए एक पैरामीट्रिक मॉडल फिट करने के लिए (परिकल्पना परीक्षणों की अनुमति देने के लिए) आप एक दो चरण फिट कर सकते हैं, लेकिन फिर आपके पास दो मॉडल हैं (Y लक्ष्य है और X सहसंयोजक हैं): P (Y = 0 | X) और P (Y) एक्स, वाई> 0)। आपको इनको एक साथ "लाने" के लिए सिमुलेशन का उपयोग करना होगा। गेलमैन्स बुक (और आर में आर्म पैकेज) इस सटीक मॉडल के लिए इस प्रक्रिया को दर्शाता है (लॉग लिंक के साथ लॉजिस्टिक प्रतिगमन और साधारण रैखिक प्रतिगमन का उपयोग करके)।

दूसरा विकल्प जो मैंने देखा है और बेहतर है, एक शून्य फुलाए हुए गामा प्रतिगमन को फिट करना है, जो ऊपर के समान है (लेकिन गेशियन के बजाय त्रुटि के रूप में गामा) और आप उन्हें पी (वाई। एक्स) पर परिकल्पना परीक्षणों के लिए एक साथ ला सकते हैं। । मुझे नहीं पता कि आर में यह कैसे करना है, लेकिन आप SAS NLMIXED में कर सकते हैं। इस पोस्ट को देखें , यह अच्छी तरह से काम करता है।


@B_Miner, आपके उत्तर के लिए बहुत बहुत धन्यवाद, क्षमा करें आपके पास वोट करने के लिए पर्याप्त रेटिंग नहीं है ... मैं लिंक पर एक नज़र डालूंगा! सशर्त मॉडल के बारे में मेरी एकमात्र चिंता यह है कि वे यह कहते हैं कि शून्य दूसरे (निरंतर) घटक से संबंधित नहीं हैं, क्या मैं सही हूं? क्या मेरी सेटिंग मिश्रण मॉडल की तरह थोड़ा अधिक महसूस नहीं करती है? तुम क्या सोचते हो?
a11msp

मैंने अब गेलमैन पुस्तक में प्रस्तावित दो-चरण दृष्टिकोण को दोहराया है। यदि सबसेट_फैक्टर (25 स्तरों के साथ) सबसेट लेबल के रूप में कार्य करता है, तो पहला कदम fit1 = glm (प्रतिक्रिया ~ सबसेट_फैक्टर, परिवार = द्विपद) है; और दूसरा चरण fit2 = lm (प्रतिक्रिया ~ subset_factor, subset = response> 0) है। मैं तब सिमुलेशन चला सकता हूं क्योंकि वे प्रत्येक कारक स्तर के लिए फिट प्रतिक्रिया मूल्यों के वितरण को प्राप्त करने का वर्णन करते हैं। हालाँकि, मैं अभी भी अनिश्चित हूं कि मैं इसका अनुवाद कैसे करूं जो मुझे चाहिए, जो (ए) संभावना है कि गुणांक शून्य नहीं हैं और (बी) अलग-अलग कारक स्तरों पर गुणांक के बीच अंतर का महत्व है।
a11msp

दो चरण दृष्टिकोण (दो अलग मॉडल के जेलमैन विधि) दो आबादी को मानते हैं, जो शून्य पर हैं और ऊपर वाले।
B_Miner

... तो क्या यह कहना उचित होगा कि यदि जेलमैन की पद्धति में दोनों में से किसी एक में कुछ कारक स्तर का प्रभाव महत्वपूर्ण है (और कुछ अन्य कारक स्तर से काफी अलग है) तो यह समग्र रूप से महत्वपूर्ण है?
a11msp

1
हां, दो चरण दृष्टिकोण (दो अलग मॉडल का जेलमैन विधि) दो आबादी को मानता है, शून्य पर और उन> 0. परिकल्पना परीक्षणों के संबंध में, क्या आप उन्हें इनपुट के अलग-अलग स्तरों के लिए अनुमानित मूल्यों के संदर्भ में फ्रेम कर सकते हैं और अनुभवजन्य निर्माण कर सकते हैं। आत्मविश्वास अंतराल प्रत्येक के लिए सिमुलेशन से संबंधित है? गुणांक के लिए परिकल्पना परीक्षणों के लिए! = 0, आपको दोनों मॉडलों के लिए अलग-अलग परीक्षण करने की आवश्यकता है।
B_Miner

2

फ्लेचर पेपर के लिए एक समान दृष्टिकोण का उपयोग विपणन परीक्षण में किया जाता है, जहां हम मध्यस्थता के प्रभावों को अलग कर सकते हैं (जैसे विज्ञापन) में (ए) ब्रांड खरीदने वाले नंबर में बदलाव (यानी जीरो का अनुपात) और (बी) बैंड खरीदने की आवृत्ति में परिवर्तन (बिक्री दी गई बिक्री होती है)। यह विपणन संदर्भ में और पारिस्थितिक संदर्भ में फ्लेचर चर्चा के लिए एक ठोस दृष्टिकोण और वैचारिक रूप से सार्थक है। वास्तव में, इसे (c) प्रत्येक खरीद के आकार में परिवर्तन के लिए बढ़ाया जा सकता है।


धन्यवाद! मैं सोच रहा था कि क्या आप इस के मौजूदा r कार्यान्वयन के बारे में जानते हैं?
a11msp

1

आप शून्य की अज्ञात संख्या का इलाज कर सकते हैं, लेकिन 0 और शून्य की देखी गई संख्या के बीच विवश हैं। यह निश्चित रूप से मॉडल के एक बायेसियन सूत्रीकरण का उपयोग करके नियंत्रित किया जा सकता है। हो सकता है कि एक बहु प्रतिनियुक्ति विधि भी शून्य अवलोकन के वजन (0 और 1 के बीच) के अनुसार अलग-अलग हो सकती है ...

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.