मैं निम्नलिखित समस्या पर आपकी सलाह की बहुत सराहना करूंगा:
मुझे बहुत सारे शून्य (~ 95%) के साथ एक बड़ा निरंतर डेटासेट मिला है और मुझे यह जांचने का सबसे अच्छा तरीका खोजने की आवश्यकता है कि क्या इसके कुछ सबसेट "दिलचस्प" हैं, यानी समान वितरण से आहरित नहीं होते हैं बाकी। शून्य मुद्रास्फीति इस तथ्य से आती है कि प्रत्येक डेटा बिंदु सही और नमूना दोनों शून्य के साथ एक गणना माप पर आधारित है, लेकिन परिणाम निरंतर है क्योंकि यह गणना द्वारा भारित कुछ अन्य मापदंडों को ध्यान में रखता है (और यदि गणना शून्य है, तो परिणाम शून्य भी है)।
क्या सबसे अच्छा तरीका होगा यह करने का? मुझे लगता है कि विलकॉक्सन और यहां तक कि जानवर-बल के क्रमपरिवर्तन परीक्षण अपर्याप्त हैं क्योंकि वे इन शून्य से तिरछे हो जाते हैं। गैर-शून्य माप पर ध्यान केंद्रित करना भी सच्चे शून्य को हटा देता है जो अत्यंत महत्वपूर्ण हैं। गणना डेटा के लिए शून्य-फुलाया गया मॉडल अच्छी तरह से विकसित है, लेकिन मेरे मामले के लिए अनुपयुक्त है।
मैंने डेटा पर ट्वीडी वितरण को फिट करने पर विचार किया और फिर प्रतिक्रिया = f (subset_label) पर एक चमक फिट की। सैद्धांतिक रूप से, यह संभव प्रतीत होता है, लेकिन मैं सोच रहा हूं कि क्या (ए) यह ओवरकिल है और (बी) अभी भी स्पष्ट रूप से यह मान लेगा कि सभी शून्य नमूना शून्य हैं, अर्थात एक क्रमांकन के रूप में उसी तरह (सबसे अच्छे रूप में) पक्षपाती होगा?
सहज रूप से, ऐसा लगता है कि कुछ प्रकार के पदानुक्रमित डिज़ाइन हैं जो शून्य के अनुपात के आधार पर एक द्विपद सांख्यिकीय को जोड़ती है और कहते हैं, गैर-शून्य मानों (या, बेहतर अभी भी, गैर-शून्य मान) के अंश के साथ पूरक एक विलकॉक्सन सांख्यिकीय कुछ पूर्व पर आधारित शून्य)। एक बायेसियन नेटवर्क की तरह लगता है ...
उम्मीद है कि मैं इस समस्या से जूझने वाला पहला व्यक्ति नहीं हूं, इसलिए यदि आप मुझे उपयुक्त मौजूदा तकनीकों की ओर इशारा कर सकते हैं तो बहुत आभारी होंगे ...
बहुत धन्यवाद!