मैं सोच रहा था कि क्या कोई मुझे कर्टोसिस के बारे में जानकारी देने में मदद कर सकता है (यानी इसे कम करने के लिए आपके डेटा को बदलने का कोई तरीका है)?
मेरे पास बड़ी संख्या में मामलों और चर के साथ प्रश्नावली डेटासेट है। मेरे कुछ चरों के लिए, डेटा बहुत अधिक कर्टोसिस मूल्यों (यानी एक लेप्टोकर्टिक वितरण) को दर्शाता है, जो इस तथ्य से लिया गया है कि कई प्रतिभागियों ने चर के लिए सटीक समान स्कोर दिया था। मेरे पास विशेष रूप से बड़ा नमूना आकार है, इसलिए केंद्रीय सीमा प्रमेय के अनुसार, सामान्यता का उल्लंघन अभी भी ठीक होना चाहिए।
समस्या यह है कि तथ्य यह है कि विशेष रूप से उच्च स्तर के कर्टोसिस मेरे डेटासेट में कई गैर-बहिष्कृत प्रस्तोता पैदा कर रहे हैं। जैसे, भले ही मैं डेटा को रूपांतरित करता हूं, या आउटलेर्स को हटा / समायोजित करता हूं, कर्टोसिस के उच्च स्तर का मतलब है कि अगले सबसे चरम स्कोर स्वचालित रूप से आउटलेर बन जाते हैं। मेरा उपयोग करने का लक्ष्य है (भेदभावपूर्ण कार्य विश्लेषण)। DFA को सामान्यता से प्रस्थान के लिए मजबूत कहा जाता है बशर्ते कि उल्लंघन तिरछापन के कारण होता है और आउटलेर नहीं होता है। इसके अलावा, DFA को विशेष रूप से डेटा (Tabachnick & Fidel) में बाहरी लोगों द्वारा प्रभावित किया जाता है।
कैसे इस के आसपास पाने के लिए कोई विचार? (मेरा प्रारंभिक विचार कर्टोसिस को नियंत्रित करने का कुछ तरीका था, लेकिन क्या यह एक अच्छी बात नहीं है, अगर मेरा अधिकांश नमूना कुछ रेटिंग दे रहा है?)