कर्टोसिस द्वारा निर्मित आउटलायर्स का उपचार


10

मैं सोच रहा था कि क्या कोई मुझे कर्टोसिस के बारे में जानकारी देने में मदद कर सकता है (यानी इसे कम करने के लिए आपके डेटा को बदलने का कोई तरीका है)?

मेरे पास बड़ी संख्या में मामलों और चर के साथ प्रश्नावली डेटासेट है। मेरे कुछ चरों के लिए, डेटा बहुत अधिक कर्टोसिस मूल्यों (यानी एक लेप्टोकर्टिक वितरण) को दर्शाता है, जो इस तथ्य से लिया गया है कि कई प्रतिभागियों ने चर के लिए सटीक समान स्कोर दिया था। मेरे पास विशेष रूप से बड़ा नमूना आकार है, इसलिए केंद्रीय सीमा प्रमेय के अनुसार, सामान्यता का उल्लंघन अभी भी ठीक होना चाहिए।

समस्या यह है कि तथ्य यह है कि विशेष रूप से उच्च स्तर के कर्टोसिस मेरे डेटासेट में कई गैर-बहिष्कृत प्रस्तोता पैदा कर रहे हैं। जैसे, भले ही मैं डेटा को रूपांतरित करता हूं, या आउटलेर्स को हटा / समायोजित करता हूं, कर्टोसिस के उच्च स्तर का मतलब है कि अगले सबसे चरम स्कोर स्वचालित रूप से आउटलेर बन जाते हैं। मेरा उपयोग करने का लक्ष्य है (भेदभावपूर्ण कार्य विश्लेषण)। DFA को सामान्यता से प्रस्थान के लिए मजबूत कहा जाता है बशर्ते कि उल्लंघन तिरछापन के कारण होता है और आउटलेर नहीं होता है। इसके अलावा, DFA को विशेष रूप से डेटा (Tabachnick & Fidel) में बाहरी लोगों द्वारा प्रभावित किया जाता है।

कैसे इस के आसपास पाने के लिए कोई विचार? (मेरा प्रारंभिक विचार कर्टोसिस को नियंत्रित करने का कुछ तरीका था, लेकिन क्या यह एक अच्छी बात नहीं है, अगर मेरा अधिकांश नमूना कुछ रेटिंग दे रहा है?)

जवाबों:


8

आपकी समस्या को हल करने का स्पष्ट "सामान्य ज्ञान" तरीका है

  1. पूर्ण डेटा सेट का उपयोग करके निष्कर्ष प्राप्त करें । यानी इंटरमीडिएट गणना की अनदेखी करने पर आप क्या परिणाम घोषित करेंगे?
  2. निकाले गए "आउटलेर्स" के साथ सेट किए गए डेटा का उपयोग करके निष्कर्ष प्राप्त करें । यानी इंटरमीडिएट गणना की अनदेखी करने पर आप क्या परिणाम घोषित करेंगे?
  3. चरण 1 के साथ चरण 2 की तुलना करें
  4. अगर कोई अंतर नहीं है, तो भूल जाइए कि आपको भी कोई समस्या है। आउटलेर्स आपके निष्कर्ष के लिए अप्रासंगिक हैं । बाहरी लोग कुछ अन्य निष्कर्षों को प्रभावित कर सकते हैं जो इन आंकड़ों का उपयोग करके तैयार किए गए हो सकते हैं, लेकिन यह आपके काम के लिए अप्रासंगिक है। यह किसी और की समस्या है।
  5. यदि कोई अंतर है, तो आपके पास मूल रूप से "विश्वास" का सवाल है। क्या ये "आउटलेयर" इस ​​अर्थ में वास्तविक हैं कि वे वास्तव में आपके विश्लेषण के बारे में कुछ दर्शाते हैं? या "आउटलेयर" खराब हैं कि वे कुछ "दूषित स्रोत" से आते हैं?

स्थिति 5 में आपके पास मूल रूप से क्या-कभी "मॉडल" का एक मामला है जिसे आपने "आबादी" का वर्णन करने के लिए उपयोग किया है वह अधूरा है - ऐसे विवरण हैं जो अनिर्दिष्ट हो गए हैं, लेकिन जो निष्कर्ष पर मायने रखते हैं। इसे हल करने के दो तरीके हैं, दो "ट्रस्ट" परिदृश्यों के अनुसार:

  1. अपने मॉडल में कुछ अतिरिक्त संरचना जोड़ें ताकि "आउटलेयर" का वर्णन हो। तो के बजाय , पर विचार ।P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. एक "मॉडल-मॉडल" बनाएं, एक "अच्छी" टिप्पणियों के लिए, और एक "खराब" टिप्पणियों के लिए। इसलिए बजाय आप का प्रयोग करेंगे , u थे प्राप्त करने की संभावना आपके नमूने में एक "अच्छा" अवलोकन, और जी और बी "अच्छा" और "खराब" डेटा के लिए मॉडल का प्रतिनिधित्व करते हैं।P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

अधिकांश "मानक" प्रक्रियाओं को इस प्रकार के मॉडल के लिए अनुमानित किया जा सकता है। सबसे स्पष्ट एक मामला 1 पर विचार करके है, जहां विचरण को अवलोकनों में स्थिर माना गया है। एक वितरण में इस धारणा को आराम करने से आपको मिश्रण वितरण मिलता है। यह "सामान्य" और "टी" वितरणों के बीच संबंध है। सामान्य ने विचरण को तय कर दिया है, जबकि "टी" अलग-अलग रूपों में मिश्रण करता है, "मिश्रण" की मात्रा स्वतंत्रता की डिग्री पर निर्भर करती है। उच्च डीएफ का मतलब है कम मिश्रण (आउटलेयर की संभावना नहीं है), कम डीएफ का मतलब है उच्च मिश्रण (आउटलेयर की संभावना है)। वास्तव में आप केस 2 को केस 1 के विशेष मामले के रूप में ले सकते हैं, जहां "अच्छी" टिप्पणियां सामान्य हैं, और "खराब" अवलोकन कैची (1 डीएफ के साथ टी) हैं।


क्या एक उत्कृष्ट जवाब है, @probabilityislogic
पीटर Flom

बस एक स्पष्ट नोट: इष्टतम वर्गीकरण के लिए सच्चे बहुभिन्नरूपी वितरण के ज्ञान की आवश्यकता होती है। यदि आप इन वितरणों को अच्छी तरह से अनुमान लगा सकते हैं, तो परिणामी वर्गीकरण फ़ंक्शन लगभग इष्टतम है। आउटलेर्स (जैसा कि कर्टोसिस द्वारा इंगित किया गया है) वास्तव में समस्याग्रस्त हैं, क्योंकि इस क्षेत्र में घनत्व का अनुमान लगाने के लिए कोई कम डेटा नहीं है। बहुभिन्नरूपी आंकड़ों के साथ, आयामीता का अभिशाप भी इस समस्या में योगदान देता है।
पीटर वेस्टफॉल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.