छंटनी का मतलब बनाम मंझला


9

मेरे पास एक आपातकालीन सेवा के लिए किए गए सभी कॉल और एम्बुलेंस विभाग के प्रतिक्रिया समय के साथ एक डेटा सेट है। उन्होंने स्वीकार किया कि प्रतिक्रिया समय के साथ कुछ गलतियां हैं क्योंकि ऐसे मामले हैं जहां उन्होंने रिकॉर्डिंग शुरू नहीं की है (इसलिए मान 0 है) या जहां उन्होंने घड़ी को बंद नहीं किया (इसलिए मूल्य बहुत अधिक हो सकता है)।

मैं केंद्रीय प्रवृत्ति का पता लगाना चाहता हूं और मैं सोच रहा था कि क्या आउटलाइन से छुटकारा पाने के लिए माध्यिका या छंटनी का उपयोग करना बेहतर है?


1
सबसे पहले, मैं सभी अमान्य डेटा (मान = 0) हटाऊंगा। फिर मैं हिस्टोग्राम या बॉक्स प्लॉट के साथ डेटा की कल्पना करूंगा कि मैं कहां खड़ा हूं। क्योंकि आप 10% खराब डेटा को केवल आँख बंद करके ट्रिम नहीं कर सकते हैं ...
alesc

हाँ, या CDF प्लॉट करें। आर में, ऐसा करें: बार = बार [समय> 0]; प्लॉट (इक्डीएफ (समय))
पॉल

जवाबों:


12

इस बात पर विचार करें कि एक छंटनी का क्या मतलब है: प्रोटोटाइप मामले में, आप पहले अपने डेटा को बढ़ते क्रम में क्रमबद्ध करते हैं। फिर आप नीचे से ट्रिमिंग प्रतिशत तक की गणना करते हैं और उन मूल्यों को छोड़ देते हैं। उदाहरण के लिए एक 10% छंटनी का मतलब आम है; उस स्थिति में, जब तक आप अपने सेट में सभी डेटा का 10% पारित नहीं कर लेते, तब तक आप सबसे कम मूल्य से गिनती करते हैं। उस चिह्न के नीचे के मान अलग सेट किए गए हैं। इसी तरह, जब तक आप अपना ट्रिमिंग प्रतिशत पास नहीं कर लेते, तब तक आप सबसे अधिक मूल्य से नीचे गिने जाते हैं, और सभी मूल्यों को एक तरफ से अधिक सेट करते हैं। अब आप 80% मध्य में रह गए हैं। आप इसका मतलब निकालते हैं, और यह आपका 10% छंटनी का मतलब है। (ध्यान दें कि आप दो पूंछों से असमान अनुपातों को ट्रिम कर सकते हैं, या केवल एक पूंछ को ट्रिम कर सकते हैं, लेकिन ये दृष्टिकोण कम सामान्य हैं और आपकी स्थिति के अनुसार लागू नहीं होते हैं।)

अब सोचें कि अगर आपने 50% छंटनी का मतलब निकाला तो क्या होगा। नीचे का आधा भाग अलग होगा, जैसा कि शीर्ष आधा होगा। आपको मध्य में केवल एक ही मूल्य (क्रमिक रूप से) छोड़ा जाएगा। आप इसका मतलब निकाल लेंगे (जो कि कहना है, आप बस मान लेंगे) हालांकि, ध्यान दें कि मूल्य औसत है। दूसरे शब्दों में, माध्य एक छंटनी माध्य है (यह 50% छंटनी माध्य है)। यह सिर्फ एक बहुत ही आक्रामक है। यह मानता है, संक्षेप में, कि आपके डेटा का 99% दूषित है। यह आपको शक्ति / दक्षता के अंतिम नुकसान की कीमत पर आउटलेर्स के खिलाफ अंतिम सुरक्षा प्रदान करता है ।

मेरा अनुमान है कि एक माध्य / 50% छंटनी का मतलब आपके डेटा के लिए आवश्यक की तुलना में बहुत अधिक आक्रामक है, और आपके लिए उपलब्ध जानकारी से बहुत अधिक बेकार है। यदि आपके पास आउटलेयर के अनुपात का कोई अर्थ है, तो मैं उस जानकारी का उपयोग ट्रिमिंग प्रतिशत सेट करने और उचित छंटनी के माध्यम का उपयोग करने के लिए करूंगा। यदि आपके पास ट्रिमिंग प्रतिशत चुनने के लिए कोई आधार नहीं है, तो आप क्रॉस सत्यापन द्वारा एक का चयन कर सकते हैं, या केवल एक अवरोधन के साथ एक मजबूत प्रतिगमन विश्लेषण का उपयोग कर सकते हैं।


1
मैं इस भावना से सहमत हूं, लेकिन इसे गलत माना जा सकता है कि छंटनी का मतलब जरूरी है कि प्रत्येक पूंछ में समान अंशों को ट्रिम करने पर आधारित हो। यह सिर्फ सामान्य प्रक्रिया है, और प्रक्रिया सबसे अधिक लगभग सममित के संदर्भ मामले के लिए चर्चा की जाती है, लेकिन संभवतः वसा-बट्टा वितरण, लेकिन यह किसी भी तरह से अनिवार्य नहीं है। केवल एक पूंछ में ट्रिमिंग पर एक साहित्य है, जो समझ में आता है जब पूंछ में सभी संदिग्ध मान हो सकते हैं।
निक कॉक्स

@ नाइकॉक्स, अच्छी बात है। मैंने स्पष्ट करने के लिए एक छोटा पाठ जोड़ा है। मुझे पता है अगर आपको लगता है कि यह अधिक की जरूरत है।
गूँग - मोनिका

अछा लगता है। स्वाभाविक रूप से एक पूंछ में ट्रिमिंग केवल असमान अनुपात का विशेष मामला है जहां एक अनुपात शून्य है।
निक कॉक्स

@NickCox, निश्चित, लेकिन मुझे लगा कि यह स्पष्ट होना बेहतर हो सकता है।
गूँग - मोनिका

-1

सबसे पहले, अमान्य डेटा को हटा दें।

दूसरे, आपको आउटलेर्स को हटाने की आवश्यकता नहीं है क्योंकि वे मान देखे जाते हैं। कुछ मामलों में, यह उपयोगी है (रैखिक प्रतिगमन की तरह) लेकिन आपके मामले में मुझे बात नहीं दिख रही है।

अंत में, माध्यिका का उपयोग करना पसंद करें क्योंकि यह आपके डेटा के केंद्र को खोजने के लिए अधिक सटीक है। जैसा कि आपने कहा, माध्य आउटलेर्स के प्रति संवेदनशील हो सकता है (छंटनी का मतलब पक्षपाती हो सकता है)।


3
चूंकि स्थान का अनुमान प्रतिगमन का एक विशेष मामला है, इसलिए मुझे यह जानने के लिए उत्सुक होना चाहिए कि यह उत्तरार्द्ध में आउटलेर्स को हटाने के लिए कैसे उपयोगी हो सकता है लेकिन पूर्व मामले में नहीं।
user603
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.