कई अच्छे उत्तर अभी भी अधिक टिप्पणियों के लिए जगह छोड़ते हैं।
सबसे पहले, किसी ने इस विचार पर आपत्ति नहीं जताई है कि मध्यमा आउटलेर्स को खत्म करने का इरादा है, लेकिन मैं इसे योग्य करूंगा। अभिप्रेत अर्थ स्पष्ट है, लेकिन वास्तविक डेटा के लिए अधिक जटिल होना आसान है। अधिकांश में, माध्य को छूट देने या आउटलेर्स को नजरअंदाज करने का इरादा है, लेकिन यह भी गारंटी नहीं है। उदाहरण के लिए, 1 1 1 5 5 5 की रेटिंग के साथ माध्य और माध्य 3 पर सहमत हैं, इसलिए सभी अच्छे लग सकते हैं। लेकिन एक अतिरिक्त 5 माध्यिका को 5 तक टिप करेगा और एक अतिरिक्त 1 माध्यिका को 1. को टिप देगा। प्रत्येक मामले में माध्य लगभग 0.286 होगा। इसलिए माध्यिका की तुलना में माध्य यहाँ अधिक प्रतिरोधी है। उदाहरण को असामान्य के रूप में खारिज किया जा सकता है, लेकिन यह अपमानजनक नहीं है। बात मूल नहीं है, स्वाभाविक रूप से। एक जगह जो इसे बनाया गया है वह मोस्टेलर, एफ और टुकी, जेडब्ल्यू 1977 में है। डेटा विश्लेषण और प्रतिगमन। पढ़ना, एमए: एडिसन-वेस्ले, पीपी .3-35।
दूसरा, छंटनी के साधनों का उल्लेख किया गया है और विचार एक बड़ा धक्का देने के योग्य है। मीन और माध्य को स्टार्क विकल्प की आवश्यकता नहीं है, ताकि विश्लेषक को एक (दूसरे के लिए वोट) चुनना पड़े। आप प्रत्येक पूंछ में मूल्यों की एक निश्चित संख्या को ट्रिम करने के आधार पर सभी संभव ट्रिम किए गए साधनों पर विचार कर सकते हैं । तालिका माध्य की गणना में शामिल मानों की संख्या # के रूप में दिखाती है:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
यहां मुख्य तस्वीर यह है कि आप अपने डिस्काउंट रेट (प्रत्येक पूंछ में इतने मूल्यों को संदेह के रूप में अनदेखा कर सकते हैं) को अत्यधिक मूल्यों के कारण बंद होने के जोखिम के खिलाफ एक प्रकार का बीमा चुन सकते हैं। मैं जो देख रहा हूं वह माध्य और माध्यिका के बीच काफी सहज ढाल है, जो यहां अपेक्षित है क्योंकि 1, 2, 3, 4, 5 सभी मान डेटा में मौजूद हैं। अनुक्रम में एक बड़ी छलांग एक अलग-थलग के साथ होने की उम्मीद है।
प्रत्येक पूंछ में समान संख्याओं को ट्रिम करने के लिए ट्रिम किए गए साधनों के साथ कोई दायित्व नहीं है, लेकिन मैं उस पर विस्तार नहीं करूंगा।
तीसरा, उदाहरण अमेज़ॅन समीक्षाओं का है। संदर्भ हमेशा मार्गदर्शक में प्रासंगिक है कि आप डेटा को कैसे सारांशित करना चाहते हैं । अमेज़ॅन की समीक्षा के मामले में सबसे अच्छा जवाब समीक्षाओं को पढ़ना है! जैसा कि उच्च और निम्न ग्रेड एक जैसा होता है, जो सहज ज्ञान युक्त आधार पर होता है (संक्षेप में: इस पुस्तक के लेखक मेरे मित्र हैं) और / या आपके निर्णय के लिए अप्रासंगिक (स्पष्ट रूप से: पुनः विक्रेता ने मेरे साथ बुरा बर्ताव किया है), मेरे लिए कोई स्पष्ट बात नहीं है इस तरह के डेटा को संक्षेप में प्रस्तुत करने के लिए निहितार्थ, और वास्तव में आपको वितरण दिखा कर अमेज़ॅन को अधिकतम जानकारीपूर्ण बनाया जा रहा है।
चौथा, और सबसे प्राथमिक, लेकिन सभी का मौलिक, जो आपको चुन रहा है? कभी-कभी माध्य और मध्य दोनों को सूचित किया जाना चाहिए (और, जैसा कि कहा गया है, एक वितरण ग्राफ भी)।