मान लें कि हम सममितीय वितरण पर विचार को सीमित करते हैं, जहां माध्य और विचरण परिमित हैं (इसलिए कॉची उदाहरण के लिए, विचार से बाहर रखा गया है)।
इसके अलावा, मैं खुद को शुरू में निरंतर अनिमॉडल मामलों तक सीमित रखने जा रहा हूं, और वास्तव में ज्यादातर 'अच्छी' स्थितियों में (हालांकि बाद में मैं वापस आ सकता हूं और कुछ अन्य मामलों पर चर्चा कर सकता हूं)।
सापेक्ष विचरण नमूना आकार पर निर्भर करता है। यह ( बार) स्पर्शोन्मुख भिन्नताओं के अनुपात पर चर्चा करना आम है , लेकिन हमें यह ध्यान रखना चाहिए कि छोटे नमूने के आकार में स्थिति कुछ अलग होगी। (माध्यक कभी-कभी अपने अस्मितापूर्ण व्यवहार की तुलना में कभी-कभी बेहतर या बदतर होता है। उदाहरण के लिए, n = 3 के साथ सामान्य रूप से 63% के बजाय लगभग 74% की दक्षता है। अस्मितावादी व्यवहार आमतौर पर काफी उदार के लिए एक अच्छा मार्गदर्शक है। नमूना आकार, हालांकि।)nn=3
स्पर्शोन्मुखता से निपटने के लिए काफी आसान हैं:
मीन: विचरण = σ 2 ।n×σ2
माध्यिका : विचरण = 1n× जहांएफ(एम)औसतन घनत्व की ऊंचाई है।1[4f(m)2]f(m)
अतः यदि , माध्य समान रूप से अधिक कुशल होगा।f(m)>12σ
[सामान्य मामले में, π , इसलिए1f(m)=12π√σ ,2/])की स्पर्शोन्मुख सापेक्ष दक्षता कोफुसफुसाते हुए]1[4f(m)2]=πσ222/π
हम देख सकते हैं कि माध्यिका का विचरण केंद्र के बहुत निकट घनत्व के व्यवहार पर निर्भर करेगा, जबकि माध्य का विचरण मूल वितरण के विचरण पर निर्भर करता है (जो किसी अर्थ में हर जगह घनत्व से प्रभावित होता है, और में विशेष रूप से, जिस तरह से यह केंद्र से आगे व्यवहार करता है उससे अधिक)
ऐसा कहना है, जबकि माध्य माध्य से आउटलेर्स से कम प्रभावित होता है, और हम अक्सर देखते हैं कि इसका मतलब है कि जब वितरण भारी होता है (जो अधिक आउटलेयर का उत्पादन करता है) की तुलना में इसका कम विचरण होता है, जो वास्तव में प्रदर्शन को बढ़ाता है। मंझला इनिशियल्स है । अक्सर ऐसा होता है कि (एक निश्चित विचरण के लिए) दोनों के लिए एक साथ जाने की प्रवृत्ति होती है।
यही कारण है, मोटे तौर पर, के रूप में पूंछ भारी हो जाता है, वहाँ के लिए एक प्रवृत्ति (की एक निश्चित मूल्य पर है वितरण) एक ही समय में "peakier" प्राप्त करने के लिए (अधिक kurtotic एक ढीला अर्थ में,)। हालांकि, यह एक निश्चित बात नहीं है - यह आमतौर पर मानी जाने वाली घनत्व की एक विस्तृत श्रृंखला के मामले में होता है, लेकिन यह कभी भी पकड़ नहीं रखता है। जब यह पकड़ करता है, मंझला के विचरण कम हो जाएगा (क्योंकि वितरण मंझला के तत्काल पड़ोस में अधिक आशंका होती है) है, जबकि माध्य का विचरण रखे हुए स्थिर है (क्योंकि हम तय σ 2 )।σ2σ2
इसलिए विभिन्न प्रकार के सामान्य मामलों में मध्यिका अक्सर "से बेहतर" होती है, जब पूंछ भारी होती है, (लेकिन हमें ध्यान रखना चाहिए कि यह काउंटरटेक्स का निर्माण करना अपेक्षाकृत आसान है)। इसलिए हम कुछ मामलों पर विचार कर सकते हैं, जो हमें दिखा सकते हैं कि हम अक्सर क्या देखते हैं, लेकिन हमें उनमें बहुत अधिक नहीं पढ़ना चाहिए, क्योंकि भारी पूंछ सार्वभौमिक रूप से उच्च शिखर के साथ नहीं जाती है।
हम जानते हैं कि औसतन औसत के रूप में 63.7% कुशल ( बड़े लिए ) के रूप में होता है।n
किस बारे में कहें, एक लॉजिस्टिक डिस्ट्रीब्यूशन, जो सामान्य की तरह केंद्र के बारे में लगभग परवलयिक है, लेकिन भारी पूंछ है (जैसे बड़े हो जाते हैं, वे घातीय हो जाते हैं)।x
अगर हम पैमाने पैरामीटर 1 होने के लिए, रसद विचरण है 1/4 की औसत पर और ऊंचाई है, तो 1π2/3। प्रसरण के अनुपात तो हैπ2/12≈0.82बड़े नमूनों में ऐसा है, मंझला मतलब के रूप में कुशल के रूप में मोटे तौर पर 82% है।14f(m)2=4π2/12≈0.82
आइए दो अन्य घनत्वों पर विचार करें जैसे कि घातीय पूंछ, लेकिन विभिन्न शिखर।
सबसे पहले, अतिशयोक्तिपूर्ण छेदक ( ) वितरणsech , जिसके लिए मानक फार्म के केंद्र में विचरण 1 और ऊंचाई है , इसलिए स्पर्शोन्मुख भिन्नता का अनुपात 1 है (दो बड़े नमूनों में समान रूप से कुशल हैं)। हालांकि, छोटे नमूनों में माध्य अधिक कुशल होता है (इसका विचरण लगभग 95% होता है जब माध्यिका के लिएn=5, उदाहरण के लिए)।12n=5
यहाँ हम देख सकते हैं कि जैसे-जैसे हम उन तीन घनत्वों (निरंतर विचरण को रोकते हैं) के माध्यम से आगे बढ़ते हैं, कि मध्य में ऊँचाई बढ़ती जाती है:
क्या हम इसे अब भी ऊंचा बना सकते हैं? वास्तव में हम कर सकते हैं। उदाहरण के लिए, डबल घातीय पर विचार करें । मानक रूप में विचरण 2 है, और मध्य पर ऊंचाई (इसलिए यदि हम चित्र में इकाई भिन्नता को मापते हैं, तो शिखर1 पर है12 , 0.7 के ऊपर)। माध्यिका का स्पर्शोन्मुख विचरण माध्य से आधा है।12√
यदि हम किसी दिए गए विचरण के लिए वितरण चोटी को अभी भी बनाते हैं, (शायद पूंछ को घातीय की तुलना में भारी बनाकर), तो माध्यक अभी भी अधिक कुशल (अपेक्षाकृत बोलने वाला) हो सकता है। इस बात की कोई सीमा नहीं है कि चोटी कितनी ऊंची जा सकती है।
अगर हमने इसके बजाय उदाहरणों का उपयोग किया था तो टी-डिस्ट्रीब्यूशन, मोटे तौर पर समान प्रभाव देखा जाएगा, लेकिन प्रगति अलग होगी; क्रॉसओवर पॉइंट df (वास्तव में लगभग 4.68) से थोड़ा नीचे है - छोटे df के लिए माध्यिका अधिक कुशल है, बड़े df के लिए माध्य है।ν=5
...
परिमित नमूना आकारों में, कभी-कभी माध्य के वितरण के विचरण को स्पष्ट रूप से गणना करना संभव है। जहां यह संभव नहीं है - या यहां तक कि सिर्फ असुविधाजनक - हम वितरण से खींचे गए यादृच्छिक नमूनों में माध्यिका के विचरण (या विचरण * के अनुपात) की गणना करने के लिए सिमुलेशन का उपयोग कर सकते हैं (जो कि मैंने छोटे नमूने के आंकड़े प्राप्त करने के लिए किया था) )।
* भले ही हम अक्सर वास्तव में मतलब के विचरण की जरूरत नहीं है, क्योंकि हम यह गणना कर सकते हैं अगर हम वितरण के विचरण को जानते हैं, तो ऐसा करने के लिए अधिक कम्प्यूटेशनल रूप से कुशल हो सकता है, क्योंकि यह एक नियंत्रण चर की तरह काम करता है (माध्य और मंझला अक्सर काफी सहसंबद्ध होता है)।