क्या (सममित) वितरण नमूना माध्यिका की तुलना में अधिक कुशल अनुमानक है?

17

मैंने इस विश्वास के तहत लेबल किया है कि नमूना माध्य नमूना की तुलना में केंद्रीय प्रवृत्ति का अधिक मजबूत माप है, क्योंकि यह आउटलेर को अनदेखा करता है। इसलिए मुझे यह जानकर आश्चर्य हुआ ( एक अन्य प्रश्न के उत्तर में ) कि सामान्य वितरण से लिए गए नमूनों के लिए, नमूना माध्य का विचरण नमूना माध्यिका के विचरण से कम है (कम से कम बड़े $n$ )।

मैं गणितीय रूप से समझता हूं कि यह सच क्यों है। क्या इसे देखने का एक "दार्शनिक" तरीका है जो अन्य वितरण के लिए माध्य के बजाय मंझले का उपयोग करने के बारे में अंतर्ज्ञान के साथ मदद करेगा?

क्या ऐसे गणितीय उपकरण हैं जो किसी विशेष वितरण के लिए प्रश्न का तुरंत उत्तर देने में मदद करते हैं?

— जोश ब्राउन क्रेमर
स्रोत

20

मान लें कि हम सममितीय वितरण पर विचार को सीमित करते हैं, जहां माध्य और विचरण परिमित हैं (इसलिए कॉची उदाहरण के लिए, विचार से बाहर रखा गया है)।

इसके अलावा, मैं खुद को शुरू में निरंतर अनिमॉडल मामलों तक सीमित रखने जा रहा हूं, और वास्तव में ज्यादातर 'अच्छी' स्थितियों में (हालांकि बाद में मैं वापस आ सकता हूं और कुछ अन्य मामलों पर चर्चा कर सकता हूं)।

सापेक्ष विचरण नमूना आकार पर निर्भर करता है। यह ( बार) स्पर्शोन्मुख भिन्नताओं के अनुपात पर चर्चा करना आम है , लेकिन हमें यह ध्यान रखना चाहिए कि छोटे नमूने के आकार में स्थिति कुछ अलग होगी। (माध्यक कभी-कभी अपने अस्मितापूर्ण व्यवहार की तुलना में कभी-कभी बेहतर या बदतर होता है। उदाहरण के लिए, साथ सामान्य रूप से 63% के बजाय लगभग 74% की दक्षता है। अस्मितावादी व्यवहार आमतौर पर काफी उदार के लिए एक अच्छा मार्गदर्शक है। नमूना आकार, हालांकि।) $n$ $n=3$

स्पर्शोन्मुखता से निपटने के लिए काफी आसान हैं:

मीन: विचरण = । $n\times$ $\sigma^2$

माध्यिका : विचरण = $n\times$ जहांऔसतन घनत्व की ऊंचाई है। $\frac{1}{[4f(m)^2]}$ $f(m)$

अतः यदि , माध्य समान रूप से अधिक कुशल होगा। $f(m)>\frac{1}{2\sigma}$

[सामान्य मामले में, , इसलिए $f(m)= \frac{1}{\sqrt{2\pi}\sigma}$ ,])की स्पर्शोन्मुख सापेक्ष दक्षता को] $\frac{1}{[4f(m)^2]}=\frac{\pi\sigma^2}{2}$ $2/\pi$

हम देख सकते हैं कि माध्यिका का विचरण केंद्र के बहुत निकट घनत्व के व्यवहार पर निर्भर करेगा, जबकि माध्य का विचरण मूल वितरण के विचरण पर निर्भर करता है (जो किसी अर्थ में हर जगह घनत्व से प्रभावित होता है, और में विशेष रूप से, जिस तरह से यह केंद्र से आगे व्यवहार करता है उससे अधिक)

ऐसा कहना है, जबकि माध्य माध्य से आउटलेर्स से कम प्रभावित होता है, और हम अक्सर देखते हैं कि इसका मतलब है कि जब वितरण भारी होता है (जो अधिक आउटलेयर का उत्पादन करता है) की तुलना में इसका कम विचरण होता है, जो वास्तव में प्रदर्शन को बढ़ाता है। मंझला इनिशियल्स है । अक्सर ऐसा होता है कि (एक निश्चित विचरण के लिए) दोनों के लिए एक साथ जाने की प्रवृत्ति होती है।

यही कारण है, मोटे तौर पर, के रूप में पूंछ भारी हो जाता है, वहाँ के लिए एक प्रवृत्ति (की एक निश्चित मूल्य पर है वितरण) एक ही समय में "peakier" प्राप्त करने के लिए (अधिक kurtotic एक ढीला अर्थ में,)। हालांकि, यह एक निश्चित बात नहीं है - यह आमतौर पर मानी जाने वाली घनत्व की एक विस्तृत श्रृंखला के मामले में होता है, लेकिन यह कभी भी पकड़ नहीं रखता है। जब यह पकड़ करता है, मंझला के विचरण कम हो जाएगा (क्योंकि वितरण मंझला के तत्काल पड़ोस में अधिक आशंका होती है) है, जबकि माध्य का विचरण रखे हुए स्थिर है (क्योंकि हम तय )। $\sigma^2$ $\sigma^2$

इसलिए विभिन्न प्रकार के सामान्य मामलों में मध्यिका अक्सर "से बेहतर" होती है, जब पूंछ भारी होती है, (लेकिन हमें ध्यान रखना चाहिए कि यह काउंटरटेक्स का निर्माण करना अपेक्षाकृत आसान है)। इसलिए हम कुछ मामलों पर विचार कर सकते हैं, जो हमें दिखा सकते हैं कि हम अक्सर क्या देखते हैं, लेकिन हमें उनमें बहुत अधिक नहीं पढ़ना चाहिए, क्योंकि भारी पूंछ सार्वभौमिक रूप से उच्च शिखर के साथ नहीं जाती है।

हम जानते हैं कि औसतन औसत के रूप में 63.7% कुशल ( बड़े लिए ) के रूप में होता है। $n$

किस बारे में कहें, एक लॉजिस्टिक डिस्ट्रीब्यूशन, जो सामान्य की तरह केंद्र के बारे में लगभग परवलयिक है, लेकिन भारी पूंछ है (जैसे बड़े हो जाते हैं, वे घातीय हो जाते हैं)। $x$

अगर हम पैमाने पैरामीटर 1 होने के लिए, रसद विचरण है 1/4 की औसत पर और ऊंचाई है, तो $\pi^2/3$ । प्रसरण के अनुपात तो हैबड़े नमूनों में ऐसा है, मंझला मतलब के रूप में कुशल के रूप में मोटे तौर पर 82% है। $\frac{1}{4f(m)^2}=4$ $\pi^2/12\approx 0.82$

आइए दो अन्य घनत्वों पर विचार करें जैसे कि घातीय पूंछ, लेकिन विभिन्न शिखर।

सबसे पहले, अतिशयोक्तिपूर्ण छेदक ( ) वितरण $\text{sech}$ , जिसके लिए मानक फार्म के केंद्र में विचरण 1 और ऊंचाई है , इसलिए स्पर्शोन्मुख भिन्नता का अनुपात 1 है (दो बड़े नमूनों में समान रूप से कुशल हैं)। हालांकि, छोटे नमूनों में माध्य अधिक कुशल होता है (इसका विचरण लगभग 95% होता है जब माध्यिका के लिए, उदाहरण के लिए)। $\frac{1}{2}$ $n=5$

यहाँ हम देख सकते हैं कि जैसे-जैसे हम उन तीन घनत्वों (निरंतर विचरण को रोकते हैं) के माध्यम से आगे बढ़ते हैं, कि मध्य में ऊँचाई बढ़ती जाती है:

यहाँ छवि विवरण दर्ज करें

क्या हम इसे अब भी ऊंचा बना सकते हैं? वास्तव में हम कर सकते हैं। उदाहरण के लिए, डबल घातीय पर विचार करें । मानक रूप में विचरण 2 है, और मध्य पर ऊंचाई (इसलिए यदि हम चित्र में इकाई भिन्नता को मापते हैं, तो शिखर $\frac{1}{2}$ , 0.7 के ऊपर)। माध्यिका का स्पर्शोन्मुख विचरण माध्य से आधा है। $\frac{1}{\sqrt{2}}$

यदि हम किसी दिए गए विचरण के लिए वितरण चोटी को अभी भी बनाते हैं, (शायद पूंछ को घातीय की तुलना में भारी बनाकर), तो माध्यक अभी भी अधिक कुशल (अपेक्षाकृत बोलने वाला) हो सकता है। इस बात की कोई सीमा नहीं है कि चोटी कितनी ऊंची जा सकती है।

अगर हमने इसके बजाय उदाहरणों का उपयोग किया था तो टी-डिस्ट्रीब्यूशन, मोटे तौर पर समान प्रभाव देखा जाएगा, लेकिन प्रगति अलग होगी; क्रॉसओवर पॉइंट df (वास्तव में लगभग 4.68) से थोड़ा नीचे है - छोटे df के लिए माध्यिका अधिक कुशल है, बड़े df के लिए माध्य है। $\nu=5$

...

परिमित नमूना आकारों में, कभी-कभी माध्य के वितरण के विचरण को स्पष्ट रूप से गणना करना संभव है। जहां यह संभव नहीं है - या यहां तक कि सिर्फ असुविधाजनक - हम वितरण से खींचे गए यादृच्छिक नमूनों में माध्यिका के विचरण (या विचरण * के अनुपात) की गणना करने के लिए सिमुलेशन का उपयोग कर सकते हैं (जो कि मैंने छोटे नमूने के आंकड़े प्राप्त करने के लिए किया था) )।

* भले ही हम अक्सर वास्तव में मतलब के विचरण की जरूरत नहीं है, क्योंकि हम यह गणना कर सकते हैं अगर हम वितरण के विचरण को जानते हैं, तो ऐसा करने के लिए अधिक कम्प्यूटेशनल रूप से कुशल हो सकता है, क्योंकि यह एक नियंत्रण चर की तरह काम करता है (माध्य और मंझला अक्सर काफी सहसंबद्ध होता है)।

— Glen_b -Reinstate मोनिका
स्रोत

1

f (x) = \frac{1}{2} e^{- | x - μ |}, - \infty < x < \infty

$f(x) = \frac12 e^{-|x-\mu|} , \quad -\infty < x < \infty$

μ

$\mu$

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \dotsc , X_n$

2 / n

$2/n$

\frac{1}{4 n f (μ)^{2}} = \frac{1}{4 n / 4} = 1 / n < 2 / n

$\frac1{4 n f(\mu)^2} = \frac1{4 n / 4} = 1/n < 2/n$

$\sigma^2 = 1$ $1/n$ $n$ $\frac1{4 n (1/\sqrt{2\pi})^2} = \frac{\pi}{2 n} \approx 1.57/n > 1/n$

— kjetil b halvorsen
स्रोत