माध्यिका की तुलना में अलग-अलग नमूनों में माध्य अधिक स्थिर क्यों होता है?


22

एंडी फील्ड्स, एट ऑल, आर ऑल का उपयोग करके खोज सांख्यिकी की धारा 1.7.2 , औसत बनाम माध्य के गुणों को सूचीबद्ध करते हुए, बताती है:

... मतलब अलग-अलग नमूनों में स्थिर होता है।

मंझला के कई गुणों की व्याख्या करने के बाद, जैसे

... वितरण के किसी भी छोर पर औसतन चरम स्कोर से औसतन अप्रभावित है ...

यह देखते हुए कि मध्ययुगीन चरम स्कोर से अपेक्षाकृत अप्रभावित है, मैंने सोचा होगा कि यह नमूनों में अधिक स्थिर होगा। इसलिए मैं लेखकों के जोर से हैरान था। पुष्टि करने के लिए मैंने एक सिमुलेशन चलाया - मैंने 1M यादृच्छिक संख्याएँ उत्पन्न कीं और 100 नंबरों की 1000 बार गणना की और प्रत्येक नमूने के माध्य और माध्यिका की गणना की और फिर उन नमूना साधनों और माध्यकों की एसडी गणना की।

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

जैसा कि आप देख सकते हैं कि माध्यकों की तुलना में साधन अधिक कसकर वितरित किए जाते हैं।

यहां छवि विवरण दर्ज करें

संलग्न छवि में लाल हिस्टोग्राम मंझला लोगों के लिए है - जैसा कि आप देख सकते हैं कि यह कम लंबा है और इसमें फैटर टेल है जो लेखक के दावे की पुष्टि करता है।

मैं इस से भड़क रहा हूँ, हालांकि! माध्यिका जो अधिक स्थिर है वह अंततः नमूनों में अधिक भिन्न हो सकती है? यह विरोधाभास लगता है! किसी भी अंतर्दृष्टि की सराहना की जाएगी।


1
हाँ, लेकिन अंक से नमूना करके इसे आज़माएं <- rt (n = 10 ** 6, 1.1)। यह t1.1 वितरण अत्यधिक मूल्यों का एक गुच्छा देगा, जरूरी नहीं कि सकारात्मक और नकारात्मक के बीच संतुलित हो (बस एक और सकारात्मक चरम मूल्य प्राप्त करने का एक अच्छा मौका एक संतुलन के लिए नकारात्मक चरम मूल्य के रूप में), जो में एक विशाल विचरण का कारण होगा । यह वही है जो औसत के खिलाफ ढाल देता है। सामान्य वितरण किसी विशेष रूप से चरम मानों को ध्यान में रखते हुए। X वितरण को विस्तृत करने के लिए देने की संभावना नहीं है । x¯x¯
डेव

10
लेखक का कथन आम तौर पर सही नहीं है। (हमें इस लेखक की पुस्तकों में त्रुटियों से संबंधित कई प्रश्न यहां मिले हैं, इसलिए यह कोई आश्चर्य की बात नहीं है।) मानक प्रतिपक्ष "स्थिर वितरण" के बीच पाए जाते हैं , जहां अर्थ कुछ भी हो लेकिन "स्थिर" (किसी भी उचित अर्थ में) शब्द) और माध्यिका कहीं अधिक स्थिर है।
whuber

1
"... मतलब अलग-अलग नमूनों में स्थिर होता है।" एक बकवास कथन है। "स्थिरता" अच्छी तरह से परिभाषित नहीं है। (नमूना) माध्य वास्तव में एकल नमूने में काफी स्थिर है क्योंकि यह एक गैर-आयामी मात्रा है। यदि डेटा "अस्थिर" (उच्च चर?) का मतलब "अस्थिर" भी है।
एडमो जूल

1
इस प्रश्न का उत्तर आँकड़ों पर दिए गए विस्तृत विश्लेषणों से दिया जा सकता है। आँकड़े backchange.com/questions/7307 , जिसमें एक ही प्रश्न एक विशिष्ट तरीके से पूछा जाता है (जहाँ "स्थिर" की भावना अच्छी तरह से परिभाषित है)।
whuber

2
के rnormसाथ बदलने का प्रयास करें rcauchy
एरिक टावर्स

जवाबों:


3

मंझला बाहरी रूप से मजबूत है, लेकिन शोर के लिए अतिसंवेदनशील है। यदि आप प्रत्येक बिंदु पर शोर की एक छोटी राशि का परिचय देते हैं, तो यह औसत दर्जे का तब तक प्रवेश करेगा जब तक कि शोर बिंदुओं के सापेक्ष क्रम को न बदलने के लिए पर्याप्त छोटा हो। मतलब के लिए यह दूसरा रास्ता है। शोर का औसत निकाल दिया जाता है, लेकिन एक एकल रूपरेखा मनमाने ढंग से बदल सकती है।

आपका परीक्षण ज्यादातर शोर करने के लिए मजबूती को मापता है, लेकिन आप आसानी से एक बना सकते हैं जहां माध्य बेहतर प्रदर्शन करता है। यदि आप एक अनुमानक चाहते हैं जो आउटलेयर और शोर दोनों के लिए मजबूत है, तो बस ऊपर और नीचे तीसरे को फेंक दें और शेष को औसत करें।


क्या "33% ट्रिम किए गए माध्य " की तुलना में इस एल्गोरिथम का अधिक विशिष्ट नाम है ?
डेविड कैरी

25

जैसा कि @whuber और अन्य लोगों ने कहा है, बयान सामान्य रूप से सही नहीं है। और अगर आप अधिक सहज होने के लिए तैयार हैं - मैं यहाँ चारों ओर गहरे गणित गीक्स के साथ नहीं रख सकता हूँ - आप अन्य तरीकों से देख सकते हैं और माध्य स्थिर हैं या नहीं। इन उदाहरणों के लिए, विषम संख्या में अंकों का अनुमान लगाएं ताकि मैं अपने विवरण को सुसंगत और सरल रख सकूं।

  1. कल्पना कीजिए कि आपने एक संख्या रेखा पर बिंदुओं का प्रसार किया है। अब कल्पना कीजिए कि आप सभी बिंदुओं को बीच से ऊपर ले जाएं और उन्हें 10x मान तक ले जाएं। मंझला अपरिवर्तित है, मतलब काफी बढ़ गया। तो माध्यिका अधिक स्थिर लगती है।

  2. अब कल्पना कीजिए कि ये बिंदु काफी फैले हुए हैं। केंद्र बिंदु को ऊपर और नीचे ले जाएं। एक-इकाई की चाल से माध्यिका में एक परिवर्तन होता है, लेकिन मुश्किल से इसका मतलब होता है। मंझला अब एक बिंदु के छोटे आंदोलनों के लिए कम स्थिर और अधिक संवेदनशील लगता है।

  3. अब उच्चतम बिंदु लेने की कल्पना करें और इसे उच्चतम से निम्नतम बिंदु तक आसानी से ले जाएं। मध्यमान भी आसानी से चलेगा। लेकिन माध्यिका लगातार नहीं चलेगी: यह तब तक नहीं चलेगी जब तक कि आपका उच्च बिंदु पिछले मंझले की तुलना में कम नहीं हो जाता है, तब तक वह बिंदु का अनुसरण करना शुरू कर देता है जब तक कि वह अगले बिंदु से नीचे नहीं जाता है, तब तक माध्य उस बिंदु से चिपक जाता है और फिर से doesn जब आप अपनी बात को नीचे की ओर ले जाते हैं, तो आप आगे नहीं बढ़ते हैं। [प्रति टिप्पणी संपादित]

तो आपके बिंदुओं के अलग-अलग रूपांतरों का मतलब या तो माध्य या कुछ अर्थों में कम चिकना या स्थिर दिखना है। यहां गणित के भारी-भरकम हिटरों ने आपको वे वितरण दिखाए हैं जिनसे आप नमूना ले सकते हैं, जो आपके प्रयोग से अधिक निकटता से मेल खाते हैं, लेकिन उम्मीद है कि यह अंतर्ज्ञान भी मदद करता है।


1
आइटम 3 के बारे में: मंझला भी आसानी से नहीं चलेगा? अंक का प्रारंभिक सेट है [1, 3, 5, 7, 9]। प्रारंभ में माध्यिका है 5। पांचवां बिंदु (शुरू में 9) नीचे गिरने तक वह मध्य में रहेगा 5, जिस बिंदु पर माध्य सुचारू रूप से पांचवें बिंदु का अनुसरण करेगा, जब तक कि वह कम न हो जाए, जब तक कि वह उस बिंदु पर न हो जाए, जब तक 3कि मध्य पर रहेगा 3। इसलिए भले ही मध्य बिंदु को परिभाषित करने वाला बिंदु "जंपिंग" हो (तीसरे बिंदु से, पांचवें बिंदु तक, दूसरे बिंदु तक), मध्यिका के वास्तविक मूल्य में कोई छलांग / असंतोष नहीं है।
स्कॉट एम

@ScottM आपको सही लगता है। मुझे यकीन नहीं था कि मुझे लगा कि यह कूद जाएगा। मौका मिलने पर मैं फिर से हाजिर होऊंगा।
वेन

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR। नमूना माध्य और नमूना माध्य की स्पर्शोन्मुख भिन्नता क्रमशः इस प्रकार दी गई है:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

इसलिए हमारे पास है:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


बहुत बढ़िया! धन्यवाद।
आलोक लाल

4

टिप्पणी: बस अपने अनुकरण को प्रतिध्वनित करने के लिए, एक वितरण का उपयोग करना जिसके लिए एसडी के साधन और मध्यस्थों का विपरीत परिणाम है:

विशेष रूप से, numsअब एक लाप्लास वितरण (जिसे 'डबल एक्सपोनेंशियल' भी कहा जाता है) से लिया जाता है, जिसे समान दर (यहां डिफ़ॉल्ट दर 1) के साथ दो घातीय वितरण के अंतर के रूप में अनुकरण किया जा सकता है। [शायद लाप्लास वितरण पर विकिपीडिया देखें ।]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

यहां छवि विवरण दर्ज करें

नोट: एक और आसान संभावना, जिसका स्पष्ट रूप से @ व्हिबर लिंक में उल्लेख किया गया है, कॉची है, जिसे स्टूडेंट के टी डिस्ट्रीब्यूशन के रूप में एक डिग्री की स्वतंत्रता के साथ अनुकरण किया जा सकता है rt(10^6, 1)। हालांकि, इसकी पूंछ इतनी भारी है कि एक अच्छा हिस्टोग्राम बनाना समस्याग्रस्त है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.