इस सवाल के बहुत सारे जवाब हैं। यहाँ एक है कि आप शायद कहीं और नहीं देखेंगे इसलिए मैं इसे यहाँ शामिल कर रहा हूँ क्योंकि मेरा मानना है कि यह विषय के अनुरूप है। लोग अक्सर यह मानते हैं कि क्योंकि माध्यिका को आउटलेर्स के संबंध में एक मजबूत उपाय माना जाता है कि यह सबसे ज्यादा मजबूत भी है। वास्तव में, यह तिरछा वितरण में पूर्वाग्रह के लिए भी मजबूत माना जाता है। मंझला के इन दो मजबूत गुणों को अक्सर एक साथ सिखाया जाता है। एक ध्यान दें कि अंतर्निहित तिरछे वितरण भी छोटे नमूने उत्पन्न करते हैं जो यह देखते हैं कि उनके पास आउटलेर और पारंपरिक ज्ञान है जो कि ऐसी स्थितियों में एक का उपयोग करता है।
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(बस एक प्रदर्शन है कि यह तिरछा है और मूल आकार है)
hist(rexg(1e4, 0, 1, 1))
अब, देखते हैं कि क्या होता है अगर हम इस वितरण से विभिन्न नमूना आकारों का नमूना लेते हैं और माध्यिका की गणना करते हैं और यह देखने के लिए कि उनके बीच अंतर क्या हैं।
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
जैसा कि उपरोक्त कथानक से देखा जा सकता है कि माध्यिका (लाल रंग में) माध्य से n के प्रति अधिक संवेदनशील है। यह कुछ पारंपरिक ज्ञान के विपरीत है जिसमें निम्न एन एस के साथ मध्यस्थों का उपयोग किया जाता है, खासकर यदि वितरण तिरछा हो सकता है। और, यह इस बात को पुष्ट करता है कि माध्य एक ज्ञात मूल्य है, जबकि माध्य अन्य गुणों के प्रति संवेदनशील है, एक यदि n है।
यह विश्लेषण मिलर, जे (1988) के समान है। मंझला प्रतिक्रिया समय के बारे में एक चेतावनी। प्रायोगिक मनोविज्ञान जर्नल: मानव धारणा और प्रदर्शन , 14 (3): 539-543।
संशोधन
तिरछे मुद्दे के बारे में सोचने पर मैंने विचार किया कि मंझला पर प्रभाव सिर्फ इसलिए हो सकता है क्योंकि छोटे नमूनों में आपको इस बात की अधिक संभावना होती है कि माध्य वितरण की पूंछ में है, जबकि माध्य लगभग हमेशा मूल्यों द्वारा भारित होगा। मोड। इसलिए, शायद अगर कोई सिर्फ आउटलेर की संभावना के साथ नमूना ले रहा था, तो शायद वही परिणाम आएंगे।
इसलिए मैंने उन स्थितियों के बारे में सोचा जहां आउटलेयर हो सकते हैं और प्रयोगकर्ता उन्हें खत्म करने का प्रयास कर सकते हैं।
यदि आउटलेर्स लगातार होता है, जैसे कि डेटा के हर एक नमूने में एक, तो मेडियन इस आउटलाइडर के प्रभाव के खिलाफ मजबूत होते हैं और मेडियन होल्ड के उपयोग के बारे में पारंपरिक कहानी।
लेकिन यह आमतौर पर नहीं है कि चीजें कैसे जाती हैं।
किसी प्रयोग के बहुत कम प्रकोष्ठों में कोई बाहरी व्यक्ति मिल सकता है और इस मामले में माध्य के बजाय माध्यिका का उपयोग करने का निर्णय ले सकता है। फिर, मंझला अधिक मजबूत है, लेकिन यह वास्तविक प्रभाव अपेक्षाकृत कम है क्योंकि बहुत कम आउटलेयर हैं। यह निश्चित रूप से एक अधिक सामान्य मामला होगा फिर ऊपर वाला लेकिन एक माध्यिका का उपयोग करने का प्रभाव शायद इतना छोटा होगा कि यह ज्यादा मायने नहीं रखेगा।
शायद अधिक सामान्यतः आउटलेयर डेटा का एक यादृच्छिक घटक हो सकता है। उदाहरण के लिए, जनसंख्या का सही माध्य और मानक विचलन लगभग 0 हो सकता है, लेकिन उस समय का एक प्रतिशत जहां हम एक बाहरी आबादी से नमूना लेते हैं, जहां माध्य 3 है। निम्नलिखित सिमुलेशन पर विचार करें, जहां ऐसी जनसंख्या का नमूना अलग-अलग होता है आकार।
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
माध्यिका लाल रंग में होती है और काले रंग में होती है। यह एक तिरछी वितरण के समान है।
माध्यकों के उपयोग के अपेक्षाकृत व्यावहारिक उदाहरण में बाहरी लोगों के प्रभाव से बचने के लिए एक ऐसी स्थितियों के साथ आ सकता है जहां अनुमान n से अधिक प्रभावित होता है जब माध्य का उपयोग किए जाने की तुलना में माध्यिका का उपयोग किया जाता है।