क्या हार्मोनिक के लिए मानक विचलन की गणना की जा सकती है? मैं समझता हूं कि मानक विचलन की गणना अंकगणितीय माध्य के लिए की जा सकती है, लेकिन यदि आपके पास हार्मोनिक मतलब है, तो आप मानक विचलन या सीवी की गणना कैसे करते हैं?
क्या हार्मोनिक के लिए मानक विचलन की गणना की जा सकती है? मैं समझता हूं कि मानक विचलन की गणना अंकगणितीय माध्य के लिए की जा सकती है, लेकिन यदि आपके पास हार्मोनिक मतलब है, तो आप मानक विचलन या सीवी की गणना कैसे करते हैं?
जवाबों:
हार्मोनिक माध्य का यादृच्छिक चर के रूप में परिभाषित किया गया है
अंशों का क्षण लेना एक गन्दा व्यवसाय है, इसलिए इसके बजाय मैं साथ काम करना पसंद करूँगा । अभी
Usin केंद्रीय सीमा प्रमेय हम तुरंत प्राप्त करते हैं
यदि निश्चित रूप से और iid हैं, क्योंकि हम चर अंकगणितीय माध्य के साथ सरल काम करते हैं ।
अब फ़ंक्शन लिए डेल्टा विधि का उपयोग करके हम इसे प्राप्त करते हैं
यह परिणाम स्पर्शोन्मुख है, लेकिन सरल अनुप्रयोगों के लिए यह पर्याप्त हो सकता है।
अपडेट As @whuber सही-सही इंगित करता है, सरल अनुप्रयोग एक मिथ्या नाम है। केंद्रीय सीमा प्रमेय केवल तभी धारण करता है यदि मौजूद है, जो काफी प्रतिबंधात्मक धारणा है।
अद्यतन 2 यदि आपके पास एक नमूना है, तो मानक विचलन की गणना करने के लिए, बस नमूना क्षणों को सूत्र में प्लग करें। तो नमूने के लिए , हार्मोनिक माध्य का अनुमान है
नमूना क्षणों और क्रमशः हैं:
यहाँ पारस्परिक के लिए खड़ा है।
अंत में मानक विचलन के लिए अनुमानित सूत्र है
मैंने कुछ मोंटे-कार्लो सिमुलेशन चलाए जिन्हें यादृच्छिक रूप से समान रूप से अंतराल में वितरित किया गया था । यहाँ कोड है:
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
मैंने आकार के N
नमूने के n
नमूने लिए। प्रत्येक n
आकार के नमूने के लिए मैंने मानक अनुमान (फ़ंक्शन sdhm
) के अनुमान की गणना की । फिर मैं इन अनुमानों के माध्य और मानक विचलन की तुलना प्रत्येक नमूने के लिए अनुमानित हार्मोनिक माध्य के नमूना मानक विचलन के साथ करता हूं, जो संभवतः हार्मोनिक माध्य का सही मानक विचलन होना चाहिए।
जैसा कि आप देख सकते हैं कि मध्यम नमूना आकार के लिए भी परिणाम काफी अच्छे हैं। बेशक समान वितरण एक बहुत अच्छा व्यवहार है, इसलिए यह आश्चर्यजनक नहीं है कि परिणाम अच्छे हैं। मैं अन्य वितरण के लिए व्यवहार की जांच करने के लिए किसी और को छोड़ दूंगा, कोड को अनुकूलित करना बहुत आसान है।
नोट: इस उत्तर के पिछले संस्करण में डेल्टा विधि, गलत विचरण के परिणाम में एक त्रुटि थी।
संबंधित प्रश्न का मेरा उत्तर बताता है कि सकारात्मक डेटा के सेट का हार्मोनिक माध्य एक भारित वर्ग (डब्ल्यूएलएस) अनुमान (वजन ) है। इसलिए आप WLS विधियों का उपयोग करके इसकी मानक त्रुटि की गणना कर सकते हैं। यह कुछ फायदे हैं, जिनमें सादगी, व्यापकता और व्याख्या शामिल है, साथ ही किसी भी सांख्यिकीय सॉफ़्टवेयर द्वारा स्वचालित रूप से उत्पादित किया जा रहा है जो इसके प्रतिगमन गणना में भार की अनुमति देता है। 1 / x i
मुख्य नुकसान यह है कि गणना अत्यधिक तिरछी अंतर्निहित वितरण के लिए अच्छे आत्मविश्वास के अंतराल का उत्पादन नहीं करती है। यह किसी भी सामान्य-उद्देश्य विधि के साथ एक समस्या होने की संभावना है: हार्मोनिक मतलब डेटासेट में एक भी छोटे मूल्य की उपस्थिति के प्रति संवेदनशील है।
स्पष्ट करने के लिए, यहाँ गामा (5) वितरण (जो मामूली तिरछा है) से आकार के स्वतंत्र रूप से उत्पन्न नमूनों के अनुभवजन्य वितरण हैं । नीली रेखाएं सही हार्मोनिक माध्य ( बराबर ) दिखाती हैं जबकि लाल धराशायी रेखाएं भारित कम से कम वर्गों का अनुमान दर्शाती हैं। ब्लू लाइनों के चारों ओर ऊर्ध्वाधर ग्रे बैंड हार्मोनिक मीन के लिए दो-तरफा 95% विश्वास अंतराल हैं। इस मामले में, सभी नमूनों में CI सही हार्मोनिक माध्य को शामिल करता है। इस सिमुलेशन की पुनरावृत्ति (यादृच्छिक बीज के साथ) का सुझाव है कि कवरेज इन छोटे डेटासेटों के लिए भी 95% की दर के करीब है।एन = 12 4 20
यहाँ R
सिमुलेशन और आंकड़े के लिए कोड है।
k <- 5 # Gamma parameter
n <- 12 # Sample size
hm <- k-1 # True harmonic mean
set.seed(17)
t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
#
# Generate a random sample.
#
x <- rgamma(n, k)
#
# Estimate the harmonic mean.
#
fit <- lm(x ~ 1, weights=1/x)
beta <- coef(summary(fit))[1, ]
message("Harmonic mean estimate is ", signif(beta["Estimate"], 3),
" +/- ", signif(beta["Std. Error"], 3))
#
# Plot the results.
#
covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0,
beta["Estimate"] + t.crit*beta["Std. Error"], 1.25,
border=NA, col=gray(0.5, alpha=0.10))
abline(v = hm, col="Blue", lwd=2)
abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}
यहाँ एक्सपोनेंशियल r.v के लिए एक उदाहरण दिया गया है।
डेटा बिंदुओं के लिए हार्मोनिक माध्य के रूप में परिभाषित किया गया है
मान लीजिए आपके पास एक घातीय यादृच्छिक चर, की आईआईडी नमूने । घातीय चर का योग एक गामा वितरण का अनुसरण करता हैएक्स मैं ~ ई एक्स पी ( λ ) n
जहाँ । हम यह भी जानते हैं
का वितरण इसलिए है
इस आरवी के विचरण (और मानक विचलन) अच्छी तरह से ज्ञात हैं, देखें, उदाहरण के लिए यहां ।
मैं जो सुझाव दूंगा वह मानक विचलन के विकल्प के रूप में निम्न सूत्र का उपयोग करना है:
जहाँ । इस सूत्र के बारे में अच्छी बात यह है कि इसे तब छोटा किया जाता है जब , और इसकी मानक विचलन जैसी इकाइयाँ होती हैं (जो हैं) के समान इकाइयाँ )।
यह मानक विचलन के अनुरूप है, जो कि मान है कि तब लेता है जब इसे से कम किया जाता है । यह कम से कम तब होता है जब का अर्थ होता है: ।