सीमा और मानक विचलन के बीच संबंध


14

एक लेख में मुझे एक नमूना आकार N के मानक विचलन का सूत्र मिलाN

σ=R¯2.534

जहां मुख्य नमूने से R¯उपसमूह (आकार 6 ) की औसत श्रेणी है । संख्या 2.534की गणना कैसे की जाती है? यह सही संख्या है?


6
कृपया संदर्भ दें। इससे भी महत्वपूर्ण बात: 1. यहाँ एक "सही संख्या" नहीं हो सकती है जिस तरह के वितरण से आप स्वतंत्र रूप से ड्राइंग कर रहे हैं। 2. ये नियम आमतौर पर रेंज से एसडी का अनुमान लगाने के शॉर्ट-कट तरीकों में रुचि से आते हैं। अब हमारे पास कंप्यूटर हैं .... क्या आप ऐसा करना चाहते हैं और क्यों? सिर्फ डेटा का उपयोग क्यों नहीं?
निक कॉक्स

3
@ क्षमा करें: आप सही थे। जब मानक आकार लगभग 15 से 50 के आसपास होता है तो मानक विचलन के लिए मान काम करता है ; 10 के आसपास नमूने के आकार के लिए 3 काम करता है , आदि मैं अपनी पिछली टिप्पणी को हटा दूंगा ताकि यह खुद के अलावा किसी और को भ्रमित न करे! 41550310
whuber

1
@NickCox यह पुराने रूसी स्रोत है और मैंने इससे पहले सूत्र नहीं देखा था।
एंडी

3
संदर्भ देना शायद ही कभी एक बुरा विचार है। पाठकों को खुद तय करने दें कि वे दिलचस्प हैं या सुलभ हैं। (यहाँ बहुत सारे लोग हैं जो उदाहरण के लिए रूसी पढ़ सकते हैं।)
निक कॉक्स

जवाबों:


17

में एक एक नमूना की n एक वितरण से स्वतंत्र मूल्यों एफ पीडीएफ के साथ , चरम सीमाओं के संयुक्त वितरण की पीडीएफ मिनट ( एक्स ) = एक्स [ 1 ] और अधिकतम ( x ) = एक्स [ एन ] आनुपातिक हैxnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(आनुपातिकता की निरंतरता बहुराष्ट्रीय गुणांक ( एन) का पारस्परिक है। Intuitively, इस संयुक्त पीडीएफ में रेंज सबसे छोटा मान ढूँढने के लिए मौका व्यक्त करता है[एक्स[1],एक्स[1]+एक्स[1]), श्रृंखला में सबसे बड़ा मान[एक्स[एन],एक्स[एन]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n]), and the middle n2 values between them within the range [x[1]+dx[1],x[n]). When F is continuous, we may replace that middle range by (x[1],x[n]], thereby neglecting only an "infinitesimal" amount of probability. The associated probabilities, to first order in the differentials, are f(x[1])dx[1], f(x[n])dx[n], and F(x[n])F(x[1]),respectively, now making it obvious where the formula comes from.)

Taking the expectation of the range x[n]x[1] gives 2.53441 σ for any Normal distribution with standard deviation σ and n=6. The expected range as a multiple of σ depends on the sample size n:

Normal

These values were computed by numerically integrating (n1,n2,1)(yx)HF(x,y)dxdy over {(x,y)R2|xy}, with F set to the standard Normal CDF, and dividing by the standard deviation of F (which is just 1).

अपेक्षित सीमा और मानक विचलन के बीच एक समान गुणक संबंध वितरण के किसी भी स्थान-पैमाने वाले परिवार के लिए होगा, क्योंकि यह अकेले वितरण के आकार की संपत्ति है । उदाहरण के लिए, यहाँ समान वितरण के लिए एक तुलनीय साजिश है:

Uniform

और घातीय वितरण:

Exponential

पूर्ववर्ती दो भूखंडों के मान सटीक - संख्यात्मक नहीं - एकीकरण द्वारा प्राप्त किए गए थे, जो प्रत्येक मामले में और F के अपेक्षाकृत सरल बीजीय रूपों के कारण संभव है । समान वितरण के लिए वे n - 1 के बराबर हैंfFn1(n+1)12 and for the exponential distributions they are γ+ψ(n)=γ+Γ(n)Γ(n) where γ is Euler's constant and ψ is the "polygamma" function, the logarithmic derivative of Euler's Gamma function.

Although they differ (because these distributions display a wide range of shapes), the three roughly agree around n=6, showing that the multiplier 2.5 does not depend heavily on the shape and therefore can serve as an omnibus, robust assessment of the standard deviation when ranges of small subsamples are known. (Indeed, the very heavy-tailed Student t distribution with three degrees of freedom still has a multiplier around 2.3 for n=6, not far at all from 2.5.)


6
Wonderful exposition! You may be interested to know that this appears to have been investigated back in the 1920s. See Tippet 1925. In Tippet's tables (Table X) the expected value for the range given a sample of size 6 is 2.53441σ. He shows the derivation of the complete distribution of the range for the normal distribution. This was used by David et.al. (1954) to calculate probability points of the range distribution for a test for normality (see D'Agostino & Stephens 9.3.3.4.2).
Avraham

@Avraham Thank you for the illuminating comments. What struck me when I added the graphics is that the really clever part of this whole approach is the use of subsamples of size six because that's where the multipliers all tend to be about the same regardless of distributional shape.
whuber

Thanks! Tippet's tables actually give the appropriate multiplier for all numbers between 2 and 1000. He does mention running into calculation issues; of course, this was back in 1925 a good 20 years before ENIAC.
Avraham

@whuber can you show how the number (2.534) was calculated?
Andy

I edited the answer to include explanations of the calculations.
whuber

4

That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

which yields:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.

Edit: See @Whuber's exceptional comment (above) on why this works


1
You are drawing subsamples of size 6 from an approximately uniform distribution. For a truly uniform distribution the ratio is 103/72.474. Indeed, if you were to use that factor in your simulation you would obtain mean(R)/2.474 equal to 2887.6, very close to sd(x).
whuber

Very true! > mean(R)/2.474 [1] 2887.611
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.