क्या मैं नमूना आकार, और न्यूनतम और अधिकतम मूल्यों से एक सामान्य वितरण का पुनर्निर्माण कर सकता हूं? मैं मध्य-बिंदु का उपयोग प्रॉक्सी का मतलब करने के लिए कर सकता हूं


14

मुझे पता है कि यह थोड़ा रोपे हो सकता है, सांख्यिकीय रूप से, लेकिन यह मेरी समस्या है।

मेरे पास बहुत सी श्रेणी के डेटा हैं, जो एक चर का न्यूनतम, अधिकतम और नमूना आकार कहना है। इन आंकड़ों में से कुछ के लिए मेरे पास एक मतलब है, लेकिन बहुत से नहीं। मैं प्रत्येक श्रेणी की परिवर्तनशीलता को निर्धारित करने के लिए इन सीमाओं की एक दूसरे से तुलना करना चाहता हूं, और साधनों की तुलना करना भी चाहता हूं। मेरे पास यह मानने का एक अच्छा कारण है कि वितरण माध्य के चारों ओर सममित है, और यह कि डेटा का गौसियन वितरण होगा। इस कारण से मैं सोच रहा हूं कि वितरण के मध्य-बिंदु का उपयोग इस अर्थ के लिए एक प्रॉक्सी के रूप में कर सकता हूं, जब यह अनुपस्थित हो।

जो मैं करना चाहता हूं वह प्रत्येक श्रेणी के लिए एक वितरण का पुनर्निर्माण करना है, और फिर उस वितरण के लिए एक मानक विचलन या मानक त्रुटि प्रदान करने के लिए इसका उपयोग करें। मेरे पास एकमात्र जानकारी एक नमूना से अधिकतम और न्यूनतम देखी गई है, और मध्य बिंदु के लिए एक प्रॉक्सी के रूप में मतलब है।

इस प्रकार मैं आशा करता हूं कि प्रत्येक समूह के लिए भारित साधनों की गणना करने में सक्षम होने के लिए, और प्रत्येक समूह के लिए भिन्नता के गुणांक के रूप में अच्छी तरह से काम करने के लिए, मेरे पास डेटा और मेरी मान्यताओं (एक सममित और सामान्य वितरण) के आधार पर।

मुझे ऐसा करने के लिए R का उपयोग करने की योजना है, इसलिए किसी भी कोड की मदद की सराहना की जाएगी।


2
मैं सोच रहा था कि आप क्यों कहते हैं कि आपके पास न्यूनतम और अधिकतम और अधिकतम मूल्यों के लिए डेटा है; फिर बाद में आपको केवल अपेक्षित न्यूनतम और अधिकतम जानकारी है। यह कौन सा है - मनाया या अपेक्षित है?
स्कॉर्टची - मोनिका को बहाल करना

क्षमा करें, यह मेरी गलती है। अधिकतम और न्यूनतम डेटा देखे जाते हैं (वास्तविक जीवन की वस्तुओं से मापा जाता है)। मैंने पद में संशोधन किया है।
ग्रीन_थिनलेक

जवाबों:


11

एक नमूने के लिए न्यूनतम x(1) और अधिकतम x(n) लिए संयुक्त संचयी वितरण समारोहn मतलब के साथ एक गाऊसी वितरण सेμ और मानक विचलनσ है

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

जहां मानक गाऊसी CDF है। X ( 1 ) और x ( n ) के संबंध में भेदभाव संयुक्त संभावना घनत्व फ़ंक्शन देता हैΦ()x(1)x(n)

f(x(1),x(n);μ,σ)=n(n1)[Φ(x(n)μσ)Φ(x(1)μσ)]n2ϕ(x(n)μσ)ϕ(x(1)μσ)1σ2

कहाँ पे मानक गाऊसी पीडीएफ है। लॉग और ड्रॉपिंग शब्द जो पैरामीटर में नहीं हैं, लॉग-लाइबिलिटी फ़ंक्शन देता हैϕ()

(μ,σ;x(1),x(n))=(n2)log[Φ(x(n)μσ)Φ(x(1)μσ)]+logϕ(x(n)μσ)+logϕ(x(1)μσ)2logσ

This doesn't look very tractable but it's easy to see that it's maximized whatever the value of σ by setting μ=μ^=x(n)+x(1)2, i.e. the midpoint—the first term is maximized when the argument of one CDF is the negative of the argument of the other; the second & third terms represent the joint likelihood of two independent normal variates.

Substituting μ^ into the log-likelihood & writing r=x(n)x(1) gives

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

This expression has to be maximized numerically (e.g. with optimize from R's stat package) to find σ^. (It turns out that σ^=k(n)r, where k is a constant depending only on n—perhaps someone more mathematically adroit than I could show why.)

Estimates are no use without an accompanying measure of precision. The observed Fisher information can be evaluated numerically (e.g. with hessian from R's numDeriv package) & used to calculate approximate standard errors:

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

It would be interesting to compare the likelihood & the method-of-moments estimates for σ in terms of bias (is the MLE consistent?), variance, & mean-square error. There's also the issue of estimation for those groups where the sample mean is known in addition to the minimum & maximum.


1
+1. Adding the constant 2log(r) to the log-likelihood will not change the location of its maximum, but converts it into a function of σ/r and n, whence the value of σ/r that maximizes it is some function nk(n). Equivalently, σ^=k(n)r as you claim. In other words, the relevant quantity to work with is the ratio of the standard deviation to the (observed) range, or equally well its reciprocal--which is closely related to the Studentized range.
whuber

@whuber: Thanks! Seems obvious with hindsight. I'll incorporate that into the answer.
Scortchi - Reinstate Monica

1

You need to relate the range to the standard deviation/variance.Let μ be the mean, σ the standard deviation and R=x(n)x(1) be the range. Then for the normal distribution we have that 99.7% of probability mass lies within 3 standard deviations from the mean. This, as a practical rule means that with very high probability,

μ+3σx(n)
and

μ3σx(1)

Subtracting the second from the first we obtain

6σx(n)x(1)=R
(this, by the way is whence the "six-sigma" quality assurance methodology in industry comes). Then you can obtain an estimate for the standard deviation by
σ^=16(x¯(n)x¯(1))
where the bar denotes averages. This is when you assume that all sub-samples come from the same distribution (you wrote about having expected ranges). If each sample is a different normal, with different mean and variance, then you can use the formula for each sample, but the uncertainty / possible inaccuracy in the estimated value of the standard deviation will be much larger.

Having a value for the mean and for the standard deviation completely characterizes the normal distribution.


3
That's neither a close approximation for small n nor an asymptotic result for large n.
Scortchi - Reinstate Monica

1
@Stortchi Well, I didn't say that it is a good estimate -but I believe that it is always good to have easily implemented solutions, even very rough, in order to get a quantitative sense of the issue at hand, alongside the more sophisticated and efficient approaches like for example the one outlined in the other answer to this question.
Alecos Papadopoulos

I wouldn't carp at "the expectation of the sample range turns out to be about 6 times the standard deviation for values of n from 200 to 1000". But am I missing something subtle in your derivation, or wouldn't it work just as well to justify dividing the range by any number?
Scortchi - Reinstate Monica

@Scortchi Well, the spirit of the approach is "if we expect almost all realizations to fall within 6 sigmas, then it is reasonable to expect that the extreme realizations will be near the border" -that's all there is to it, really. Perhaps I am too used to operate under extremely incomplete information, and obliged to say something quantitative about it... :)
Alecos Papadopoulos

4
I could reply that even more observations would fall within 10σ of the mean, giving a better estimate σ^=R10. I shan't because it's nonsense. Any number over 1.13 will be a rough estimate for some value of n.
Scortchi - Reinstate Monica

1

It is straightforward to get the distribution function of the maximum of the normal distribution (see "P.max.norm" in code). From it (with some calculus) you can get the quantile function (see "Q.max.norm").

Using "Q.max.norm" and "Q.min.norm" you can get the median of the range that is related with N. Using the idea presented by Alecos Papadopoulos (in previous answer) you can calculate sd.

Try this:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
Continuing this approach, E(R)=σ1(1Φ(x))nΦ(x)ndx=σd2(n), where R is the range & Φ() the standard normal cumulative distribution function. You can find tabulated values of d2 for small n in the statistical process control literature, numerically evaluate the integral, or simulate for your n.
Scortchi - Reinstate Monica
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.