क्या एक तरफा चेबीशेव असमानता का एक नमूना संस्करण मौजूद है?


32

मुझे चेबीशेव असमानता के निम्नलिखित एक तरफा कैंटेली के संस्करण में दिलचस्पी है :

P(XE(X)t)Var(X)Var(X)+t2.

मूल रूप से, यदि आप जनसंख्या के माध्य और विचरण को जानते हैं, तो आप एक निश्चित मान को देखने की संभावना पर ऊपरी सीमा की गणना कर सकते हैं। (यह मेरी समझ में कम से कम था।)

हालांकि, मैं वास्तविक जनसंख्या माध्य और विचरण के बजाय नमूना माध्य और नमूना विचरण का उपयोग करना चाहूंगा।

मैं अनुमान लगा रहा हूं कि चूंकि यह अधिक अनिश्चितता का परिचय देगा, इसलिए ऊपरी सीमा बढ़ जाएगी।

क्या उपरोक्त के अनुरूप असमानता है, लेकिन यह नमूना माध्य और विचरण का उपयोग करता है?

संपादित करें : चेबीशेव असमानता (एक तरफा नहीं) के "नमूना" एनालॉग पर काम किया गया है। विकिपीडिया पृष्ठ में कुछ जानकारी है। हालांकि, मुझे यकीन नहीं है कि यह मेरे पास एक तरफा मामले में कैसे अनुवाद करेगा।


धन्यवाद Glen_b यह काफी दिलचस्प समस्या है। मैंने हमेशा सोचा था कि चेबीशेव असमानता शक्तिशाली थी (क्योंकि यह आपको एक संभावित वितरण की आवश्यकता के बिना सांख्यिकीय अनुमान लगाता है); इसलिए नमूना माध्य और विचरण के साथ इसका उपयोग करने में सक्षम होना बहुत बढ़िया होगा।
कैसंड्रा

जवाबों:


26

हां, हम नमूना माध्य और विचरण का उपयोग करके एक अनुरूप परिणाम प्राप्त कर सकते हैं, शायद, प्रक्रिया में उभरने वाले एक जोड़े को थोड़ा आश्चर्य।

सबसे पहले, हमें प्रश्न कथन को थोड़ा सा परिष्कृत करने और कुछ मान्यताओं को निर्धारित करने की आवश्यकता है। महत्वपूर्ण रूप से, यह स्पष्ट होना चाहिए कि हम जनसंख्या के विचरण को दायें हाथ की ओर से नमूना विचरण से बदलने की आशा नहीं कर सकते क्योंकि उत्तरार्ध यादृच्छिक है ! तो, हम बराबर असमानता पर हमारा ध्यान फिर से फ़ोकस

P(XEXtσ)11+t2.
मामले में यह स्पष्ट नहीं है कि इन बराबर हैं, ध्यान दें कि हम बस से बदल दिया हैt के साथtσ व्यापकता में किसी भी हानि के बिना मूल असमानता में।

दूसरा, हम मानते हैं कि हम नमूने के तौर पर है X1,,Xn और हम में एक ऊपरी अनुरूप मात्रा के लिए बाध्य कर रहे हैं रुचि P(X1X¯tS) , जहां X¯ नमूना मतलब और है S नमूना मानक विचलन है।

एक आधा कदम आगे

ध्यान दें कि पहले से ही मूल लगाने से करने के लिए Chebyshev असमानता एक पक्षीय X1X¯ पर हम पाते हैं कि

P(X1X¯tσ)11+nn1t2
जहांσ2=Var(X1)है, जोछोटेमूल संस्करण के दाएँ हाथ की ओर से। यह समझ में आता है! किसी नमूने से किसी यादृच्छिक चर का कोई विशेष बोध उस नमूने के करीब (थोड़ा) हो जाएगा, जिसका जनसंख्या की तुलना में योगदान होता है। हम नीचे देखेंगे, हम बदलने के लिए मिल जाएगाσद्वाराSऔर भी अधिक सामान्य मान्यताओं के तहत।

एक तरफा चेबीशेव का एक नमूना संस्करण

दावा करें : X1,,Xn एक यादृच्छिक नमूना है जैसे कि P(S=0)=0 । फिर,

P(X1X¯tS)11+nn1t2.
विशेष रूप से, बाउंड का नमूना संस्करणमूल जनसंख्या संस्करण की तुलना मेंतंगहै।

नोट : हम करते नहीं मान लेते हैं कि Xi या तो सीमित मतलब या विचरण है!

Proof. The idea is to adapt the proof of the original one-sided Chebyshev inequality and employ symmetry in the process. First, set Yi=XiX¯ for notational convenience. Then, observe that

P(Y1tS)=1ni=1nP(YitS)=E1ni=1n1(YitS).

c>0{S>0}

1(YitS)=1(Yi+tcStS(1+c))1((Yi+tcS)2t2(1+c)2S2)(Yi+tcS)2t2(1+c)2S2.

Then,

1ni1(YitS)1ni(Yi+tcS)2t2(1+c)2S2=(n1)S2+nt2c2S2nt2(1+c)2S2=(n1)+nt2c2nt2(1+c)2,
since Y¯=0 and iYi2=(n1)S2.

The right-hand side is a constant (!), so taking expectations on both sides yields,

P(X1X¯tS)(n1)+nt2c2nt2(1+c)2.
Finally, minimizing over c, yields c=n1nt2, which after a little algebra establishes the result.

That pesky technical condition

Note that we had to assume P(S=0)=0 in order to be able to divide by S2 in the analysis. This is no problem for absolutely continuous distributions, but poses an inconvenience for discrete ones. For a discrete distribution, there is some probability that all observations are equal, in which case 0=Yi=tS=0 for all i and t>0.

We can wiggle our way out by setting q=P(S=0). Then, a careful accounting of the argument shows that everything goes through virtually unchanged and we get

Corollary 1. For the case q=P(S=0)>0, we have

P(X1X¯tS)(1q)11+nn1t2+q.

Proof. Split on the events {S>0} and {S=0}. The previous proof goes through for {S>0} and the case {S=0} is trivial.

A slightly cleaner inequality results if we replace the nonstrict inequality in the probability statement with a strict version.

Corollary 2. Let q=P(S=0) (possibly zero). Then,

P(X1X¯>tS)(1q)11+nn1t2.

Final remark: The sample version of the inequality required no assumptions on X (other than that it not be almost-surely constant in the nonstrict inequality case, which the original version also tacitly assumes), in essence, because the sample mean and sample variance always exist whether or not their population analogs do.


15

This is just a complement to @cardinal 's ingenious answer. Samuelson Inequality, states that, for a sample of size n, when we have at least three distinct values of the realized xi's, it holds that

xix¯<sn1,i=1,...n
where s is calculated without the bias correction, s=(1ni=1n(xix¯)2)1/2.

Then, using the notation of Cardinal's answer we can state that

P(X1X¯Sn1)=0a.s.[1]

Since we require, three distinct values, we will have S0 by assumption. So setting t=n1 in Cardinal's Inequality (the initial version) we obtain

P(X1X¯Sn1)11+n,[2]

Eq. [2] is of course compatible with eq. [1]. The combination of the two tells us that Cardinal's Inequality is useful as a probabilistic statement for 0<t<n1.

If Cardinal's Inequality requires S to be calculated bias-corrected (call this S~) then the equations become

P(X1X¯S~n1n)=0a.s.[1a]

and we choose t=n1n to obtain through Cardinal's Inequality

P(X1X¯S~n1n)1n,[2a]
and the probabilistically meaningful interval for t is 0<t<n1n.

2
(+1) Incidentally, as I was first considering this problem, the fact that maxi|XiX¯|Sn1 was actually the initial clue that the sample inequality should be tighter than the original. I wanted to squeeze that into my post, but couldn't find a (comfortable) place for it. I'm glad to see you mention it (actually a very slight improvement on it) here along with your very nice additional elaboration. Cheers.
cardinal

Cheers @Cardinal, great answer -just clarify for me -does it matter for your Inequality how one defines the sample variance (bias-corrected or not)?
Alecos Papadopoulos

Only ever so slightly. I used the bias-corrected sample variance. If you use n instead of n1 to normalize, then you'll end up with
1+t2c2t2(1+c)2
instead of
(n1)+nt2c2nt2(1+c)2,
which means the n/(n1) term in the final inequality will disappear. Thus, you'll get the same bound as in the original one-sided Chebyshev inequality in that case. (Assuming I've done the algebra correctly.) :-)
cardinal

@Cardinal ...which means that the relevant equations in my answer are 1a and 2a, which means that your inequality tells us that for t chosen to activate Samuelson Inequality, the probability of the event we are examining, cannot be greater than 1/n, i.e. not greater than randomly choosing any one realized value from the sample... which somehow makes some hazy intuitive sense: what is proven certainly impossible in deterministic terms, when approached probabilistically its probability bound does not exceed equiprobability... not clear in my mind yet.
Alecos Papadopoulos
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.