हां, व्यावहारिक सेटिंग्स की एक विस्तृत श्रृंखला में आत्मविश्वास अंतराल की तुलना और परिकल्पना परीक्षणों के बीच कुछ सरल संबंध हैं। हालांकि, सीआई प्रक्रियाओं की पुष्टि करने के अलावा और टी-टेस्ट हमारे डेटा के लिए उपयुक्त हैं, हमें यह देखना होगा कि नमूना आकार बहुत अलग नहीं हैं और दो सेटों में समान मानक विचलन हैं। हमें दो सटीक अंतराल की तुलना करने से अत्यधिक सटीक पी-मूल्यों को प्राप्त करने का प्रयास नहीं करना चाहिए, लेकिन प्रभावी सन्निकटन विकसित करने के लिए खुशी होनी चाहिए।
पहले से दिए गए दो उत्तरों (@ जॉन और @ ब्रेट द्वारा) को समेटने की कोशिश में, यह गणितीय रूप से स्पष्ट होने में मदद करता है। इस प्रश्न की सेटिंग के लिए उपयुक्त दो-तरफा आत्मविश्वास अंतराल का एक सूत्र है
CI=m±tα(n)sn−−√
जहाँ mn स्वतंत्र टिप्पणियों का नमूना माध्य है , s नमूना मानक विचलन है, 2α वांछित परीक्षण आकार (अधिकतम झूठी सकारात्मक दर) है, और tα(n) छात्र t वितरण का ऊपरी 1−α प्रतिशत है n−1 साथ - स्वतंत्रता की 1 डिग्री। (पारंपरिक संकेतन से यह थोड़ा विचलन n बनाम n−1 अंतर पर उपद्रव करने की किसी भी आवश्यकता को समाप्त करके प्रदर्शनी को सरल बनाता है , जो कि वैसे भी अगोचर होगा।)
तुलना के लिए डेटा के दो स्वतंत्र सेटों को अलग करने के लिए सदस्यता 1 और 2 का उपयोग करना , दो साधनों के बड़े से संबंधित 1 साथ , विश्वास अंतराल का एक गैर- ओवरलैप असमानता (कम आत्मविश्वास सीमा 1) > (ऊपरी आत्मविश्वास सीमा 2 ) द्वारा व्यक्त किया जाता है ); अर्थात। ,
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
इसे सरल बीजगणितीय जोड़तोड़, उपज के साथ संबंधित परिकल्पना परीक्षण (दो साधनों की तुलना करने के लिए) की टी-स्टेटिस्टिक की तरह बनाया जा सकता है
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
बाएं हाथ की ओर परिकल्पना परीक्षण में उपयोग किया जाने वाला आँकड़ा है; यह आम तौर पर के साथ एक छात्र टी वितरण का एक प्रतिशत की तुलना में है n1+n2 , है कि करने के लिए: स्वतंत्रता की डिग्री tα(n1+n2) । दाहिने हाथ की ओर मूल टी वितरण प्रतिशत का एक पक्षपातपूर्ण भारित औसत है।
अब तक का विश्लेषण @Brett द्वारा उत्तर को सही ठहराता है: ऐसा प्रतीत होता है कि कोई सरल संबंध उपलब्ध नहीं है। हालाँकि, आगे की जांच करते हैं। मैं ऐसा करने के लिए प्रेरित हूं क्योंकि, सहज रूप से, विश्वास अंतराल के एक गैर-ओवरलैप को कुछ कहना चाहिए !
First, notice that this form of the hypothesis test is valid only when we expect s1 and s2 to be at least approximately equal. (Otherwise we face the notorious Behrens-Fisher problem and its complexities.) Upon checking the approximate equality of the si, we could then create an approximate simplification in the form
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
s≈s1≈s2αα′α′
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
It turns out that for equal sample sizes, α and α′ are connected (to pretty high accuracy) by a power law. For instance, here is a log-log plot of the two for the cases n1=n2=2 (lowest blue line), n1=n2=5 (middle red line), n1=n2=∞ (highest gold line). The middle green dashed line is an approximation described below. The straightness of these curves belies a power law. It varies with n=n1=n2, but not much.
The answer does depend on the set {n1,n2}, but it is natural to wonder how much it really varies with changes in the sample sizes. In particular, we could hope that for moderate to large sample sizes (maybe n1≥10,n2≥10 or thereabouts) the sample size makes little difference. In this case, we could develop a quantitative way to relate α′ to α.
This approach turns out to work provided the sample sizes are not too different from each other. In the spirit of simplicity, I will report an omnibus formula for computing the test size α′ corresponding to the confidence interval size α. It is
α′≈eα1.91;
that is,
α′≈exp(1+1.91log(α)).
This formula works reasonably well in these common situations:
Both sample sizes are close to each other, n1≈n2, and α is not too extreme (α>.001 or so).
One sample size is within about three times the other and the smallest isn't too small (roughly, greater than 10) and again α is not too extreme.
One sample size is within three times the other and α>.02 or so.
The relative error (correct value divided by the approximation) in the first situation is plotted here, with the lower (blue) line showing the case n1=n2=2, the middle (red) line the case n1=n2=5, and the upper (gold) line the case n1=n2=∞. Interpolating between the latter two, we see that the approximation is excellent for a wide range of practical values of α when sample sizes are moderate (around 5-50) and otherwise is reasonably good.
This is more than good enough for eyeballing a bunch of confidence intervals.
To summarize, the failure of two 2α-size confidence intervals of means to overlap is significant evidence of a difference in means at a level equal to 2eα1.91, provided the two samples have approximately equal standard deviations and are approximately the same size.
I'll end with a tabulation of the approximation for common values of 2α.
2α 2α′
0.1 0.02
0.05 0.005
0.01 0.0002
0.005 0.00006
For example, when a pair of two-sided 95% CIs (2α=.05) for samples of approximately equal sizes do not overlap, we should take the means to be significantly different, p<.005. The correct p-value (for equal sample sizes n) actually lies between .0037 (n=2) and .0056 (n=∞).
This result justifies (and I hope improves upon) the reply by @John. Thus, although the previous replies appear to be in conflict, both are (in their own ways) correct.