पहले प्रयोग के 95% विश्वास अंतराल के भीतर दोहराने वाले प्रयोगों के किस अंश का प्रभाव आकार होगा?


12

आइए रैंडम सैंपलिंग, गॉसियन पॉपुलेशन, समान वेरिएंस, नो पी-हैकिंग आदि के साथ एक आदर्श स्थिति पर टिके रहें।

चरण 1. आप दो नमूना साधनों की तुलना करते हुए एक प्रयोग कहते हैं, और दो जनसंख्या साधनों के बीच अंतर के लिए 95% विश्वास अंतराल की गणना करें।

चरण 2. आप कई और प्रयोग (हजारों) चलाते हैं। यादृच्छिक नमूने के कारण प्रयोग के बीच के अंतर में प्रयोग के बीच अंतर होगा।

प्रश्न: चरण 2 में प्रयोगों के संग्रह से साधनों के बीच अंतर का कितना भाग चरण 1 के विश्वास अंतराल के भीतर होगा?

जिसका उत्तर नहीं दिया जा सकता। यह सब इस बात पर निर्भर करता है कि चरण 1 में क्या हुआ है। यदि वह चरण 1 प्रयोग बहुत ही असामान्य था, तो प्रश्न का उत्तर बहुत कम हो सकता है।

तो कल्पना करें कि दोनों चरणों को कई बार दोहराया जाता है (चरण 2 के साथ कई बार दोहराया जाता है)। अब यह संभव होना चाहिए, मुझे लगता है, दोहराने के प्रयोगों के किस अंश के लिए एक उम्मीद के साथ आने के लिए, औसतन, पहले प्रयोग के 95% विश्वास अंतराल के भीतर एक प्रभाव का आकार होता है।

ऐसा लगता है कि इन सवालों के जवाब के लिए अध्ययन की प्रतिलिपि प्रस्तुत करने की क्षमता को समझने की जरूरत है, जो अब बहुत गर्म क्षेत्र है।


प्रत्येक मूल (चरण 1) के प्रयोग के लिए , परिभाषित बाद (चरण 2) के अंश के रूप में मूल परिणाम के विश्वास अंतराल के भीतर परिणाम है कि उत्पादन निष्कर्ष। आप के अनुभवजन्य वितरण की गणना करना चाहते हैं ? x i xixix
मैथ्यू गन

हां, आप समझते हैं कि मैं क्या पूछ रहा हूं
हार्वे मोटुलस्की

@MatthewGun ने पूछा कि क्या आप भविष्य की टिप्पणियों के लिए "कैप्चर अंश" का अनुभवजन्य वितरण चाहते हैं। आपकी पोस्ट ने पूछा "... यह संभव होना चाहिए, मुझे लगता है कि दोहराने के प्रयोगों के किस अंश के लिए एक उम्मीद के साथ आना होगा, औसतन, पहले प्रयोग के 95% विश्वास अंतराल के भीतर एक प्रभाव का आकार होता है" । यह एक वितरण नहीं है, लेकिन एक अपेक्षित मूल्य (औसत) है।

व्हीबर का विश्लेषण बहुत अच्छा है, लेकिन अगर आपको एक उद्धरण की आवश्यकता है, तो यहां एक पेपर है जो इस प्रश्न पर बहुत विस्तार से चर्चा करता है: कमिंग एंड माइलार्डेट, 2006, कॉन्फिडेंस इंटरवल और प्रतिकृति: अगला अगला पतन कहां होगा? । वे इसे आत्मविश्वास के अंतराल पर कब्जा प्रतिशत कहते हैं।
अमीबा का कहना है कि मोनिका

जवाबों:


12

विश्लेषण

क्योंकि यह एक वैचारिक प्रश्न है, सादगी के लिए आइए उस स्थिति पर विचार करें, जिसमें आत्मविश्वास अंतराल का उपयोग मीन जाता है। यादृच्छिक नमूना आकार और दूसरा यादृच्छिक नमूना आकार से लिया जाता है , सभी एक ही सामान्य वितरण से। (यदि आप चाहें, तो आप छात्र को स्वतंत्रता के डिग्री के वितरण से मूल्यों द्वारा जगह ले सकते हैं ; निम्नलिखित विश्लेषण नहीं बदलेगा।)[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / ˉ1αμएक्स(1)एनएक्स(2)मीटर(μ,σ2)जेडटीएन-1

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

मौका है कि पहले से निर्धारित सीआई के भीतर दूसरे नमूने का मतलब है

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

क्योंकि पहला नमूना माध्य पहले नमूने मानक विचलन से स्वतंत्र है (यह सामान्यता की आवश्यकता है) और दूसरा नमूना पहले से स्वतंत्र है, नमूना में अंतर का मतलब है से स्वतंत्र है । इसके अलावा, इस सममित अंतराल के लिए । इसलिए, रैंडम वेरिएबल लिए लिखना और दोनों असमानताओं को समझना, प्रश्न में संभावना समान हैx¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

अपेक्षा के कानूनों का अर्थ है कि का मतलब और इसमें भिन्नता हैU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

चूंकि सामान्य चर का एक रैखिक संयोजन है, इसलिए इसका एक सामान्य वितरण भी है। इसलिए है टाइम्स a चर। हम पहले से ही जानते थे कि is बार a चर। नतीजतन, है बार एक साथ एक चर वितरण। F वितरण द्वारा आवश्यक संभाव्यता दी गई हैUU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

विचार-विमर्श

एक दिलचस्प मामला तब है जब दूसरा नमूना पहले के समान आकार है, इसलिए और केवल और संभावना को निर्धारित करते हैं। यहाँ लिए विरुद्ध प्लॉट किए गए मान हैं ।n/m=1nα(1)αn=2,5,20,50

आकृति

ग्राफ़ रूप में प्रत्येक पर एक सीमित मूल्य तक बढ़ जाता है। पारंपरिक परीक्षण आकार एक ऊर्ध्वाधर ग्रे लाइन द्वारा चिह्नित है। के बड़े-बड़े मूल्यों के लिए, लिए सीमित मौका लगभग ।αnα=0.05n=mα=0.0585%

इस सीमा को समझने से, हम छोटे नमूना आकारों के विवरणों को याद करेंगे और मामले के क्रूस को बेहतर ढंग से समझेंगे। जैसे ही बड़ा होता है, वितरण a वितरण के पास पहुंचता है । मानक सामान्य वितरण संदर्भ में , संभावना तब अनुमानित होती हैn=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

उदाहरण के लिए, , और । नतीजतन पर घटता द्वारा प्राप्त सीमित मूल्य के रूप में बढ़ जाती हो जाएगा । आप देख सकते हैं कि यह लगभग तक पहुँच गया है (जहाँ मौका ।)α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

छोटे , और पूरक संभावना के बीच संबंध - जोखिम जो सीआई दूसरे मतलब को कवर नहीं करता है - लगभग पूरी तरह से एक बिजली कानून है। αα इसे व्यक्त करने का एक और तरीका यह है कि लॉग सप्लीमेंटरी प्रायिकता का एक रैखिक कार्य है । सीमित संबंध लगभग हैlogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

दूसरे शब्दों में, बड़े और कहीं भी के पारंपरिक मूल्य के पास , करीब होगाn=mα0.05(1)

10.166(20α)0.557.

(यह मुझे /stats//a/18259/919 पर पोस्ट किए गए अतिव्याप्त विश्वास अंतराल के विश्लेषण की बहुत याद दिलाता है । वास्तव में, वहाँ जादू की शक्ति, , जादू शक्ति के लगभग पारस्परिक है। यहाँ, । इस बिंदु पर आपको प्रयोगों के प्रतिलिपि प्रस्तुत करने की क्षमता के संदर्भ में उस विश्लेषण को फिर से व्याख्या करने में सक्षम होना चाहिए।)1.910.557


प्रयोगात्मक परिणाम

इन परिणामों की पुष्टि एक सीधे अनुकरण के साथ की जाती है। निम्नलिखित Rकोड कवरेज की आवृत्ति, साथ गणना किए गए अवसर , और एक जेड-स्कोर का आकलन करता है कि वे कितने भिन्न हैं। Z- स्कोर आमतौर पर (या यहां तक ​​कि या CI की गणना होती है) की परवाह किए बिना आकार में से कम होता है , सूत्र की शुद्धता का संकेत देता है ।(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

आप कहते हैं कि z के बजाय t का उपयोग करने से बहुत फर्क नहीं पड़ेगा। मेरा मानना ​​है कि आपने अभी तक जाँच नहीं की है। छोटे नमूने के आकार के साथ, दो महत्वपूर्ण मूल्य बहुत भिन्न हो सकते हैं और टी वितरण सीआई की गणना करने का सही तरीका है। आप z का उपयोग क्यों करना पसंद करते हैं ??
हार्वे मोटुलस्की

यह विशुद्ध रूप से निराशाजनक है और सरल है। जब आप उपयोग करते तो यह दिलचस्प है कि आकृति में घटता उच्च शुरू होता है और उनकी सीमा तक उतरता है। विशेष रूप से, एक महत्वपूर्ण परिणाम को पुन: पेश करने की संभावना बड़े के मुकाबले छोटे नमूनों के लिए बहुत अधिक है! ध्यान दें कि जांच करने के लिए कुछ भी नहीं है, क्योंकि आप उपयुक्त छात्र टी वितरण के प्रतिशत बिंदु के रूप में व्याख्या करने के लिए स्वतंत्र हैं (या किसी अन्य वितरण का नाम आप ध्यान रख सकते हैं)। विश्लेषण में कुछ भी नहीं बदलता है। यदि आप विशेष प्रभाव देखना चाहते हैं, तो कोड में लाइन को अनइंस्टॉल करें । ZtZαqt
whuber

1
+1। यह एक महान विश्लेषण है (और आपके उत्तर में रास्ता बहुत कम है कि यह क्या है)। मैं अभी एक पेपर पर आया था, जो इस प्रश्न पर बहुत विस्तार से चर्चा करता है और मुझे लगा कि आपकी रुचि हो सकती है: कमिंग और माइलेरडेट, 2006, कॉन्फिडेंस इंटरवल और रिप्लेसमेंट: अगला साधन कहां होगा? । वे इसे आत्मविश्वास के अंतराल पर कब्जा प्रतिशत कहते हैं।
अमीबा कहती है

@Amoeba संदर्भ के लिए धन्यवाद। मैं विशेष रूप से एक सामान्य निष्कर्ष की सराहना करता हूं: "प्रतिकृति वैज्ञानिक पद्धति के लिए केंद्रीय है, और शोधकर्ताओं को इसे केवल एक आंख नहीं मोड़ना चाहिए क्योंकि यह एक एकल अध्ययन की अंतर्निहित अनिश्चितता को नमकीन बनाता है।"
whuber

1
अपडेट: बहन के धागे में चल रही चर्चा के लिए धन्यवाद, मेरा मानना ​​है कि उपरोक्त टिप्पणी में मेरा तर्क सही नहीं था । 95% CI में 83% "प्रतिकृति-कैप्चर" है, लेकिन यह बार-बार नमूना लेने के बारे में एक बयान है और इसकी व्याख्या एक विशेष विश्वास अंतराल पर वातानुकूलित संभावना के रूप में नहीं की जा सकती है, कम से कम आगे की मान्यताओं के बिना नहीं। (शायद इस और पिछली दोनों टिप्पणियों को बेहतर ढंग से हटा दिया जाना चाहिए ताकि आगे के पाठकों को भ्रमित न किया जा सके।)
अमीबा का कहना है कि मोनिका

4

[बग WHuber को ठीक करने के लिए संपादित किया गया।]

मैंने टी वितरण का उपयोग करने के लिए व्हिबर के आर कोड को बदल दिया, और नमूना आकार के एक समारोह के रूप में कवरेज की साजिश रची। परिणाम नीचे हैं। उच्च नमूने के आकार पर, परिणाम निश्चित रूप से WHuber से मेल खाते हैं।

यहाँ छवि विवरण दर्ज करें

और यहां अनुकूलित आर कोड है, अल्फा सेट के साथ दो बार 0.01 या 0.05 पर चलाएं।

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

और यहाँ ग्राफपैड प्रिज्म फ़ाइल है जो ग्राफ बनाती है।


मेरा मानना ​​है कि आपके भूखंड टी वितरण का उपयोग नहीं करते हैं , बग के कारण: आप लूप के बाहर का मूल्य निर्धारित करते हैं ! आप सही घटता देखने के लिए चाहते हैं, तो सिर्फ साजिश उन्हें सीधे मेरा उत्तर में सैद्धांतिक परिणाम का उपयोग कर, मेरी के अंत में दिए के रूप में (न कि नकली परिणामों पर भरोसा करने की बजाय) कोड:TRcurve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber। ओह! बेशक आप ठीक हैं। शर्मिंदा। मैंने इसे ठीक कर लिया है। जैसा कि आपने बताया कि छोटे नमूना आकार के साथ कवरेज अधिक है। (मैं सिमुलेशन तय, और अपने सैद्धांतिक समारोह की कोशिश नहीं की।)
हार्वे मोटुलस्की

मुझे खुशी है कि आपने इसे ठीक कर लिया, क्योंकि यह बहुत दिलचस्प है कि छोटे नमूने के आकारों के लिए कवरेज कितना अधिक है। हम आपके प्रश्न को उल्टा कर सकते हैं और सूत्र का उपयोग करके निर्धारित कर सकते हैं कि का क्या मूल्य है अगर हम आश्वासन देना चाहते हैं (किसी भी प्रयोग करने से पहले), संभावना (कहते हैं) के साथ, कि इसका मतलब दूसरा प्रयोग दूसरे पक्ष से निर्धारित दो-तरफा विश्वास अंतराल के भीतर होगा । ऐसा करना, एक नियमित अभ्यास के रूप में, एनएचएसटी की कुछ आलोचनाओं को संबोधित करने का एक पेचीदा तरीका हो सकता है। Zα/2p=0.951α
whuber

@ मुझे लगता है कि अगला कदम कवरेज के वितरण को देखना है। अब तक, हमारे पास औसत कवरेज है (कई पहले प्रयोगों का औसत, कई दूसरे प्रयोगों के औसत के साथ)। लेकिन पहला प्रयोग क्या है, इसके आधार पर, कुछ मामलों में औसत कवरेज खराब होगी। वितरण देखना दिलचस्प होगा। मैं आर जानने के लिए पर्याप्त जानने की कोशिश कर रहा हूं।
हार्वे मोटुलस्की जू

वितरण के संबंध में, ऊपर दिए गए टिप्पणियों में मैं जिस पेपर से जुड़ा हुआ हूं, उसे देखें।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.