दो नमूनों के माध्य की तुलना कैसे करें जिनका डेटा घातांक वितरण में फिट बैठता है


10

मेरे पास डेटा के दो नमूने हैं, एक आधार रेखा नमूना है, और एक उपचार नमूना है।

परिकल्पना यह है कि उपचार के नमूने का आधारभूत नमूने की तुलना में अधिक मतलब है।

दोनों नमूने आकार में घातीय हैं। चूंकि डेटा बड़ा है, इसलिए मेरे पास केवल प्रत्येक नमूने के लिए माध्य और तत्वों की संख्या है, जब मैं परीक्षण चलाऊंगा।

मैं उस परिकल्पना का परीक्षण कैसे कर सकता हूं? मैं अनुमान लगा रहा हूं कि यह सुपर आसान है, और मैं एफ-टेस्ट का उपयोग करने के लिए कई संदर्भों में आया हूं, लेकिन मुझे यकीन नहीं है कि मापदंडों का नक्शा कैसा है।


2
आपके पास डेटा क्यों नहीं है? यदि नमूने वास्तव में बड़े गैर-पैरामीट्रिक परीक्षण हैं, तो महान काम करना चाहिए, लेकिन ऐसा लगता है कि आप सारांश आंकड़ों से परीक्षण चलाने की कोशिश कर रहे हैं। क्या वह सही है?
मिमोसैट

क्या बेसलाइन और उपचार मूल्य एक ही रोगी से निर्धारित होते हैं या दो समूह स्वतंत्र होते हैं?
माइकल एम

1
@ मिमशॉट, डेटा स्ट्रीमिंग है, लेकिन आप सही हैं कि मैं सारांश आंकड़ों से परीक्षण चलाने की कोशिश कर रहा हूं। यह सामान्य डेटा के लिए एक जेड परीक्षण के साथ काफी अच्छी तरह से काम करता है
जोनाथन डोबी

1
इन परिस्थितियों में, एक अनुमानित z- परीक्षण शायद सबसे अच्छा आप कर सकते हैं। हालांकि, मैं इस बात पर अधिक ध्यान दूंगा कि सही उपचार प्रभाव कितना बड़ा है, सांख्यिकीय महत्व के बारे में नहीं। याद रखें, कि बड़े पर्याप्त नमूनों के साथ, कोई भी छोटा सा वास्तविक प्रभाव एक छोटे से पी मूल्य पर ले जाएगा।
माइकल एम

1
@ भजन - हालांकि, यदि उनके नमूने का आकार काफी बड़ा है, तो सीएलटी द्वारा वे सामान्य रूप से वितरित होने के बहुत करीब होंगे। अशक्त परिकल्पना के तहत, संस्करण समान होंगे (जैसे कि साधन हैं), इसलिए, एक बड़े पर्याप्त नमूना आकार के साथ, एक टी-परीक्षण ठीक काम करना चाहिए; यह उतना अच्छा नहीं होगा जितना आप सभी डेटा के साथ कर सकते हैं, लेकिन फिर भी यह ठीक होगा। , उदाहरण के लिए, बहुत अच्छा होगा। n1=n2=100
जुम्मन

जवाबों:


14

आप विकल्प के खिलाफ माध्य मापदंडों की समानता का परीक्षण कर सकते हैं कि माध्य मान असमान अनुपात परीक्षण (LR परीक्षण) के साथ असमान हैं। (हालाँकि, यदि माध्य पैरामीटर अलग-अलग हैं और वितरण घातीय है, यह एक स्केल शिफ्ट है, स्थान परिवर्तन नहीं है।)

एक-पूंछ वाले परीक्षण के लिए (लेकिन केवल दो पूंछ वाले मामले में समान रूप से), मेरा मानना ​​है कि LR परीक्षण निम्नलिखित के बराबर होता है (यह दिखाने के लिए कि यह वास्तव में एक-पूंछ के लिए LR परीक्षण के समान है मामले एक एलआर आंकड़ा दिखाने के लिए की आवश्यकता होगी monotonic में था ):x¯/y¯

चलो कहते हैं कि हम parameterize होने के रूप में पहले घातीय में वें अवलोकन पीडीएफ 1 / μ एक्स exp ( - एक्स मैं / μ एक्स ) और जे पीडीएफ होने के रूप में वें दूसरा नमूना में अवलोकन 1 / μ y exp ( - y जे / μ y ) (टिप्पणियों और मापदंडों के लिए स्पष्ट डोमेन पर)। (स्पष्ट होने के लिए, हम यहाँ माध्य-रूप में काम कर रहे हैं न कि दर-रूप, यह गणना के परिणाम को प्रभावित नहीं करेगा।)i1/μxexp(xi/μx)j1/μyexp(yj/μy)

के वितरण के बाद से गामा का एक विशेष मामला है, Γ ( 1 , μ एक्स ) , की राशि का वितरण एक्स की, एस एक्स वितरित किया जाता है Γ ( एन एक्स , μ एक्स ) ; इसी तरह है कि की राशि के लिए वाई एस, एस वाई है Γ ( एन वाई , μ y )XiΓ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

x¯/y¯F2nx,2ny


यह जांचने के लिए कि हम बीजगणित में कुछ सरल गलती नहीं करते हैं:

XY

F

शून्य के तहत अनुपात सांख्यिकीय का अनुकरणीय उदाहरण वितरण


उदाहरण, दो पूंछ वाले पी-मानों की गणना की चर्चा के साथ :

गणना को स्पष्ट करने के लिए, यहाँ घातांक वितरण से दो छोटे नमूने हैं। एक्स-सैंपल की औसत 10 के साथ जनसंख्या में 14 अवलोकन हैं, वाई-सैंपल में औसत 15 के साथ जनसंख्या से 17 अवलोकन हैं:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

नमूना साधन क्रमशः 12.082 और 16.077 हैं। साधनों का अनुपात 0.7515 है

बाईं ओर का क्षेत्र सीधा है, क्योंकि यह निचली पूंछ (R में कैल्क) में है:

 > pf(r,28,34) 
 [1] 0.2210767

हमें दूसरी पूंछ के लिए संभावना की आवश्यकता है। यदि वितरण व्युत्क्रम में सममित था, तो ऐसा करना सीधा होगा।

वेरिएंस एफ-टेस्ट के अनुपात के साथ एक आम सम्मेलन (जो समान रूप से दो पूंछ है) बस एक-पूंछ वाले पी-मूल्य को दोगुना करने के लिए है (प्रभावी रूप से यहां क्या चल रहा है ; यह भी आर में किया जा रहा है, उदाहरण के लिए लगता है। ); इस मामले में यह 0.44 का पी-मूल्य देता है।

α/2α


मैं अनुमान लगा रहा हूं कि यह सिर्फ मुझे मोटा होना है, लेकिन 0.7515 कहां से आता है?
जोनाथन डोबेबी

r = माध्य (x) / माध्य (y) = 0.7515 - अर्थात "साधनों का अनुपात"
Glen_b -Reinstate Monica

ठीक है, बहुत बढ़िया। मुझे 0.67 मिला है, लेकिन यह केवल डेटा प्रविष्टि त्रुटि के कारण है।
जोनाथन डोबेबी

1
मैंने जनसंख्या के साधनों में अंतर किया है और परिणामी नमूने का अर्थ और अधिक स्पष्ट है
Glen_b -Reinstate Monica

(+1) लेकिन हालांकि यह मूर्त है, मैं अंतिम पैराग्राफ को नहीं समझता। कैसे सबसे बड़ी को खोजने के बराबर नहीं, एक-पूंछ वाले पी-मूल्य को दोगुना किया जा रहा हैαα2

3

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯r=1

rELRrobsPr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315 )।

यहां छवि विवरण दर्ज करें

लेकिन एक-पूंछ वाले पी-मूल्य को दोगुना करना शायद दो-पूंछ वाले पी-मूल्य प्राप्त करने का सबसे आम तरीका है: यह नमूने के अनुपात के मूल्य को खोजने के बराबर है जिसका अर्थ है जिसके लिए पूंछ की संभावना बराबर है , और फिर ढूँढना । इस तरह समझाया गया है, यह हो सकता है कि पूंछ की संभावनाओं को घोड़ों के सामने रखने से पहले गाड़ी को डाल दिया जाए, जो परीक्षण की सांख्यिकी की चरमता को परिभाषित करता है, लेकिन इसे कई तुलनाओं के साथ दो एक-पूंछ परीक्षण (प्रत्येक LRT) के प्रभाव में होने के रूप में उचित ठहराया जा सकता है। और लोग आमतौर पर या तो यह दावा करने में रुचि रखते हैं कि या किrETPPr(R>rETP)Pr(R<robs)Pr(R>rETP)μx>μyμx<μyμx>μyμx<μy। यह भी कम उपद्रव है, और यहां तक ​​कि काफी छोटे नमूना आकारों के लिए, दो-पूंछ वाले LRT को उचित रूप में एक ही जवाब देता है।

यहां छवि विवरण दर्ज करें

आर कोड इस प्रकार है:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.