सटीक दो नमूना अनुपात द्विपद परीक्षण आर में (और कुछ अजीब पी-मूल्य)


23

मैं निम्नलिखित प्रश्न को हल करने की कोशिश कर रहा हूं:

खिलाड़ी A ने 25 में से 17 गेम जीते जबकि खिलाड़ी B ने 20 में से 8 जीते - क्या दोनों अनुपातों में महत्वपूर्ण अंतर है?

R के दिमाग में आने वाली बात निम्नलिखित है:

> prop.test(c(17,8),c(25,20),correct=FALSE)

    2-sample test for equality of proportions without continuity correction

data:  c(17, 8) out of c(25, 20)
X-squared = 3.528, df = 1, p-value = 0.06034
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.002016956  0.562016956
sample estimates:
prop 1 prop 2 
  0.68   0.40 

तो यह परीक्षण कहता है कि अंतर 95% आत्मविश्वास के स्तर पर महत्वपूर्ण नहीं है।

क्योंकि हम जानते हैं कि prop.test()केवल एक सन्निकटन का उपयोग कर रहा हूं मैं एक सटीक द्विपद परीक्षण का उपयोग करके चीजों को अधिक सटीक बनाना चाहता हूं - और मैं इसे दोनों के चारों ओर करता हूं:

> binom.test(x=17,n=25,p=8/20)

    Exact binomial test

data:  17 and 25
number of successes = 17, number of trials = 25, p-value = 0.006693
alternative hypothesis: true probability of success is not equal to 0.4
95 percent confidence interval:
 0.4649993 0.8505046
sample estimates:
probability of success 
                  0.68 

> binom.test(x=8,n=20,p=17/25)

    Exact binomial test

data:  8 and 20
number of successes = 8, number of trials = 20, p-value = 0.01377
alternative hypothesis: true probability of success is not equal to 0.68
95 percent confidence interval:
 0.1911901 0.6394574
sample estimates:
probability of success 
                   0.4 

अब यह अजीब है, है ना? पी-मान हर बार पूरी तरह से अलग हैं! दोनों ही मामलों में अब परिणाम (अत्यधिक) महत्वपूर्ण हैं, लेकिन पी-वैल्यू लापरवाही से इधर-उधर कूदते दिख रहे हैं।

मेरे सवाल

  1. क्यों पी मान हैं कि अलग अलग हर बार?
  2. आर में सही दो नमूना अनुपात द्विपद परीक्षण कैसे करें?

3
यद्यपि R फ़ंक्शन अलग है ( prop.testबनाम chisq.test), वही अंतर्निहित अवधारणा इस प्रश्न में है । आप अपने प्रत्येक तीन उदाहरणों में विभिन्न "अशक्त परिकल्पना" के साथ तीन अलग-अलग परीक्षण चला रहे हैं।
Aff

जवाबों:


26

यदि आप दो द्विपदीय अनुपातों के लिए 'सटीक' परीक्षण की तलाश कर रहे हैं, तो मेरा मानना ​​है कि आप खोज रहे हैं फिशर के सटीक परीक्षण की । आर में इसे इस तरह लागू किया जाता है:

> fisher.test(matrix(c(17, 25-17, 8, 20-8), ncol=2))
    Fisher's Exact Test for Count Data
data:  matrix(c(17, 25 - 17, 8, 20 - 8), ncol = 2)
p-value = 0.07671
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.7990888 13.0020065
sample estimates:
odds ratio 
  3.101466 

fisher.testसमारोह 'सफलताओं' और 'विफलताओं' दो द्विपद अनुपात के एक मैट्रिक्स वस्तु स्वीकार करता है। जैसा कि आप देख सकते हैं, हालांकि, दो तरफा परिकल्पना अभी भी महत्वपूर्ण नहीं है, कहने के लिए क्षमा करें। हालाँकि, फ़िशर का सटीक परीक्षण आमतौर पर केवल तब लागू किया जाता है जब एक सेल काउंट कम होता है (आमतौर पर इसका मतलब 5 या उससे कम होता है, लेकिन कुछ का कहना है 10), इसलिए आपका प्रारंभिक उपयोग prop.testअधिक उपयुक्त है।

आपकी binom.testकॉल के बारे में , आप कॉल को गलत समझ रहे हैं। जब आप दौड़ते हैं binom.test(x=17,n=25,p=8/20)तो आप परीक्षण कर रहे हैं कि क्या अनुपात जनसंख्या से काफी अलग है जहां सफलता की संभावना 8/20 है । इसी तरह binom.test(x=8,n=20,p=17/25)कहते हैं कि सफलता की संभावना 17/25 है, यही वजह है कि ये पी-वैल्यू भिन्न हैं। इसलिए आप दो अनुपातों की तुलना बिल्कुल नहीं कर रहे हैं।


2
धन्यवाद, मैंने आपका उत्तर स्वीकार कर लिया। जब आप कहते हैं कि Prop.test "अधिक उपयुक्त" है तो आपका क्या मतलब है? फिशर के सटीक परीक्षण द्वारा दिया गया वास्तव में अधिक सटीक परिणाम है, है ना?
वॉनजड

4
यह वास्तव में ऐसा कुछ है जो सांख्यिकीविदों के बीच बहस में है और मेरे पास इसका कोई सटीक जवाब नहीं है। ऐतिहासिक रूप से, आपने फ़िशर से परहेज किया क्योंकि यह बहुत कम्प्यूटेशनल रूप से जटिल हो जाता है लेकिन कंप्यूटर को इसके चारों ओर मिलता है। सामान्यतया, फ़िशर का सटीक परीक्षण रूढ़िवादी है और यदि आपकी संख्या काफी बड़ी है, तो ची-स्क्वायर स्टेटिस्टिक (जो कि prop.testगणना करता है) एक प्रकार की द्वितीय त्रुटि नहीं होने की अधिक संभावना है।
cdeterman

मेरे लिए महत्वपूर्ण बिंदु अलग-अलग शब्दार्थ हैं prop.testऔर fisher.test: पूर्व को कहा जाता है जैसे prop.test(matrix(c(17, 8, 25, 20), ncol=2))(पहले कॉलम में सफलताओं की संख्या और दूसरे कॉलम में परीक्षणों की संख्या ), जबकि बाद वाले को कहा जाता है fisher.test(matrix(c(17, 25-17, 8, 20-8), ncol=2))(सफलताओं की संख्या देते हुए) और विफलताओं ); के लिए fisher.test, ट्रांसपोज़िशन परिणाम को बदलने के लिए प्रतीत नहीं होता है, भी।
krlmlr

2x2 परीक्षणों के लिए एक अधिक शक्तिशाली विकल्प भी उपलब्ध है - en.wikipedia.org/wiki/Barnard%27s_test
Hamy

4

एक ज्ञात परिकल्पना की तुलना में दो नमूनों और एक नमूने के बीच अंतर है। तो अगर कोई 100 बार सिक्का उछालता है और 55 बार सिर काटता है और परिकल्पना एक उचित सिक्का है, बनाम दो लोग अज्ञात निष्पक्षता के सिक्के को फैंकते हैं और एक को 55 बार और दूसरे को 45 बार सिर मिलता है। पूर्व मामले में आप बस यह पहचानने की कोशिश कर रहे हैं कि क्या फ़्लिपर एक उचित सिक्का फ़्लिप करता है। उत्तरार्द्ध में, आप यह देखना चाह रहे हैं कि क्या वे उसी निष्पक्षता के सिक्के उछाल रहे हैं। आप देख सकते हैं कि यदि आप प्रत्येक खिलाड़ी को ज्ञात संभावना (45 बनाम 50 और 55 बनाम 50) के खिलाफ देख रहे हैं, तो उनकी तुलना एक दूसरे से करने से अलग है (45 बनाम 55)।


2

binom.testजनसंख्या बिंदु अनुमान की तुलना में कई परीक्षणों के भीतर आपकी सफलता का सिंटैक्स है । यद्यपि आपने इसे p = 8/20 के रूप में दर्ज किया, लेकिन गणना इस तरह की है जैसे कि ईश्वर प्रदत्त पूर्ण-सत्य 0.4 इसके चारों ओर शून्य विचरण था। या ऐसा लगता है जैसे आप खिलाड़ी ए की 17 जीत में से 25 से खिलाड़ी बी की काल्पनिक 8 बिलियन की जीत में से 20 बिलियन खेलों की तुलना कर रहे थे। हालांकि, prop.testअपने सभी संभावित विचरण के साथ 17/25 के अनुपात की तुलना अपने स्वयं के विचरण के साथ 8/20 के अनुपात से करता है। दूसरे शब्दों में चारों ओर 0.7 (17/25 का अनुमान) और विचरण विचरण के आसपास 0.4 हो सकता है खून बहाना एक परिणामी पी = 0.06 के साथ एक दूसरे में।


तो इसका मतलब यह होगा कि मूल प्रश्न को हल करने का सही तरीका है prop.test(c(17,8),c(25,20),correct=FALSE), है ना?
वॉनजड

1
हां यह सही है। यदि आप मार्गदर्शन चाहते हैं कि क्या आपके पास correct = FALSEबनाम होना चाहिए, correct = TRUEतो मेरा सुझाव है कि आप निम्नलिखित आँकड़े
Farrel

2

पहले मैं आपको सुझाव दूंगा कि आप एक निरंतरता सुधार करना चाहते हैं, क्योंकि आप एक निरंतर (ची-वर्ग) वितरण के साथ असतत वितरण का अनुमान लगा रहे हैं।

दूसरा, यह महत्वपूर्ण है कि "प्रयोग", यदि आप करेंगे, तो यह स्पष्ट है। उन सभी खेलों की संख्या थी जो प्रत्येक व्यक्ति पहले से निर्धारित करता था (या डिजाइन द्वारा तय किए गए उद्योग के मौखिक रूप में)? यदि ऐसा है, और आगे यह मानते हुए कि प्रत्येक खिलाड़ी के परिणाम दूसरे से स्वतंत्र हैं, तो आप 2 द्विपद वितरण के उत्पाद के साथ काम कर रहे हैं। यदि इसके बजाय खेलों की संख्या अलग-अलग थी (उदाहरण के लिए कहें, तो प्रत्येक व्यक्ति द्वारा खेले जाने वाले खेलों की संख्या एक निश्चित समय सीमा में पूरी होने वाली खेल की संख्या के आधार पर चर थी), तो आप एक बहुराष्ट्रीय कंपनी के साथ काम कर रहे हैं या पॉइसन वितरण।

दूसरे मामले में ची-स्क्वायर परीक्षण (या जो एक ही चीज है, अनुपात में अंतर का एक जेड-परीक्षण) उपयुक्त है, लेकिन पूर्व मामले में ऐसा नहीं है। पहले मामले में, आपको वास्तव में प्रत्येक खिलाड़ी के लिए हर संभव द्विपद परिणाम के सटीक उत्पाद की गणना करने की आवश्यकता है, और सभी घटनाओं के लिए इन संभावनाओं को योग करें जो कि देखे गए परिणामों के संयुक्त द्विपद संभावना से कम या बराबर हैं (यह बस है 2 द्विपद के उत्पाद क्योंकि प्रत्येक खिलाड़ी के परिणाम अन्य खिलाड़ी के परिणामों से स्वतंत्र होते हैं)।

पहले यह पहचान लें कि किसी भी परिकल्पना परीक्षण का केंद्रीय उद्देश्य अन्य सभी संभावित परिणामों की तुलना में सिर्फ "दुर्लभ" या असामान्य रूप से आपके द्वारा देखे गए विशिष्ट परिणाम की गणना करना है। यह आपके द्वारा देखे गए परिणाम की संभावना की गणना करके गणना की जाती है - यह धारणा देते हुए कि अशक्त परिकल्पना सत्य है - समान या निम्न प्रायिकता के अन्य सभी संभावित परिणामों के साथ एक साथ अभिव्यक्त।

अब यह दोहराता है कि "कितना दुर्लभ" से हमारा मतलब है "अन्य सभी संभावित परिणामों की तुलना में प्राप्त परिणामों के अवलोकन की संभावना कितनी कम है?" खैर, हमारे द्वारा देखे गए विशिष्ट परिणाम की संभावना 0.0679 * 0.0793 = 0.005115 है। अब एक विशिष्ट वैकल्पिक परिणाम पर विचार करें: यह निश्चित रूप से संभव है कि खिलाड़ी A अपने 20 खेलों में से 7 जीत सकता था और खिलाड़ी B अपने 25 खेलों में से 13 जीत सकता था। इस परिणाम की संभावना 0.004959 है। ध्यान दें कि यह हमारे देखे गए परिणाम की संभावना से कम है, इसलिए इसे पी-मूल्य में शामिल किया जाना चाहिए। लेकिन फिर से देखें: यदि आप यह तय कर रहे हैं कि परिणाम में आपकी राशि में शामिल करने के लिए परिणाम हैं कि क्या अनुपात में अंतर हमारे मनाया परिणाम में अनुपात में अंतर से अधिक है, तो इस संभावना को बाहर रखा जाएगा! क्यूं कर? क्योंकि इस विशिष्ट परिणाम के अनुपात में अंतर हमारे देखे गए परिणाम के अनुपात में अंतर से कम है। लेकिन यह उचित ध्यान नहीं है - हमें इस विशिष्ट परिणाम की संभावना के साथ चिंतित होना चाहिए और क्या यह हमारे द्वारा देखे गए परिणाम की संभावना के बराबर या उससे कम है!

इसका एक अच्छा औपचारिक विवरण यहां पाया जा सकता है:

http://data.princeton.edu/wws509/notes/c5.pdf

कृपया पृष्ठ 9 पर विशेष रूप से कथन को ध्यान में रखें कि "यदि पंक्ति मार्जिन निर्धारित है और नमूना योजना द्विपद है, तो हमें उत्पाद द्विपद मॉडल का उपयोग करना चाहिए, क्योंकि हम बिना अधिक जानकारी के दो चर के संयुक्त वितरण का अनुमान नहीं लगा सकते हैं।"


आर कोड के लिए जो संयुक्त द्विपद संभावनाओं की राशि की गणना करता है, जिसमें अवलोकन परिणाम की संभावना की तुलना में होने की समान या कम संभावना है, निम्न संबंधित पोस्ट का उत्तर देखें : ysts.stackexchange.com/questure/213295/…
user221943
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.