पी-वैल्यू को समझना


33

मुझे पता है कि पी-मूल्य की व्याख्या करने वाली बहुत सारी सामग्रियां हैं। हालांकि अवधारणा आगे स्पष्टीकरण के बिना मजबूती से पकड़ना आसान नहीं है।

यहाँ विकिपीडिया से p- मान की परिभाषा इस प्रकार है:

पी-मान कम से कम एक परीक्षण सांख्यिकीय प्राप्त करने की संभावना है जितना कि वास्तव में मनाया गया था, यह मानते हुए कि शून्य परिकल्पना सच है। ( http://en.wikipedia.org/wiki/P-value )

मेरा पहला सवाल अभिव्यक्ति से संबंधित है "कम से कम उतना ही चरम जितना कि वास्तव में मनाया गया था।" पी-मूल्य के उपयोग को अंतर्निहित तर्क की मेरी समझ निम्नलिखित है: यदि पी-मूल्य छोटा है, तो यह संभावना नहीं है कि अवलोकन शून्य परिकल्पना मान रहा है और हमें अवलोकन की व्याख्या करने के लिए वैकल्पिक परिकल्पना की आवश्यकता हो सकती है। यदि पी-मूल्य इतना छोटा नहीं है, तो यह संभावना है कि अवलोकन केवल शून्य परिकल्पना मान रहा है और अवलोकन की व्याख्या करने के लिए वैकल्पिक परिकल्पना आवश्यक नहीं है। इसलिए यदि कोई किसी परिकल्पना पर जोर देना चाहता है तो उसे यह दिखाना होगा कि अशक्त परिकल्पना का पी-मूल्य बहुत छोटा है। इस दृष्टिकोण को ध्यान में रखते हुए, अस्पष्ट अभिव्यक्ति की मेरी समझ यह है कि p-valuemin[P(X<x),P(x<X)], यदि आँकड़ा का पीडीएफ अनिमॉडल है, जहाँ X परीक्षण आँकड़ा है और अवलोकन से प्राप्त x इसका मान है। क्या यह सही है? यदि यह सही है, तो क्या यह अभी भी सांख्यिकी के द्विपदीय पीडीएफ का उपयोग करने के लिए लागू है? यदि पीडीएफ की दो चोटियों को अच्छी तरह से अलग किया जाता है और देखा गया मूल्य दो चोटियों के बीच कम संभावना घनत्व क्षेत्र में कहीं है, तो पी-मान किस संभावना को देता है?

दूसरा सवाल Wolfram मैथवर्ल्ड से पी-मूल्य का एक और परिभाषा के बारे में है:

संभावना यह है कि एक परिवर्तनशील मान संयोग से कड़ाई से मान के बराबर या उससे अधिक मान लेगा। ( http://mathworld.wolfram.com/P-Value.html )

मैं समझ गया कि "सख्ती से संयोग" वाक्यांश की व्याख्या "एक अशक्त परिकल्पना मानकर" की जानी चाहिए। क्या वह सही है?

तीसरा सवाल "शून्य परिकल्पना" के उपयोग का संबंध। मान लेते हैं कि कोई व्यक्ति यह कहना चाहता है कि एक सिक्का उचित है। वह परिकल्पना व्यक्त करता है क्योंकि सिर की सापेक्ष आवृत्ति 0.5 है। फिर अशक्त परिकल्पना है "सिर की सापेक्ष आवृत्ति 0.5 नहीं है।" इस मामले में, जबकि शून्य परिकल्पना के पी-मूल्य की गणना करना मुश्किल है, वैकल्पिक परिकल्पना के लिए गणना आसान है। बेशक समस्या का समाधान दो परिकल्पनाओं की भूमिका को बदलकर किया जा सकता है। मेरा सवाल यह है कि मूल वैकल्पिक परिकल्पना (शून्य परिकल्पना को पेश किए बिना) के पी-मूल्य के आधार पर अस्वीकृति या स्वीकृति सीधे है कि क्या यह ठीक है या नहीं। यदि यह ठीक नहीं है, तो अशक्त परिकल्पना के पी-मूल्य की गणना करते समय ऐसी कठिनाइयों के लिए सामान्य रूप से क्या समाधान है?




मैंने एक नया प्रश्न पोस्ट किया है जो इस थ्रेड में चर्चा के आधार पर अधिक स्पष्ट है।




14
आपने एक सूक्ष्मता पकड़ी है जो अक्सर पहचाना नहीं जाता है: "अधिक चरम" को वैकल्पिक परिकल्पना के सापेक्ष संभावना के संदर्भ में मापने की आवश्यकता है बजाय स्पष्ट (आमतौर पर सही नहीं) के अर्थ में शून्य नमूने की पूंछ में आगे होने की भावना। वितरण। यह नेमन-पियर्सन लेम्मा के निर्माण में स्पष्ट है , जिसका उपयोग कई परिकल्पना परीक्षणों को सही ठहराने और उनके महत्वपूर्ण क्षेत्रों को निर्धारित करने के लिए किया जाता है (और उनके पी-मानों को भांपते हैं)। इसके माध्यम से सोचने से आपके पहले प्रश्न का उत्तर देने में मदद मिलेगी।
व्हीबर

1
जैसा कि मुझे याद है, नेमन-पियर्सन लेम्मा सरल बनाम सरल परिकल्पना परीक्षणों (हो: mu = mu_0, Ha: mu = mu_a) के लिए इष्टतम है। मिश्रित परीक्षणों के लिए (हो: mu = mu_0, Ha: mu> mu_a) एक वैकल्पिक परीक्षण है।
राबर्ट एफएक्यू

जवाबों:


17

पहले जवाब दो

आपको परीक्षण के आंकड़ों की संभावना के संदर्भ में चरम की अवधारणा पर विचार करना होगा, न कि इसके मूल्य या परीक्षण किए जा रहे यादृच्छिक चर के मूल्य के संदर्भ में। मैं क्रिस्टेंसन, आर (2005) से निम्न उदाहरण की रिपोर्ट करता हूं। फिशर, नेमन, पियर्सन और बेयस का परीक्षणद अमेरिकन स्टेटिस्टिशियन , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

यहाँ अवलोकन हैं, दूसरी पंक्ति शून्य परिकल्पना तहत दिए गए अवलोकन का अवलोकन करने की संभावना है , जिसका उपयोग यहाँ परीक्षण आँकड़ों के रूप में किया जाता है, तीसरी पंक्ति मान है। हम यहां फिशरियन परीक्षण के ढांचे में हैं: एक परिकल्पना है ( , इस मामले में the ) जिसके तहत हम यह देखना चाहते हैं कि डेटा अजीब है या नहीं। सबसे छोटी प्रायिकता वाले अवलोकन 2 और 3 हैं, जिनमें 0.5% प्रत्येक के साथ हैं। यदि आप 2 प्राप्त करते हैं, उदाहरण के लिए, संभावना या कम संभावना ( और ) के रूप में कुछ का निरीक्षण करने की संभावना 1% है। अवलोकन योगदान नहीं करता हैrθ=0pH0θ=0r=2r=3r=4p मूल्य, हालांकि यह और भी दूर है (यदि कोई ऑर्डर संबंध मौजूद है), क्योंकि इसमें अवलोकन किए जाने की अधिक संभावना है।

यह परिभाषा सामान्य रूप से काम करती है, क्योंकि यह श्रेणीबद्ध और बहुआयामी दोनों प्रकार के चर को समायोजित करती है, जहां एक ऑर्डर रिलेशन को परिभाषित नहीं किया जाता है। एक कम मात्रात्मक चर के मामले में, जहां आप सबसे अधिक संभावित परिणाम से कुछ पूर्वाग्रह देखते हैं, यह एकल पूंछ वाले मान की गणना करने के लिए समझ में आता है , और केवल उन टिप्पणियों पर विचार करें जो परीक्षण आँकड़ों के वितरण के एक तरफ हैं।p

दूसरा जवाब

मैं पूरी तरह से Mathworld की इस परिभाषा से असहमत हूं।

तीसरा जवाब

मेरा कहना है कि मुझे पूरा यकीन नहीं है कि मैं आपका सवाल समझ पाया हूँ, लेकिन मैं कुछ टिप्पणियों को देने की कोशिश करूँगा जो आपकी मदद कर सकती हैं।

फिशरियन परीक्षण के सबसे सरल संदर्भ में, जहां आपके पास केवल शून्य परिकल्पना है, यह यथास्थिति होनी चाहिए । ऐसा इसलिए है क्योंकि फिशरियन परीक्षण अनिवार्य रूप से विरोधाभास से काम करता है। इसलिए, सिक्के के मामले में, जब तक आपके पास अलग तरीके से सोचने के कारण नहीं हैं, आप मान लेंगे कि यह उचित है, । तब आप तहत अपने डेटा के लिए मान की गणना करते हैं और, यदि आपका मान पूर्वनिर्धारित सीमा से कम है, तो आप परिकल्पना (विरोधाभास द्वारा प्रमाण) को अस्वीकार करते हैं। आप कभी भी अशक्त परिकल्पना की संभावना की गणना नहीं करते हैं।H0:θ=0.5pH0p

नेमन-पीयरसन परीक्षणों के साथ आप दो वैकल्पिक परिकल्पनाएं निर्दिष्ट करते हैं और, उनके सापेक्ष संभावना और पैरामीटर वैक्टर की गतिशीलता के आधार पर, आप एक या दूसरे का पक्ष लेते हैं। यह देखा जा सकता है, उदाहरण के लिए, पक्षपाती बनाम निष्पक्ष सिक्के की परिकल्पना का परीक्षण करने में। निष्पक्ष का अर्थ है पैरामीटर को (इस पैरामीटर स्थान की शून्य है), जबकि पक्षपाती किसी भी मान हो सकता है (एक के बराबर आयाम)। यह विरोधाभास द्वारा पूर्वाग्रह की परिकल्पना के विरोध की कोशिश करने की समस्या को हल करता है, जो असंभव होगा, जैसा कि किसी अन्य उपयोगकर्ता द्वारा समझाया गया है। फिशर और एनपी समान परिणाम देते हैं जब नमूना बड़ा होता है, लेकिन वे बिल्कुल बराबर नहीं होते हैं। एक पक्षपाती सिक्के के लिए आर में एक सरल कोड के नीचे।θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
एक महान लेख को इंगित करने के लिए +1 जिसके बारे में मुझे नहीं पता था। (आंकड़ों की दृष्टि से मैथवर्ल्ड की उपयोगिता के बारे में कुछ अधिक आवश्यक संदेह के लिए भी)।
संयुक्ताक्षरी

आपका बहुत बहुत धन्यवाद! तो p- मान \ int_ {x: f (x) <= k} f है, जहाँ f एक परीक्षण आँकड़ा का PDF है और k आँकड़ा का मनाया गया मान है। फिर से धन्यवाद।
JDL

तीसरे उत्तर के संबंध में, आपके उत्तर में जो सिद्ध किया गया है, वह सिक्के की अनुचितता है क्योंकि निष्पक्षता धारणा को खारिज कर दिया गया है। इसके विपरीत, विरोधाभास द्वारा सिक्के की निष्पक्षता साबित करने के लिए, मुझे अनुचितता \ थीटा \ neq 0.5 माननी होगी और अपने डेटा के पी-मूल्य की गणना करनी होगी। मैं यह कैसे कर सकता हूं? मेरी बात अनुचित धारणा के \ neq संकेत से उत्पन्न कठिनाई है। क्या मुझे निष्पक्षता के लिए कुछ सहिष्णुता के स्तर का परिचय देना है, 0.4 <\ थीटा <0.6 कहें, और \ _ थीटा के संदर्भ में पी-मान की गणना करें और इसे 0 </ थीटा <0.4 और 0.6 </ थीटा <1 पर एकीकृत करें?
JDL

एक और प्रश्न। यह लिंक "एक तरफा" पी-मूल्य बताता है। यह कहता है कि एकतरफा पी-वैल्यू सवालों के जवाब देता है जैसे "अशक्त परिकल्पना, कि दो आबादी वास्तव में एक ही हैं ... क्या मौका है कि बेतरतीब ढंग से चुने गए नमूनों का मतलब इस प्रयोग में देखा गया (या उससे आगे) होगा। बड़ा मतलब होने वाले निर्दिष्ट समूह ? " क्या यह एक तरफा पी-मूल्य का उचित उपयोग है? मुझे लगता है कि अशक्त परिकल्पना को इस मामले में (समानता और एक तरफा परीक्षण के बजाय) असमानता के रूप में व्यक्त किया जाना चाहिए।
JDL

1
@Zag, मैं इस जवाब के साथ नहीं बल्कि इससे सहमत नहीं: यदि आप नहीं करते है संभावना के मामले में चरम की अवधारणा के बारे में सोचना। यह कहने के लिए बेहतर है कि इस उदाहरण में अशक्त के तहत संभाव्यता को परीक्षण सांख्यिकीय के रूप में उपयोग किया जा रहा है - लेकिन यह अनिवार्य नहीं है। उदाहरण के लिए, अगर संभावना अनुपात, जैसा कि व्हीबर द्वारा उल्लेख किया गया है, एक परीक्षण सांख्यिकीय के रूप में उपयोग किया जाता है, तो यह सामान्य रूप से एक ही क्रम में संभव नमूनों को नहीं डालेगा, क्योंकि अशक्त के तहत संभावना होगी। अन्य आँकड़े एक निर्दिष्ट विकल्प, या सभी विकल्पों के खिलाफ अधिकतम शक्ति के लिए, या अस्पष्ट रूप से परिभाषित सेट के खिलाफ उच्च शक्ति के लिए चुने जाते हैं।
Scortchi - को पुनः स्थापित मोनिका

8

(1) एक आँकड़ा एक संख्या है जिसे आप एक नमूने से गणना कर सकते हैं। यह आपके द्वारा प्राप्त किए जाने वाले सभी नमूनों को क्रम में रखने के लिए उपयोग किया जाता है (एक ग्रहण किए गए मॉडल के तहत, जहां सिक्के उनके किनारों पर नहीं आते हैं और आपके पास क्या है)। यदि वह है जो आप वास्तव में प्राप्त नमूने से गणना करते हैं, और संगत यादृच्छिक चर है, तो p-value शून्य परिकल्पना के तहत, । 'अधिक से अधिक' बनाम 'अति' सिद्धांत में महत्वहीन है। एक सामान्य अर्थ पर दो तरफा परीक्षण के लिए हम उपयोग कर सकते हैं, लेकिन क्योंकि हमारे पास उपयुक्त टेबल हैं। (दोहरीकरण पर ध्यान दें)tTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

नल की परिकल्पना के तहत उनकी संभाव्यता के क्रम में नमूनों को रखने के लिए परीक्षण सांख्यिकीय की कोई आवश्यकता नहीं है। ऐसी स्थितियाँ हैं (जैसे ज़ैग का उदाहरण) जहाँ कोई भी अन्य तरीका विकृत प्रतीत होता है ( उपायों के बारे में अधिक जानकारी के बिना , साथ किस प्रकार की विसंगतियाँ सबसे अधिक रुचि की हैं, & c।), लेकिन अक्सर अन्य मानदंडों का उपयोग किया जाता है। तो आपके पास परीक्षण आँकड़ा के लिए एक bimodal पीडीएफ हो सकता है और फिर भी उपरोक्त सूत्र का उपयोग करके का परीक्षण कर सकते हैं।rH0H0

(२) हां, उनका मतलब तहत है ।H0

(३) एक अशक्त परिकल्पना जैसे "सिर की आवृत्ति 0.5 नहीं है" कोई उपयोग नहीं है क्योंकि आप इसे कभी भी अस्वीकार नहीं कर पाएंगे। यह एक समग्र अशक्त है, जिसमें "सिर की आवृत्ति 0.49999999 है", या जैसे ही आप चाहते हैं। चाहे आप सिक्के के मेले के बारे में पहले से सोचते हों या नहीं, आप एक उपयोगी अशक्त परिकल्पना उठाते हैं जो समस्या पर आधारित है। प्रयोग के बाद शायद अधिक उपयोगी है सिर की आवृत्ति के लिए एक आत्मविश्वास अंतराल की गणना करना जो आपको दिखाता है कि यह या तो स्पष्ट रूप से एक उचित सिक्का नहीं है, या यह उचित रूप से पर्याप्त है, या आपको यह पता लगाने के लिए और अधिक परीक्षण करने की आवश्यकता है।

(1) के लिए एक चित्रण:

मान लीजिए कि आप 10 टॉज़ के साथ एक सिक्के की निष्पक्षता का परीक्षण कर रहे हैं। कर रहे हैं संभव परिणाम। यहाँ उनमें से तीन हैं:210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

आप शायद मेरे साथ सहमत होंगे कि पहले दो थोड़ा संदिग्ध लगते हैं। फिर भी अशक्त के तहत संभावनाएँ बराबर हैं:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

कहीं भी पाने के लिए आपको इस बात पर विचार करने की आवश्यकता है कि आप किस प्रकार के विकल्प का परीक्षण करना चाहते हैं। यदि आप अशक्त और वैकल्पिक दोनों में प्रत्येक टॉस की स्वतंत्रता को ग्रहण करने के लिए तैयार हैं (और वास्तविक स्थितियों में (इसका अक्सर प्रयोगात्मक परीक्षणों को सुनिश्चित करने के लिए बहुत कठिन काम करने का मतलब है) स्वतंत्र हैं, तो आप बिना जानकारी खोए एक परीक्षण सांख्यिकीय के रूप में सिर की कुल गिनती का उपयोग कर सकते हैं। । (इस तरह से नमूना स्थान को विभाजित करना एक और महत्वपूर्ण काम है जो आंकड़े करते हैं।)

तो आपके पास 0 और 10 के बीच की गिनती है

t<-c(0:10)

नल के तहत इसका वितरण है

p.null<-dbinom(t,10,0.5)

यदि आप देखते हैं कि विकल्प के संस्करण के तहत सबसे अच्छा डेटा फिट बैठता है, यदि आप देखते हैं (कहते हैं) 10 में से 3 सिर की संभावना है , इसलिए310

p.alt<-dbinom(t,10,t/10)

विकल्प के तहत संभावना के लिए शून्य के तहत संभावना के अनुपात को लें (संभावना अनुपात कहा जाता है):

lr<-p.alt/p.null

तुलना करना

plot(log(lr),p.null)

तो इस अशक्त के लिए, दो आँकड़े उसी तरह से नमूने का आदेश देते हैं। यदि आप 0.85 के शून्य के साथ दोहराते हैं (यानी यह परीक्षण कि लंबे समय तक चलने की आवृत्ति 85% है), तो वे नहीं करते हैं।

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof परीक्षण

क्यों देखना है

plot(t,p.alt)

कुछ मूल्य विकल्प के तहत कम संभावित हैं, और संभावना अनुपात परीक्षण आँकड़ा इसे ध्यान में रखता है। एनबी यह परीक्षण सांख्यिकीय के लिए चरम नहीं होगाt

HTHTHTHTHT

और यह ठीक है - प्रत्येक नमूने को किसी न किसी दृष्टिकोण से चरम माना जा सकता है। आप परीक्षण सांख्यिकीय का चयन करते हैं कि आप जिस अशक्तता का पता लगाना चाहते हैं, उसमें किस तरह की विसंगति है।

... विचार की इस ट्रेन को जारी रखते हुए, आप एक आंकड़े को परिभाषित कर सकते हैं जो नमूना स्थान को अलग-अलग तरीके से एक ही नल का परीक्षण करने के लिए वैकल्पिक रूप से परिभाषित करता है कि एक सिक्का टॉस अगले एक को प्रभावित करता है। रन की संख्या को कॉल करें , ताकिr

HHTHHHTTTH

है :r=6

HH T HHH TTT H

संदिग्ध क्रम

HTHTHTHTHT

है । ऐसा करता हैr=10

THTHTHTHTH

जबकि दूसरे चरम पर

HHHHHHHHHHTTTTTTTTTT

है । परीक्षण सांख्यिकीय (जैसा आप चाहें) के रूप में अशक्त के तहत संभावना का उपयोग करके आप कह सकते हैं कि नमूना का पी-मूल्यr=1

HTHTHTHTHT

इसलिए इसलिए । ध्यान देने योग्य बात यह है कि इस परीक्षण की तुलना पिछले से की जाती है, भले ही आप अशक्तता के तहत संभाव्यता द्वारा दिए गए आदेश के लिए सख्ती से चिपके रहते हैं, जिस तरह से आप नमूना स्थान को विभाजित करने के लिए अपने परीक्षण सांख्यिकीय को परिभाषित करते हैं, विकल्प के विचार पर निर्भर है।41024=1256


आप कहते हैं कि परिभाषा Pr (T \ ge t; H_0) किसी भी मल्टीमॉडल पर लागू हो सकती है (बेशक, जिसमें bimodal भी शामिल है) एक परीक्षण सांख्यिकीय का पीडीएफ। फिर, आप और ज़ैग एक परीक्षण सांख्यिकीय के मल्टीमॉडल पीडीएफ के लिए अलग-अलग पी-मान देते हैं। IMHO, ज़ैग की परिभाषा अधिक प्रतिध्वनित है क्योंकि पी-वैल्यू की भूमिका यह निर्धारित करने के लिए है कि अवलोकन कैसे संभव (या अजीब) है, परिकल्पना शून्य परिकल्पना के तहत है। Pr (T \ ge t; H_0) परिभाषा के लिए आपका औचित्य क्या है?
JDL

@JDL, कि बस एक p- मान की परिभाषा है। प्रश्न तब बनता है कि कैसे एक 'अच्छा' परीक्षण आँकड़ा पाया जाए (और 'अच्छा' को कैसे परिभाषित किया जाए)। कभी-कभी अशक्त (या डेटा के किसी भी कार्य जो समान आदेश देता है) के तहत प्रायिकता का उपयोग परीक्षण सांख्यिकीय के रूप में किया जाता है। कभी-कभी दूसरों को चुनने के अच्छे कारण होते हैं, जो सैद्धांतिक आंकड़ों पर पुस्तकों में बहुत अधिक स्थान भरते हैं। मुझे लगता है कि यह कहना उचित है कि वे विकल्पों के स्पष्ट या निहित विचार को शामिल करते हैं। ...
Scortchi - को पुनः स्थापित मोनिका

@JDL, ... और यदि किसी विशेष अवलोकन में अशक्त और वैकल्पिक दोनों के तहत कम संभावना है, तो इसे अतिवादी नहीं मानना उचित प्रतीत होता है ।
Scortchi - को पुनः स्थापित मोनिका

आपके उत्तर के लिए धन्यवाद, @Scortchi। मैंने एक नया प्रश्न पोस्ट किया है और पोस्ट करने के तुरंत बाद आपकी टिप्पणियों को देखा है। वैसे भी, मैं अभी भी परिभाषा के बारे में स्पष्ट नहीं हूं। कृपया अपने उत्तर के लिए फिर से धन्यवाद।
JDL

मैं एक उदाहरण जोड़ा
को पुनः स्थापित मोनिका - Scortchi
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.