क्या 'पी-वैल्यू' का सही मूल्य अर्थहीन है?


31

मैंने 2009 में एक सांख्यिकीविद् के साथ चर्चा की, जहां उन्होंने कहा कि पी-मूल्य का सटीक मूल्य अप्रासंगिक है: केवल एक चीज जो महत्वपूर्ण है वह महत्वपूर्ण है या नहीं। यानी एक परिणाम दूसरे से अधिक महत्वपूर्ण नहीं हो सकता है; उदाहरण के लिए आपके नमूने, या तो एक ही आबादी से आते हैं या नहीं।

मेरे पास इसके कुछ गुण हैं, लेकिन मैं शायद विचारधारा को समझ सकता हूं:

  1. 5% सीमा मनमाना है, अर्थात p = 0.051 महत्वपूर्ण नहीं है और यह p = 0.049 है, वास्तव में आपके अवलोकन या प्रयोग का निष्कर्ष नहीं बदलना चाहिए, एक परिणाम महत्वपूर्ण होने के बावजूद और दूसरा महत्वपूर्ण नहीं है।

    अब मैं इसे लाने का कारण यह है कि मैं जैव सूचना विज्ञान में एमएससी के लिए अध्ययन कर रहा हूं, और क्षेत्र के लोगों से बात करने के बाद, उनके द्वारा निर्धारित आँकड़ों के हर सेट के लिए सटीक पी-मूल्य प्राप्त करने के लिए एक निर्धारित ड्राइव प्रतीत होता है। उदाहरण के लिए, यदि वे p <1.9 × 10 -12 का p-value 'हासिल' करते हैं, तो वे HOW को महत्वपूर्ण प्रदर्शित करना चाहते हैं कि उनका परिणाम कितना महत्वपूर्ण है, और यह परिणाम SUPER जानकारीपूर्ण है। इस मुद्दे को इस तरह के सवालों के साथ उदाहरण दिया गया है: मैं 2.2e-16 से छोटा पी-मूल्य क्यों नहीं प्राप्त कर सकता हूं? , जिससे वे एक ऐसे मूल्य को रिकॉर्ड करना चाहते हैं जो इंगित करता है कि अकेले संयोग से यह एक खरब में 1 से कम होगा। लेकिन मुझे यह प्रदर्शित करने में बहुत कम अंतर दिखाई देता है कि यह परिणाम एक ट्रिलियन में 1 से भी कम होगा क्योंकि यह एक बिलियन में 1 है।

  2. फिर मैं सराहना कर सकता हूं कि p <0.01 से पता चलता है कि ऐसा होने की संभावना 1% से कम है, जबकि p <0.001 इंगित करता है कि इस तरह का परिणाम पूर्वोक्त पी-मूल्य से भी अधिक संभावना नहीं है, लेकिन क्या आपका निष्कर्ष पूरी तरह से निकाला जाना चाहिए विभिन्न? आखिरकार, वे दोनों महत्वपूर्ण पी-मूल्य हैं। एकमात्र तरीका मैं सटीक पी-मूल्य रिकॉर्ड करने की इच्छा के बारे में सोच सकता हूं जो बोन्फेरॉनी सुधार के दौरान होता है जिससे कि तुलना की संख्या के कारण थ्रेशोल्ड में बदलाव होता है, इस प्रकार मैं त्रुटि को कम करता हूं। लेकिन फिर भी, आप पी-वैल्यू क्यों दिखाना चाहेंगे जो कि आपके थ्रेशोल्ड महत्व से छोटे परिमाण के 12 ऑर्डर हैं?

  3. और अपने आप में थोड़े मनमाने ढंग से भी बोन्फ्र्रोनी सुधार लागू नहीं कर रहा है? इस अर्थ में कि शुरुआत में सुधार को बहुत रूढ़िवादी के रूप में देखा जाता है, और इसलिए अन्य सुधार भी हैं जो कि महत्व स्तर तक पहुंचने के लिए चुन सकते हैं जो पर्यवेक्षक अपनी कई तुलनाओं के लिए उपयोग कर सकता है। लेकिन इस वजह से, वह बिंदु नहीं है जिस पर कुछ महत्वपूर्ण रूप से परिवर्तनशील हो जाता है जो इस बात पर निर्भर करता है कि शोधकर्ता किन आंकड़ों का उपयोग करना चाहता है। क्या व्याख्या के लिए आँकड़े इतने खुले होने चाहिए?

अंत में, आँकड़े कम व्यक्तिपरक नहीं होना चाहिए (हालांकि मुझे लगता है कि व्यक्तिपरक होने के लिए इसकी आवश्यकता एक बहुभिन्नरूपी प्रणाली के परिणाम के रूप में है), लेकिन अंततः मुझे कुछ स्पष्टीकरण चाहिए: क्या कुछ और से अधिक महत्वपूर्ण हो सकता है? और क्या सटीक पी-मान रिकॉर्ड करने की कोशिश करने के संबंध में पी <0.001 पर्याप्त होगा?


6
यह काफी दिलचस्प है: stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
शिथिल संबंधित: प्रश्न के मेरे उत्तर में जब फिशर और नेमन-पियर्सन ढांचे का उपयोग करना है , तो मैं तर्क देता हूं कि प्रत्येक ढांचे के लिए एक भूमिका है। वहाँ w / मेरी स्थिति को ध्यान में रखते हुए, मैं कहूँगा कि सटीक p-मान w / i NP फ्रेमवर्क में कोई फर्क नहीं पड़ेगा, लेकिन फ़िशरियन फ्रेमवर्क को w / i कर सकता है (रिपोर्ट की गई अंकों की संख्या वास्तव में विश्वसनीय है)।
गंग -

यह आश्चर्यजनक है कि कुछ सांख्यिकीविद् पी-वैल्यू की अवधारणा को कैसे पकड़ना चाहते हैं जब यह आमतौर पर गलत प्रश्न का सही उत्तर होता है। मान लीजिए कि पी-मान किसी भी आँकड़े सॉफ़्टवेयर पैकेज में लागू नहीं किए गए थे। मुझे संदेह है कि लोग इसे प्राप्त करने के लिए अपना कोड लिखेंगे।
probabilityislogic

3
@probabilityislogic - क्रमपरिवर्तन परीक्षणों पर मेरे सांख्यिकीय दांतों को काट देना, पी-मान उस मामले में सोचने का एक बहुत ही स्वाभाविक तरीका है, इसलिए मैं उन्हें पाने के लिए अपना खुद का कोड लिख सकता हूं अगर वे नहीं थे ... और वास्तव में, पर बहुत दुर्लभ अवसरों पर जब मैं परीक्षण करता हूं, तो वे आमतौर पर कुछ असामान्य स्थिति के लिए अनुकरण की आवश्यकता होती है या किसी प्रकार की पुन: प्राप्ति के लिए, मैंने पाया है कि मैं वास्तव में ऐसा करता हूं। मैं इसके बजाय कहना चाहूंगा कि परिकल्पना परीक्षण आमतौर पर गलत प्रश्न का उत्तर देते हैं। जो दुर्लभ अवसर पर वे करते हैं, मुझे लगता है कि उनका मूल्य है (कम से कम, अन्य लोग मेरे महत्व के स्तर से बंधे नहीं हैं)।
Glen_b -Reinstate मोनिका

@glen_b - पी-मानों के साथ मेरी समस्या यह है कि किसी भी परिकल्पना परीक्षण के लिए "उत्तर" न दें, क्योंकि वे विकल्पों की अनदेखी करते हैं। यदि आप केवल एक नंबर तक ही सीमित हैं, तो डेटा के लिए संभावना का मूल्य पी-मूल्य (साथ ही पी के समान समस्याएं होने) की तुलना में बहुत बेहतर है। इस तरह से लोग आपकी परीक्षा की पसंद से नहीं बंधे हैं (महत्व के लिए आपकी दहलीज से बंधे नहीं होने के अलावा)।
probabilityislogic

जवाबों:


24
  1. α=.05α=.051p

    p.05pपीfail toreject

  2. ppp

    p

  3. α

    p

यदि fail to/ rejectसंकट की शुरुआत से अशक्त परिकल्पना पर मजबूर नहीं किया जाता है, तो सांख्यिकीय महत्व की अधिक निरंतर समझ निश्चित रूप से लगातार बढ़ते महत्व की संभावना को स्वीकार करती है। सांख्यिकीय महत्व के लिए द्विदिशीकृत दृष्टिकोण में (मुझे लगता है कि इसे कभी-कभी नेमैन-पियरसन फ्रेमवर्क के रूप में संदर्भित किया जाता है; cf. डायनेज़, 2007 ), नहीं, कोई महत्वपूर्ण परिणाम अगले के रूप में महत्वपूर्ण है - कोई और अधिक, कोई कम नहीं। यह प्रश्न उस सिद्धांत की व्याख्या करने में मदद कर सकता है: " क्यों पी-मानों को समान रूप से शून्य परिकल्पना के तहत वितरित किया जाता है? " कितने शून्य सार्थक और लायक हैं रिपोर्टिंग के लिए, मैं इस प्रश्न के ग्लेन_ब के जवाब की सलाह देता हूं: " छोटे कैसे चाहिएp-सूचना बताई गई? (और आर ने 2.22e-16 पर न्यूनतम क्यों रखा है?) "- यह उस प्रश्न के संस्करण के उत्तर से बहुत बेहतर है जो आपने स्टैक ओवरफ्लो पर जोड़ा था!

संदर्भ
- जॉनसन, वीई (2013)। सांख्यिकीय साक्ष्य के लिए संशोधित मानक। नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही, 110 (48), 19313-193। Http://www.pnas.org/content/110/48/19313.full.pdf से लिया गया ।
- ल्यू, एमजे (2013)। पी या पी के लिए नहीं: पी-मानों की गोपनीय प्रकृति और वैज्ञानिक निष्कर्ष में उनके स्थान पर। arXiv: 1311.0081 [stat.ME]। Http://arxiv.org/abs/1311.0081 से लिया गया ।


3
+1, यहाँ बहुत सारे अच्छे विचार हैं। 1 वक्रोक्ति हालांकि, फिर से # 1, मैं कहूंगा कि हमें अक्सर निम्न मानकों (यानी, उच्च पी-मान) को बेहतर होना चाहिए। कुछ का अध्ययन करने के लिए अच्छी शक्ति होने के लिए पर्याप्त डेटा प्राप्त करना अक्सर मुश्किल होता है। मैंने उन डॉक्टरों के लिए कई शक्ति विश्लेषण चलाए हैं जो एक दुर्लभ स्थिति का अध्ययन करना चाहते हैं। वे कहते हैं, 'यह वास्तव में समझा जाता है, मेरे पास एक नए दृष्टिकोण के लिए एक विचार है, हम शायद अगले दो वर्षों में 50 मरीजों को डब्ल्यू / यह प्राप्त कर सकते हैं', और मैं कहता हूं 'आपकी शक्ति 45% होगी', और परियोजना है छोड़ा हुआ। यदि पी .05 या उससे कम होना चाहिए तो दुर्लभ बीमारियों को समझा जाएगा।
गूँग - मोनिका

2
@ गुंग: मैं पूरी तरह से सहमत हूं। मैंने जॉनसन (2013) का केवल इसलिए उल्लेख किया क्योंकि मुझे उसके तर्क की जानकारी थी, इसलिए नहीं कि मैं इससे सहमत हूं :) IMO, एक पारंपरिक मानक है जो आपके द्वारा वर्णित चिंताओं के प्रति असंवेदनशील और असंवेदनशील है (जो मेरे दूसरे पैराग्राफ में मेरी बात को प्रतिध्वनित करता है) # 3) की प्रतिक्रिया मूल समस्याओं में से एक है, और इसे ऊपर या नीचे समायोजित करना इसे हल करने के लिए नहीं जा रहा है। जब किसी कठिन-व्रत fail to/ rejectनिर्णय के लिए कोई वास्तविक आवश्यकता नहीं होती है , तो मुझे लगता है कि यह निर्णय लेना बेहतर है कि किसी व्यक्ति के प्रमाण कितने मूल्यवान हैं, जो कि दिए गए नमूने की संभावना से कहीं अधिक है।
निक स्टॉनर

4
बहुत बढ़िया चर्चा। कुछ प्रासंगिकता का एक दिलचस्प लेख है गेलमैन और स्टर्न का "महत्वपूर्ण" और "गैर-महत्वपूर्ण" के बीच का अंतर खुद सांख्यिकीय रूप से महत्वपूर्ण नहीं है (बाद में अमेरिकी सांख्यिकीविद्, 2006 में प्रकाशित), जो मैं नहीं कहूंगा कि पी के मूल्य की आवश्यकता है अर्थहीन है, लेकिन पी-मूल्यों (प्रभाव अनुमानों के बजाय, कहने की तुलना में) पर अधिक जोर देने के संबंध में सावधानी का एक मजबूत नोट इंजेक्ट करेगा। जेलमैन ने अपने ब्लॉग पर अक्सर इससे संबंधित मुद्दों पर चर्चा की है।
Glen_b -Reinstate मोनिका

2
2 के लिए मुझे लगता है कि इस पर जोर दिया जाना चाहिए पीमूल्यों का उपयोग संघ या प्रभाव के उपायों के रूप में नहीं किया जाना चाहिए। एक हीन परीक्षण की एक वांछनीय संपत्ति स्थिरता है, जो कि नमूना आकार अनंत तक जाती है, परीक्षण की शक्ति 1 हो जाती है, यापी मान 0. पर जाते हैं पीमूल्यों का उपयोग प्रभाव / संघ का वर्णन करने के लिए नहीं किया जाना चाहिए।
bdeonovic

2
ऐसा लगता है कि गेलमैन अपनी साइट पर भी प्रकाशित पेपर के पीडीएफ के लिए एक लिंक प्रदान करता है ।
Glen_b -Reinstate मोनिका

13

मुझे यह प्रतीत होता है कि, यदि कोई मूल्य सार्थक है, तो उसका सही मूल्य सार्थक है।

P मान इस प्रश्न का उत्तर देता है:

यदि, जिस जनसंख्या से यह नमूना बेतरतीब ढंग से खींचा गया था, अशक्त परिकल्पना सही थी, तो नमूने में हमें जो मिला था, कम से कम उतना ही चरम पर एक परीक्षण सांख्यिकीय प्राप्त करने की संभावना क्या है?

इस परिभाषा के बारे में क्या एक सटीक मूल्य अर्थहीन बनाता है?

This is a different question from the ones about extreme values of p. The problem with statements that involve p with many 0's are about how well we can estimate p in the extremes. Since we can't do that very well, it makes no sense to use such precise estimates of p. This is the same reason we don't say that p = 0.0319281010012981 . We don't know those last digits with any confidence.

Should our conclusions be different if p < 0.001 rather than p < 0.05? Or, to use precise numbers, should our conclusions be different if p = 0.00023 rather than p = 0.035?

मुझे लगता है कि समस्या यह है कि हम आमतौर पर पी के बारे में कैसे निष्कर्ष निकालते हैं। हम कुछ अनियंत्रित स्तर के आधार पर "महत्वपूर्ण" या "महत्वपूर्ण नहीं" कहते हैं। यदि हम इन मनमाने स्तरों का उपयोग करते हैं, तो, हाँ, हमारे निष्कर्ष अलग होंगे। लेकिन ऐसा नहीं है कि हमें इन चीजों के बारे में कैसे सोचना चाहिए। हमें सबूतों के वजन को देखना चाहिए और सांख्यिकीय परीक्षण उस सबूत का ही हिस्सा हैं। मैं रॉबर्ट एबेल्सन के "MAGIC मानदंड" को (एक बार फिर) प्लग करूंगा:

परिमाण - प्रभाव कितना बड़ा है?

आर्टिक्यूलेशन - यह कितना सटीक बताया गया है? क्या बहुत सारे अपवाद हैं?

सामान्यता - यह किस समूह पर लागू होता है?

रोचकता - क्या लोग परवाह करेंगे?

विश्वसनीयता - क्या इसका कोई मतलब है?

It is the combination of all of these that matters. Note that Abelson doesn't mention p values at all, although they do come in as a sort of hybrid of magnitude and articulation.


5
We don't often say it, but technically the p-value is only reflecting something about the "probability of getting a test statistic at least as extreme as the one we got in the sample" if the null hypothesis is true, our sample estimate of the population variance is perfectly accurate, and we meet all of the other assumptions of our test. Throw some confidence intervals around some p-values via bootstrapping and I think you'll see that frequently we aren't all that confident about the hundredths place either.
russellpierce

2
In short, it is such a convoluted counter-factual that attempting to quantify a p-value is counter productive when we really should (as you imply) get back to the MAGIC.
russellpierce

I have to admit, I hadn't thought of putting confidence intervals (or credibility intervals) around p values. I wonder how much has been done in this area?
Peter Flom - Reinstate Monica

2
I don't have a citation handy, but I know there is work along those lines - regardless, it is an academic thing to do because you can make confidence intervals of your confidence intervals of your confidence intervals nearly ad infinitum (there is a maximum variance that is reasonably estimated from any set of data). I had a rather long and detailed conversation along these lines with @Nick Stauner once upon a time. He may still have some the articles he dug up during that conversation to bring to the table.
russellpierce

1
Nothing on confidence intervals for p values that I recall, but I might've skimmed over those sections. I wasn't interested in making confidence intervals for p values either ;)
Nick Stauner
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.