एक अच्छा, ठोस उदाहरण क्या है जिसमें पी-वैल्यू उपयोगी हैं?


64

शीर्षक में मेरा प्रश्न स्व व्याख्यात्मक है, लेकिन मैं इसे कुछ संदर्भ देना चाहूंगा।

एएसए ने इस सप्ताह की शुरुआत में " पी-मूल्यों: संदर्भ, प्रक्रिया और उद्देश्य " पर एक बयान जारी किया , जिसमें पी-वैल्यू की विभिन्न आम गलतफहमियों को रेखांकित किया गया, और बिना संदर्भ और विचार के इसका उपयोग न करने में सावधानी बरतने का आग्रह किया गया (जिसके बारे में अभी कहा जा सकता है। किसी भी सांख्यिकीय विधि, वास्तव में)।

एएसए के जवाब में, प्रोफेसर मैटलॉफ ने एक ब्लॉग पोस्ट लिखा, जिसका शीर्षक था: 150 वर्षों के बाद, एएसए ने पी-मानों को नहीं कहा । तब प्रोफेसर बेनजामिनी (और मैंने) ने एक प्रतिक्रिया पोस्ट लिखी जिसका शीर्षक हाल ही में एएसपी के बयान पर पी-वैल्यू की गलती नहीं है । इसके जवाब में प्रोफेसर मैटलॉफ ने एक अनुवर्ती पोस्ट में पूछा :

मैं क्या देखना चाहूंगा [...] - एक अच्छा, ठोस उदाहरण जिसमें पी-वैल्यू उपयोगी हैं। यह वास्तव में नीचे की रेखा है।

करने के लिए उसकी बोली की उपयोगिता के खिलाफ दो प्रमुख तर्क -value:p

  1. बड़े नमूनों के साथ, महत्त्वपूर्ण परीक्षण शून्य परिकल्पना से छोटे, महत्वहीन प्रस्थान पर उछाल देते हैं।

  2. लगभग कोई अशक्त परिकल्पना वास्तविक दुनिया में सच नहीं है, इसलिए उन पर एक महत्वपूर्ण परीक्षण करना बेतुका और विचित्र है।

मैं इस बात पर बहुत दिलचस्पी रखता हूं कि अन्य समुदाय के सदस्य इस प्रश्न / तर्कों के बारे में क्या सोचते हैं, और इस पर एक अच्छी प्रतिक्रिया क्या हो सकती है।


5
सूचना इस विषय से संबंधित एक और दो धागे: stats.stackexchange.com/questions/200500/... और stats.stackexchange.com/questions/200745/...
टिम

2
धन्यवाद टिम। मुझे संदेह है कि मेरा प्रश्न काफी अलग है कि यह अपने स्वयं के धागे का हकदार है (विशेषकर जब से इसका उल्लेख दो में नहीं किया गया था)। फिर भी, लिंक बहुत दिलचस्प हैं!
ताल गलिली

3
यह हकदार और दिलचस्प है (इसलिए मेरी +1), मैं लिंक बस FYI करें :) प्रदान की
टिम

3
मुझे यह कहना चाहिए कि मैंने अभी तक मैटलॉफ ने इस विषय पर जो कुछ भी लिखा है, उसे नहीं पढ़ा है, लेकिन फिर भी, अपने प्रश्न को अपने दम पर खड़ा करने के लिए, क्या आप संक्षेप में संक्षेप में बता सकते हैं कि उन्हें पी-मान के उपयोग का कोई मानक उदाहरण क्यों नहीं मिला " अच्छा / समझाने "? जैसे कोई व्यक्ति अध्ययन करना चाहता है यदि एक निश्चित प्रयोगात्मक हेरफेर एक विशेष दिशा में पशु व्यवहार को बदलता है; इसलिए एक प्रयोगात्मक और एक नियंत्रण समूह मापा और तुलना की जाती है। इस तरह के एक पेपर के पाठक के रूप में, मैं पी-वैल्यू (यानी वे मेरे लिए उपयोगी हैं) देखकर खुश हूं, क्योंकि अगर यह बड़ा है तो मुझे ध्यान देने की आवश्यकता नहीं है। यह उदाहरण पर्याप्त नहीं है?
अमीबा का कहना है कि मोनिका

1
@amoeba - वह उन्हें यहां सूचीबद्ध करता है: matloff.wordpress.com/2016/03/07/… ----- अपने तर्कों को उद्धृत करते हुए: 1) बड़े नमूनों के साथ, महत्त्वपूर्ण परीक्षण शून्य परिकल्पना से छोटे, महत्वहीन प्रस्थान पर विराम लगाते हैं। 2) लगभग कोई अशक्त परिकल्पना वास्तविक दुनिया में सच नहीं है, इसलिए उन पर एक महत्वपूर्ण परीक्षण करना बेतुका और विचित्र है। ----- इन पर मेरा अपना अधिकार है (जिसे मैं बाद में औपचारिक रूप देना चाहूंगा), लेकिन मुझे यकीन है कि अन्य लोगों के पास इसका जवाब देने के लिए व्यावहारिक तरीके होंगे।
ताल गैली

जवाबों:


44

मैं मैटलॉफ के दोनों बिंदुओं पर विचार करूंगा:

  1. बड़े नमूनों के साथ, महत्त्वपूर्ण परीक्षण शून्य परिकल्पना से छोटे, महत्वहीन प्रस्थान पर उछाल देते हैं।

    यहाँ तर्क यह है कि यदि कोई अत्यधिक महत्वपूर्ण रिपोर्ट करता है , तो इस संख्या से हम यह नहीं कह सकते हैं कि क्या प्रभाव बड़ा और महत्वपूर्ण है या अप्रासंगिक रूप से छोटा है (जैसा कि बड़े साथ हो सकता है )। मैं इस तर्क अजीब लगता है और क्योंकि मैं है सब पर यह करने के लिए कनेक्ट नहीं कर सकते, कभी नहीं एक अध्ययन है कि एक रिपोर्ट करेंगे देखा रिपोर्टिंग प्रभाव आकार [के कुछ बराबर] बिना -value। जो अध्ययन मैंने पढ़ा है, जैसे कहेंगे (और आमतौर पर एक आंकड़े पर दिखाते हैं) कि ग्रुप ए में ऐसा था और ऐसा मतलब था, ग्रुप बी में ऐसा और ऐसा मतलब था और वे इस तरह के और साथ काफी अलग थे । मैं स्पष्ट रूप से खुद के लिए न्याय कर सकता हूं अगर ए और बी के बीच का अंतर बड़ा या छोटा है।एन पी पीp=0.0001npp

    (टिप्पणियों में, @RobinEkman ने मुझे Ziliak & McCloskey ( 1996 , 2004 ) के कई उच्च-उद्धृत अध्ययनों की ओर इशारा किया , जिन्होंने देखा कि अधिकांश अर्थशास्त्र के पेपर तुरही के "सांख्यिकीय महत्व" को प्रभावित करते हैं, बिना प्रभाव के आकार पर अधिक ध्यान दिए बिना। इसका "व्यावहारिक महत्व" (जो, Z & MS का तर्क है, अक्सर माइनसक्यूल हो सकता है)। यह स्पष्ट रूप से बुरा अभ्यास है। हालांकि, जैसा कि @MatteoS ने नीचे बताया है, प्रभाव आकार (प्रतिगमन अनुमान) हमेशा रिपोर्ट किए जाते हैं, इसलिए मेरा डेटा खड़ा होता है।)

  2. लगभग कोई अशक्त परिकल्पना वास्तविक दुनिया में सच नहीं है, इसलिए उन पर एक महत्वपूर्ण परीक्षण करना बेतुका और विचित्र है।

    इस चिंता को अक्सर आवाज़ दी जाती है, लेकिन यहाँ फिर से मैं वास्तव में इससे नहीं जुड़ सकता। यह महसूस करना महत्वपूर्ण है कि शोधकर्ता अपने एड इन्फिनिटम को नहीं बढ़ाते हैं । न्यूरोसाइंस की उस शाखा में जिससे मैं परिचित हूं, लोग या शायद , चूहों के साथ प्रयोग करेंगे । यदि कोई प्रभाव दिखाई नहीं देता है तो निष्कर्ष यह है कि प्रभाव दिलचस्प होने के लिए पर्याप्त बड़ा नहीं है। कोई भी मुझे पता है प्रजनन, प्रशिक्षण, रिकॉर्डिंग पर जाती थी, और त्याग के चूहों कि दिखाने के लिए है कुछ सांख्यिकीय रूप से महत्वपूर्ण है, लेकिन छोटे प्रभाव। और जबकि यह सच हो सकता है कि लगभग कोई वास्तविक प्रभाव बिल्कुल शून्य नहीं है, यह हैn = 20 n = 50 n = 5000n n=20n=50n=5000 निश्चित रूप से सच है कि कई वास्तविक प्रभाव उचित नमूना आकारों के साथ पता लगाने के लिए पर्याप्त छोटे हैं जो कि उचित शोधकर्ता वास्तव में उपयोग कर रहे हैं, अपने अच्छे निर्णय का उपयोग कर रहे हैं।

    (एक वैध चिंता का विषय है कि नमूना आकार अक्सर बड़े नहीं होते हैं और कई अध्ययन प्रबल होते हैं। इसलिए शायद कई क्षेत्रों में शोधकर्ताओं को इसका उद्देश्य बजाय पर कहना चाहिए । फिर भी, नमूना आकार जो भी हो। , यह उस प्रभाव के आकार पर एक सीमा डालता है जिसका अध्ययन में पता लगाने की शक्ति है। "n = 20n=100n=20

    इसके अलावा, मुझे नहीं लगता कि मैं सहमत हूं कि लगभग कोई अशक्त परिकल्पनाएं सच नहीं हैं, कम से कम प्रयोगात्मक यादृच्छिक अध्ययनों में नहीं (जैसा कि अवलोकन के विपरीत)। दो कारण:

    • बहुत बार भविष्यवाणी के लिए एक दिशात्मकता का परीक्षण किया जाता है; शोधकर्ता का उद्देश्य यह प्रदर्शित करना है कि कुछ प्रभाव सकारात्मक है । अधिवेशन के द्वारा, यह आमतौर पर एक दो-पक्षीय परीक्षण के साथ किया जाता है, जिसमें बिंदु माना जाता है, लेकिन वास्तव में यह एकतरफा परीक्षण है जो को अस्वीकार करने की कोशिश कर रहा है । (@ CliffAB का जवाब, +1, एक संबंधित बिंदु बनाता है।) और यह कर सकते हैं निश्चित रूप से सच हो।एच 0 : δ = 0 एच 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • यहां तक ​​कि बिंदु "नील" के बारे में बात करते हुए अशक्त , मैं यह नहीं देखता कि वे कभी सच क्यों नहीं हैं। कुछ चीजें सिर्फ अन्य चीजों से संबंधित नहीं हैं। मनोविज्ञान के अध्ययनों को देखें जो पिछले वर्षों में दोहराने में असफल रहे हैं: लोग भविष्य को महसूस कर रहे हैं; ओवुलेटिंग होने पर लाल रंग की महिलाएं; चलने की गति को प्रभावित करने वाले बुढ़ापे-संबंधित शब्दों के साथ भड़काना; आदि यह बहुत अच्छी तरह से हो सकता है कि यहाँ कोई कारण लिंक नहीं हैं और इसलिए सही प्रभाव बिल्कुल शून्य हैं।H0:δ=0

खुद, नॉर्म मैटलॉफ अंतराल के बजाय आत्मविश्वास अंतराल का उपयोग करने का सुझाव देते हैं क्योंकि वे प्रभाव आकार दिखाते हैं। विश्वास के अंतराल अच्छे हैं, लेकिन एक विश्वास अंतराल में से एक नुकसान यह नोटिस की तुलना में -value: विश्वास का अंतराल एक विशेष कवरेज मूल्य के लिए रिपोर्ट किया गया है, जैसे । आत्मविश्वास अंतराल को देखकर मुझे यह नहीं बताया गया कि आत्मविश्वास अंतराल कितना व्यापक होगा। लेकिन एक ही -value किसी के साथ तुलना की जा सकती और अलग पाठकों के मन में अलग alphas हो सकता है।p 95 % 95 % 99 % p αpp95%95%99%pα

दूसरे शब्दों में, मुझे लगता है कि कोई ऐसा जो विश्वास के अंतराल का उपयोग करने के लिए पसंद करती है के लिए, एक -value रिपोर्ट करने के लिए एक उपयोगी और सार्थक अतिरिक्त आंकड़ा है।p


मैं अपने पसंदीदा ब्लॉगर स्कॉट अलेक्जेंडर से -values की व्यावहारिक उपयोगिता के बारे में एक लंबा उद्धरण देना चाहूंगा; वह एक सांख्यिकीविद् नहीं है (वह एक मनोचिकित्सक है) लेकिन मनोवैज्ञानिक / चिकित्सा साहित्य को पढ़ने और उसमें मौजूद आँकड़ों की छानबीन करने का बहुत अनुभव है। उद्धरण नकली चॉकलेट अध्ययन पर उनके ब्लॉग पोस्ट से है जिसकी मैं अत्यधिक अनुशंसा करता हूं। जोर मेरा।p

[...] लेकिन मान लीजिए कि हमें -values करने की अनुमति नहीं है । सभी मैं आपको बताता हूं कि "हाँ, पंद्रह लोगों के साथ एक अध्ययन हुआ था जिसमें पाया गया कि चॉकलेट ने इंसुलिन प्रतिरोध में मदद की है" और आप मेरे चेहरे पर हंसते हैं। प्रभाव का आकार इसके साथ मदद करने वाला है। लेकिन मान लीजिए कि मैं आपको बताता हूं "पंद्रह लोगों के साथ एक अध्ययन किया गया था जिसमें चॉकलेट को इंसुलिन प्रतिरोध के साथ मदद मिली। प्रभाव का आकार था ।" मैं यादृच्छिक शोर के अनुरूप है या नहीं, इसके लिए मेरे पास कोई अंतर्ज्ञान नहीं है। क्या आप? ठीक है, फिर वे कहते हैं कि हम विश्वास अंतराल की रिपोर्ट करने वाले हैं। अंतराल अंतराल के साथ, प्रभाव का आकार था।p0.60.695%[0.2,1.0]। ठीक है। इसलिए मैं विश्वास अंतराल के निचले हिस्से की जांच करता हूं, मुझे लगता है कि यह शून्य से अलग है। लेकिन अब मैं -value को पार नहीं कर रहा हूं । मैं पी-वैल्यू का इस्तेमाल खुद कर रहा हूं। इसके बारे में एक तरह की गणना यह कहती है - " आत्मविश्वास के अंतराल में शून्य शामिल नहीं है" यह उसी तरह है जैसे " वेल्यू से कम है "।p95%p0.05

(कल्पना कीजिए कि, हालांकि मुझे पता है कि आत्मविश्वास अंतराल शून्य को शामिल नहीं करता है, मुझे आश्चर्य है कि अगर आत्मविश्वास अंतराल करता है। यदि केवल कुछ आंकड़े थे जो मुझे यह जानकारी देंगे!)95%99%

लेकिन -values से छुटकारा नहीं मिलेगा " -hacking" को रोकें? हो सकता है, लेकिन यह सिर्फ "डी-हैकिंग" का रास्ता देगा। आपको नहीं लगता कि आप बीस विभिन्न चयापचय मापदंडों के लिए परीक्षण कर सकते हैं और केवल उच्चतम प्रभाव आकार वाले व्यक्ति की रिपोर्ट कर सकते हैं? अंतर केवल इतना होगा कि पी-हैकिंग पूरी तरह से पारदर्शी है - यदि आप बीस परीक्षण करते हैं और की रिपोर्ट करते हैं , तो मुझे पता है कि आप एक बेवकूफ हैं - लेकिन डी-हैकिंग अपमानजनक होगा। यदि आप बीस परीक्षण करते हैं और रिपोर्ट करते हैं कि उनमें से एक को मिला है , तो क्या यह प्रभावशाली है? [...]ppp0.05d=0.6

लेकिन से स्विच नहीं होता -values आकार छोटे प्रभाव है कि फिर भी सांख्यिकीय रूप से महत्वपूर्ण हैं के बारे में एक बड़ी बात करने से लोगों को रोकने के प्रभाव? हां, लेकिन कभी-कभी हम छोटे प्रभावों के बारे में एक बड़ा सौदा करना चाहते हैं जो कि सांख्यिकीय रूप से महत्वपूर्ण हैं! मान लीजिए कि कोका-कोला एक नए उत्पाद योजक का परीक्षण कर रहा है, और बड़े महामारी विज्ञान के अध्ययनों में पाया गया है कि यह प्रति वर्ष प्रति एक लाख लोगों पर एक अतिरिक्त मौत का कारण बनता है। यह लगभग शून्य का एक प्रभाव आकार है, लेकिन यह अभी भी सांख्यिकीय रूप से महत्वपूर्ण हो सकता है। और चूंकि दुनिया भर में लगभग एक अरब लोग हर साल कोक पीते हैं, इसलिए यह दस हजार मौतें हैं। अगर कोक ने कहा "नोप, प्रभाव आकार बहुत छोटा है, जिसके बारे में सोचने लायक नहीं है", तो वे लगभग दो मिली-हिटलर लोगों को मार देंगे।p


-values ​​(Bayesian वाले सहित) के लिए विभिन्न विकल्पों की कुछ और चर्चा के लिए , ASA में मेरा जवाब -values की सीमाओं पर चर्चा करता है - विकल्प क्या हैं?pp


1
दूसरे तर्क पर आपकी प्रतिक्रिया, मेरी राय में, बिंदु को याद करती है। कोई भी यह सुझाव नहीं दे रहा है कि वास्तविक शोधकर्ता अपने नमूना आकार में वृद्धि करते हैं। बिंदु (जैसा कि मैं इसे देखता हूं) यह है कि फॉर्म "प्रभाव = 0" के किसी भी अशक्त परिकल्पना है कि एक शोधकर्ता को परीक्षण में रुचि होगी झूठी होने जा रही है, और एक परिकल्पना परीक्षण करने में बहुत कम मूल्य है यदि अशक्त परिकल्पना पहले से ही है झूठा मालूम होता है। यह निश्चित रूप से मानता है कि जो हम वास्तव में रुचि रखते हैं, वह नमूना की विशेषताओं के बजाय प्रासंगिक जनसंख्या पैरामीटर (एस) है।
21999 में मार्क

1
लेकिन मैं मानता हूं कि "कोई भी अशक्त परिकल्पना ... झूठी होने जा रही है" केवल एक धारणा है।
21999 पर मार्क

1
मुझे यह स्वीकार करना चाहिए कि यहां मेरा तर्क अनौपचारिक था और मैंने इसे औपचारिक रूप देने की कभी कोशिश नहीं की। शायद इस तर्क को काम करने के लिए, मुझे यह नहीं कहना चाहिए कि दिलचस्प और अबाधित प्रभाव आकारों के बीच एक स्पष्ट सीमा है। बल्कि यह एक निरंतरता है जिसमें शून्य से और अधिक वृद्धि होती है, और "उचित" नमूने का आकार बहुत ही निर्बाध प्रभाव वाले आकारों को छोटी शक्ति और बहुत दिलचस्प लोगों को बड़ी शक्ति देना चाहिए, लेकिन कोई सीमा नहीं है। मुझे आश्चर्य है कि अगर कोई नेमैन-पीयरसन लाइनों के साथ इसे औपचारिक रूप से सही कर सकता है।
अमीबा का कहना है कि मोनिका

6
हो सकता है कि आपने "कभी भी एक अध्ययन नहीं देखा है जो [प्रभाव के आकार के कुछ बराबर] की रिपोर्टिंग के बिना एक -वेल्यू रिपोर्ट करेगा ", लेकिन ज़िलियाक और मैक्लोस्की ने सिर्फ दो दशकों के दौरान, केवल एक पत्रिका, द अमेरिकन इकोनॉमिक रिव्यू में प्रकाशित कुछ ऐसे 300 पेपर पाए। । इस तरह के कागजात उनके द्वारा देखे गए सभी कागजात का 70% से अधिक बनाते हैं । p
रोबिन एकमन

3
@amoeba: 70% दावे का स्रोत 2006 के अमूर्त में अस्पष्ट वाक्यांश हो सकता है: "1980 के दशक में प्रकाशित [AER] 70% में प्रकाशित 182 पूर्ण-लंबाई के कागजात ने सांख्यिकीय महत्व से आर्थिक अंतर नहीं किया"। इनका मतलब क्या है - जैसा कि दोनों पत्रों में समझाया गया है - यह है कि अक्सर केवल उत्तरार्द्ध पर टिप्पणी की जाती है, और यह कि निर्भर चर के संबंध में प्रतिगमन गुणांक की तीव्रता (उनके शब्दजाल में "आर्थिक महत्व") का बड़े पैमाने पर विश्लेषण नहीं किया गया है । लेकिन यह हमेशा बताया जाता है। मेरा सुझाव है कि आप अपने अपडेट को संपादित करने के लिए उत्तर दें कि :-)
MatteoS

29

मैं निम्नलिखित दो विचारों पर बहुत अपराध करता हूं:

  1. बड़े नमूनों के साथ, महत्त्वपूर्ण परीक्षण शून्य परिकल्पना से छोटे, महत्वहीन प्रस्थान पर उछाल देते हैं।

  2. लगभग कोई अशक्त परिकल्पना वास्तविक दुनिया में सच नहीं है, इसलिए उन पर एक महत्वपूर्ण परीक्षण करना बेतुका और विचित्र है।

यह पी-वैल्यू के बारे में एक स्ट्रोमैन तर्क है। आँकड़ों के विकास को प्रेरित करने वाली बहुत ही मूलभूत समस्या एक प्रवृत्ति को देखने से है और यह जानना चाहती है कि हम जो देखते हैं वह संयोग से है, या एक व्यवस्थित प्रवृत्ति के प्रतिनिधि हैं।

इस बात को ध्यान में रखते हुए, यह सच है कि हम, सांख्यिकीविद के रूप में, आमतौर पर यह नहीं मानते हैं कि एक शून्य-परिकल्पना सच है (यानी , जहां दो समूहों के बीच कुछ अंतर का मतलब है)। हालांकि, दो तरफा परीक्षणों के साथ, हम नहीं जानते कि कौन सी वैकल्पिक परिकल्पना सच है! दो तरफा परीक्षण में, हम यह कहने के लिए तैयार हो सकते हैं कि हम डेटा देखने से पहले 100% सुनिश्चित हैं कि । लेकिन हम नहीं जानते कि क्या या या नहीं । तो अगर हम हमारे प्रयोग चलाने के लिए और निष्कर्ष है कि , हम अस्वीकार कर दिया है (के रूप में Matloff कह सकते हैं; बेकार निष्कर्ष), लेकिन अधिक महत्वपूर्ण बात, हम भी अस्वीकार कर दिया हैHo:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (मैं कहता हूं; उपयोगी निष्कर्ष)। जैसा कि @amoeba ने बताया, यह एक पक्षीय परीक्षण पर भी लागू होता है जिसमें दो तरफा होने की क्षमता होती है, जैसे कि यह परीक्षण कि क्या दवा का सकारात्मक प्रभाव है।

यह सच है कि यह आपको प्रभाव का परिमाण नहीं बताता है। लेकिन यह आपको प्रभाव की दिशा बताता है। तो चलो घोड़े से पहले गाड़ी नहीं डालते हैं; इससे पहले कि मैं प्रभाव के परिमाण के बारे में निष्कर्ष निकालना शुरू कर दूं, मैं आश्वस्त होना चाहता हूं कि मुझे प्रभाव की दिशा सही मिल गई है!

इसी तरह, यह तर्क कि "पी-मान छोटे, महत्वहीन प्रभाव पर उछाल देता है" मुझे काफी त्रुटिपूर्ण लगता है। यदि आप एक पी-मान के बारे में सोचते हैं कि डेटा आपके निष्कर्ष की दिशा का कितना समर्थन करता है , तो निश्चित रूप से आप चाहते हैं कि नमूना आकार काफी बड़ा होने पर छोटे प्रभाव उठाएं। यह कहने का अर्थ है कि वे उपयोगी नहीं हैं मेरे लिए बहुत अजीब है: क्या ये शोध के क्षेत्र हैं जो पी-मूल्यों से पीड़ित हैं, जिनके पास इतना डेटा है कि उन्हें अपने अनुमानों की विश्वसनीयता का आकलन करने की कोई आवश्यकता नहीं है? इसी तरह, यदि आपके मुद्दे वास्तव में हैं कि पी-मान "छोटे प्रभाव के आकार पर ", तो आप बस और परीक्षण कर सकते हैंएच 2 : μ डी < - 1H1:μd>1H2:μd<1(आप मानते हैं कि 1 न्यूनतम महत्वपूर्ण प्रभाव आकार है)। यह अक्सर नैदानिक ​​परीक्षणों में किया जाता है।

इसे और स्पष्ट करने के लिए, मान लीजिए कि हमने सिर्फ आत्मविश्वास के अंतराल को देखा और पी-वैल्यू को त्याग दिया। आत्मविश्वास अंतराल में सबसे पहले आप क्या देखेंगे? परिणाम को गंभीरता से लेने से पहले क्या प्रभाव सख्ती से सकारात्मक (या नकारात्मक) था। जैसे, पी-वैल्यू के बिना भी, हम अनौपचारिक रूप से परिकल्पना परीक्षण कर रहे होंगे।

अंत में, ओपी / मैटलॉफ के अनुरोध के संबंध में, "पी-मूल्यों के एक ठोस तर्क को बेहतर तरीके से समझें", मुझे लगता है कि सवाल थोड़ा अजीब है। मैं यह कहता हूं क्योंकि आपके विचार के आधार पर, यह स्वतः ही जवाब देता है ("मुझे एक ठोस उदाहरण दें जहां एक परिकल्पना का परीक्षण करना उनके परीक्षण न करने से बेहतर है")। हालाँकि, एक विशेष मामला जो मुझे लगता है कि लगभग निर्विवाद है, RNAseq डेटा है। इस मामले में, हम आम तौर पर दो अलग-अलग समूहों (यानी रोगग्रस्त, नियंत्रण) में आरएनए के अभिव्यक्ति स्तर को देख रहे हैं और उन जीनों को खोजने की कोशिश कर रहे हैं जो दो समूहों में भिन्न रूप से व्यक्त किए जाते हैं। इस मामले में, प्रभाव आकार स्वयं भी वास्तव में सार्थक नहीं है। ऐसा इसलिए है क्योंकि विभिन्न जीनों की अभिव्यक्ति का स्तर इतने बेतहाशा भिन्न होता है कि कुछ जीनों के लिए 2x उच्च अभिव्यक्ति होने का कोई मतलब नहीं है, जबकि अन्य कसकर विनियमित जीन पर, 1.2x उच्चतर अभिव्यक्ति घातक है। तब प्रभाव आकार का वास्तविक परिमाण वास्तव में तब होता है जब समूहों की तुलना पहले की जाती है। परन्तु आपवास्तव में, वास्तव में यह जानना चाहते हैं कि क्या जीन की अभिव्यक्ति समूहों और परिवर्तन की दिशा के बीच बदलती है! इसके अलावा, कई तुलनाओं के मुद्दों को संबोधित करना बहुत मुश्किल है (जिसके लिए आप एक ही रन में उनमें से 20,000 कर रहे हैं) आत्मविश्वास अंतरालों की तुलना में यह पी-मानों के साथ है।


2
मैं असहमत हूं कि प्रभाव की दिशा जानना अपने आप में उपयोगी है। यदि मैं जमीन पर थूकता हूं, तो मुझे पता है कि इससे पौधे के विकास में सुधार होगा या बाधित होगा (यानी बिना किसी प्रभाव के शून्य परिकल्पना झूठी है)। इसकी परिमाण पर बिना किसी जानकारी के इस प्रभाव की दिशा को कैसे जानना सहायक है? फिर भी यह है केवल एक चीज पी अपने दो तरफा परीक्षण से -value / दो एक तरफा परीक्षण (एक तरह से) आपको बताता है! (Btw, मैं उदाहरण 'जमीन पर थूक' लगता है पर कुछ कागज से उधार लिया था पी साल पहले -values मैंने पढ़ा है, लेकिन मैं याद नहीं कर सकता है, जो एक।)
कार्ल ओव Hufthammer

3
@ कर्लओवहुफ्थैमर: घोड़े से पहले गाड़ी। मुझे सिर्फ इसलिए नहीं रोकना चाहिए क्योंकि मुझे प्रभाव की दिशा पता है। लेकिन मुझे यह ध्यान रखना चाहिए कि परिमाण के बारे में चिंता करने से पहले मेरे पास दिशा सही है। क्या आपको लगता है कि पी-मानों की जांच के बिना बड़े अनुमानित प्रभावों के साथ सब कुछ गले लगाने से वैज्ञानिक समुदाय बेहतर होगा?
क्लिफ एबी

3
Ha:μd>1Ha:μd<1

2
आपने संपादन में कई बहुत अच्छे अंक बनाए हैं। मुझे वास्तव में अब आपका उत्तर पसंद है!
अमीबा का कहना है कि मोनिका

3
आँकड़ों के मेरे जवाब पर काम करते हुए ।stackexchange.com / questions / 200500 मैं Wagenmakers एट अल के इस हालिया छाप में आया, जहाँ वे अनिवार्य रूप से दिशात्मकता के बारे में आपकी बात पर बहस करते हैं: "एक तरफा पी मूल्यों को एक अनुमानित परीक्षण के रूप में एक बायेसियन व्याख्या दी जा सकती है। दिशा का, जो कि एक अव्यक्त प्रभाव नकारात्मक या सकारात्मक है, इसका परीक्षण है। " यह दिलचस्प है क्योंकि वागेनमेकर्स एक डाइ-हार्ड बेयसियन है, उसने पी-वैल्यू के खिलाफ बहुत कुछ लिखा। फिर भी, मैं यहाँ कुछ वैचारिक समझौता देखता हूँ।
अमीबा का कहना है कि

6

मेरे व्यंग्य को क्षमा करें, लेकिन पी-मानों की उपयोगिता का एक स्पष्ट अच्छा उदाहरण प्रकाशित होने में है। मेरे पास एक प्रायोगिक दृष्टिकोण था जो पी-मूल्य के उत्पादन के लिए था ... उन्होंने विकास को बेहतर बनाने के लिए एक संयंत्र में एक ट्रांसजीन पेश किया था। उस एकल पौधे से उन्होंने कई क्लोन तैयार किए और सबसे बड़े क्लोन को चुना, एक उदाहरण जहां पूरी आबादी की गणना की जाती है। उनका सवाल, समीक्षक एक पी-मूल्य देखना चाहता है कि यह क्लोन सबसे बड़ा है। मैंने उल्लेख किया कि इस मामले में आंकड़ों की कोई आवश्यकता नहीं है क्योंकि उसके पास पूरी आबादी थी, लेकिन कोई फायदा नहीं हुआ।

अधिक गंभीरता से, मेरी विनम्र राय में, एक अकादमिक दृष्टिकोण से मैं इन चर्चाओं को दिलचस्प और उत्तेजक लगता हूं, जैसे कुछ साल पहले से लगातार बनाम बायेसियन बहस। यह इस क्षेत्र में सर्वश्रेष्ठ दिमागों के अलग-अलग दृष्टिकोणों को सामने लाता है और कार्यप्रणाली से जुड़ी कई धारणाओं / नुकसानों को प्रकाशित करता है जो आम तौर पर आसानी से समझ में नहीं आते हैं।

व्यवहार में, मुझे लगता है कि सबसे अच्छा दृष्टिकोण के बारे में बहस करने और एक त्रुटिपूर्ण यार्डस्टिक को दूसरे के साथ बदलने के बजाय, जैसा कि कहीं और से पहले सुझाव दिया गया है, मेरे लिए यह एक अंतर्निहित प्रणालीगत समस्या का रहस्योद्घाटन है और ध्यान केंद्रित इष्टतम खोजने की कोशिश पर होना चाहिए समाधान। उदाहरण के लिए, कोई भी ऐसी स्थिति पेश कर सकता है जहां पी-मान और सीआई एक-दूसरे के पूरक हों और ऐसी परिस्थिति जिसमें एक दूसरे की तुलना में अधिक विश्वसनीय हो। चीजों की भव्य योजना में, मैं समझता हूं कि सभी अवशिष्ट उपकरणों की अपनी कमियां हैं, जिन्हें किसी भी अनुप्रयोग में समझने की आवश्यकता है ताकि अंतिम लक्ष्य की दिशा में प्रगति न हो सके .. अध्ययन की प्रणाली की गहरी समझ।


6

मैं आपको अनुकरणीय मामला बताता हूँ कि कैसे पी-मूल्यों का उपयोग और रिपोर्ट किया जाना चाहिए। सर्न में लार्ज हैड्रोन कोलाइडर (LHC) पर एक रहस्यमयी कण की खोज के बारे में यह हालिया रिपोर्ट है ।

कुछ महीने पहले उच्च ऊर्जा भौतिकी हलकों में बहुत अधिक उत्तेजित होने की संभावना थी, एक संभावना के बारे में कि एलएचसी पर एक बड़े कण का पता चला था। याद रखें कि हिग्स बोसोन की खोज के बाद यह था । यहाँ से अंश है कागज से "में √s पर पीपी टकराव = एटलस डिटेक्टर के साथ 13 TeV का 3.2 अमेरिकन प्लान -1 जोड़े फ़ोटोन में खस्ताहाल अनुनादों के लिए खोज" एटलस सहयोग दिसंबर 15 2015 और मेरी टिप्पणी का पालन करें:

यहाँ छवि विवरण दर्ज करें

वे यहाँ क्या कह रहे हैं कि घटना मानक मॉडल की भविष्यवाणी से अधिक है। कागज से नीचे का चित्र कण के द्रव्यमान के कार्य के रूप में अतिरिक्त घटनाओं के पी-मूल्यों को दर्शाता है। आप देखते हैं कि 750-GeV के आसपास p-value कैसे गोता लगाती है। इसलिए, वे कह रहे हैं कि एक संभावना है कि 750 गीगा ईवी के बराबर द्रव्यमान के साथ एक नए कण का पता लगाया जाए । आकृति पर पी-मानों की गणना "स्थानीय" के रूप में की जाती है। वैश्विक पी-मान बहुत अधिक हैं। हालांकि हमारी बातचीत के लिए यह महत्वपूर्ण नहीं है।

यह महत्वपूर्ण है कि भौतिकविदों को एक खोज की घोषणा करने के लिए पी-मान अभी तक "कम पर्याप्त" नहीं हैं, लेकिन उत्साहित होने के लिए "कम पर्याप्त" हैं। इसलिए, वे गिनती रखने की योजना बना रहे हैं, और उम्मीद कर रहे हैं कि पी-वैल्यू में और कमी आएगी।

यहाँ छवि विवरण दर्ज करें

HEP पर एक सम्मेलन, अगस्त 2016, शिकागो के लिए कुछ महीने आगे बढ़ें । इस बार CMS सहयोग द्वारा "8 = 13 TeV पर प्रोटॉन-प्रोटॉन टकरावों की 12.9 fb of 1 और प्रोटॉन-प्रोटॉन टक्करों के 12.9 fb 1 का उपयोग करके" बड़े पैमाने पर फोटॉन जोड़े के गुंजयमान उत्पादन के लिए खोज " एक नई रिपोर्ट प्रस्तुत की गई । यहाँ मेरी टिप्पणियों के साथ फिर से अंश हैं:

यहाँ छवि विवरण दर्ज करें

इसलिए, लोगों ने घटनाओं को इकट्ठा करना जारी रखा, और अब 750 GeV पर अतिरिक्त घटनाओं का ब्लिप हो गया है। कागज से नीचे का आंकड़ा पी-मान दिखाता है, और आप देख सकते हैं कि पहली रिपोर्ट की तुलना में पी-मूल्य कैसे बढ़ गया। इसलिए, वे दु: खद रूप से निष्कर्ष निकालते हैं कि 750 गीगावॉट में कोई कण नहीं पाया जाता है।

यहाँ छवि विवरण दर्ज करें

मुझे लगता है कि इस तरह से पी-वैल्यू का उपयोग किया जाना चाहिए। वे पूरी तरह से एक समझ रखते हैं, और वे स्पष्ट रूप से काम करते हैं। मुझे लगता है कि इसका कारण यह है कि भौतिकी में लगातार दृष्टिकोण स्वाभाविक है। कण बिखरने के बारे में कुछ भी व्यक्तिपरक नहीं है। आप काफी बड़ा नमूना इकट्ठा करते हैं और यदि यह वहां है तो आपको एक स्पष्ट संकेत मिलता है।

यदि आप वास्तव में पी-वैल्यू की गणना यहां करते हैं, तो इस पेपर को पढ़ें : कोवान एट अल द्वारा "नए भौतिकी के संभावना-आधारित परीक्षणों के लिए असममित सूत्र"


2
हर कोई उम्मीद कर रहा था कि 750 GeV चोटी असली है और अब उदास है। लेकिन मैं वास्तव में उम्मीद कर रहा था कि यह उतार-चढ़ाव होगा (और शर्त लगा सकता है) और अब राहत मिली है। मुझे लगता है कि यह अच्छा है कि मानक मॉडल इतनी अच्छी तरह से काम करता है। काफी जल स्थानांतरित करने के लिए इच्छा समझ में नहीं आता परे मानक मॉडल (जैसे कि भौतिक विज्ञान में सब कुछ हल किया जाता है)। वैसे भी, +1, अच्छा उदाहरण है।
अमीबा

2

अन्य स्पष्टीकरण सभी ठीक हैं, मैं बस कोशिश करना चाहता था और उस प्रश्न का एक संक्षिप्त और सीधा जवाब देना चाहता था जो मेरे सिर में था।

यादृच्छिक प्रयोगों में कोवरिएट असंतुलन की जाँच

आपका दूसरा दावा (अवास्तविक अशक्त परिकल्पनाओं के बारे में) सच नहीं है, जब हम यादृच्छिक प्रयोगों में कोवरिएट संतुलन की जांच कर रहे हैं, जहां हमें पता है कि यादृच्छिककरण ठीक से किया गया था। इस मामले में, हम जानते हैं कि अशक्त परिकल्पना सत्य है। यदि हम कुछ सहसंयोजक पर उपचार और नियंत्रण समूह के बीच एक महत्वपूर्ण अंतर प्राप्त करते हैं - कई तुलनाओं के लिए नियंत्रित करने के बाद, निश्चित रूप से - तो हमें बताता है कि हमें यादृच्छिककरण में "खराब ड्रॉ" मिला और हमें शायद कारण अनुमान पर भरोसा नहीं करना चाहिए। बहुत। ऐसा इसलिए है क्योंकि हम यह सोच सकते हैं कि हमारे उपचार प्रभाव का अनुमान इस विशेष "खराब ड्रॉ" से है, यादृच्छिकरण आगे के "सही ड्रॉ" से प्राप्त अनुमानों की तुलना में सही उपचार प्रभावों से दूर है।

मुझे लगता है कि यह पी-वैल्यू का एक सही उपयोग है। यह पी-मूल्य की परिभाषा का उपयोग करता है: शून्य परिकल्पना के रूप में अधिक या अधिक चरम मान प्राप्त करने की संभावना। यदि परिणाम अत्यधिक संभावना नहीं है, तो हमने वास्तव में "खराब ड्रॉ" प्राप्त किया।

अवलोकन संबंधी डेटा का उपयोग करने और कारण inferences (जैसे, मिलान, प्राकृतिक प्रयोगों) करने के लिए बैलेंस टेबल / आँकड़े भी आम हैं। हालांकि इन मामलों में संतुलन सारणी अनुमानों के लिए "कारण" लेबल को सही ठहराने के लिए पर्याप्त से दूर हैं।


मैं असहमत हूं कि यह पी-वैल्यू का एक सही (या अच्छा) उपयोग है। आप "खराब ड्रा" को कैसे परिभाषित करते हैं?
mark999

2
@ चिह्न, ठीक है। मुझे लगता है कि मैं आपके अंतिम प्रश्न का उत्तर दे सकता हूं जबकि मैट दूर है: बेशक नमूने में। 50 लोगों के साथ एक यादृच्छिक प्रयोग की कल्पना करें। कल्पना कीजिए कि ऐसा सिर्फ इसलिए हुआ कि समूह A के सभी 25 लोग पुरुष बन गए और समूह B के सभी 25 लोग महिलाएं निकले। यह स्पष्ट है कि इससे अध्ययन के किसी भी निष्कर्ष पर गंभीर संदेह हो सकता है; यह एक "बुरे ड्रा" का एक उदाहरण है। मैट ने ए और बी के बीच लिंग (कोवरिएट) में अंतर के लिए एक परीक्षण चलाने का सुझाव दिया और मैंने यह नहीं देखा कि मैट के उत्तर की व्याख्या अलग तरीके से कैसे की जा सकती है। यकीनन यहां कोई आबादी नहीं है।
अमीबा का कहना है कि

1
@ mark999 लेकिन 12/25 और 13/25 के बीच अंतर के लिए एक परीक्षण स्पष्ट रूप से उच्च गैर-महत्वपूर्ण पी-मूल्य प्राप्त करेगा, इसलिए मुझे यकीन नहीं है कि यहां आपकी बात क्या है। मैट ने एक परीक्षण चलाने और एक लाल झंडा के रूप में कम पी-मूल्य पर विचार करने का सुझाव दिया। आपके उदाहरण में कोई लाल झंडा नहीं। मुझे लगता है कि मैं यहां रुकूंगा और अगर वह चाहे तो मैट को संवाद जारी रखना चाहिए।
अमीबा का कहना है कि

4
नहीं, 'बैलेंस टेस्ट फॉलिसिटी ' देखें: gking.harvard.edu/files/matchse.pdf आप एक ऐसे मामले का वर्णन करते हैं, जहाँ परीक्षण आँकड़ा अपने आप ठीक हो सकता है (इसे कम करने के लिए दूरी माप के रूप में उपयोग किया जाता है) लेकिन इसके लिए कोई p- मान नहीं बनाता है समझ।
संयुक्ताक्षरी

2
मनो-और तंत्रिका विज्ञान में इसके बारे में और अधिक हाल की परीक्षा के लिए, एक नया arXiv प्रिन्ट है । जब आप संतुलन में हेरफेर कर रहे हैं, आदि, तो आप यादृच्छिक नमूना नहीं हैं और यहां तक ​​कि अगर आप थे, तो परीक्षण नमूने में संतुलन में जनसंख्या संतुलन के बारे में एक अलग ह्रासमान सवाल का जवाब देते हैं।
Livius

2

त्रुटि दर नियंत्रण उत्पादन में गुणवत्ता नियंत्रण के समान है। एक उत्पादन लाइन में एक रोबोट को यह तय करने के लिए एक नियम है कि एक हिस्सा दोषपूर्ण है जो कि दोषपूर्ण भागों की एक निर्दिष्ट दर से अधिक नहीं होने की गारंटी देता है जो कि अंडरेट हो जाता है। इसी प्रकार, एक एजेंसी जो "ईमानदार" पी-मूल्यों के आधार पर दवा की मंजूरी के लिए निर्णय लेती है, परीक्षण के लगातार लंबे समय तक निर्माण के माध्यम से परिभाषा के द्वारा, झूठे अस्वीकार की दर को नियंत्रित स्तर पर रखने का एक तरीका है। यहां, "ईमानदार" का अर्थ है अनियंत्रित पक्षपात, छिपे हुए चयन आदि की अनुपस्थिति।

हालांकि, न तो रोबोट, न ही एजेंसी के पास किसी विशेष दवा या उस हिस्से में व्यक्तिगत हिस्सेदारी है जो विधानसभा कन्वेयर के माध्यम से जाती है। विज्ञान में, दूसरी ओर, हम, जैसा कि व्यक्तिगत जांचकर्ता हमारे द्वारा अध्ययन की जाने वाली विशेष पसंदीदा परिकल्पना के बारे में परवाह करते हैं, बजाय इसके कि हम अपनी पसंदीदा पत्रिका में जो सहज दावे प्रस्तुत करते हैं। न तो पी-मूल्य परिमाण और न ही एक आत्मविश्वास अंतराल (सीआई) की सीमाएं हमारे प्रश्न को सीधे संदर्भित करती हैं कि हम क्या रिपोर्ट करते हैं। जब हम CI सीमा का निर्माण करते हैं, तो हमें यह कहना चाहिए कि दो नंबरों का एकमात्र अर्थ यह है कि यदि अन्य वैज्ञानिक अपने अध्ययन में एक ही तरह की CI संगणना करते हैं, तो 95% या जो भी कवरेज समग्र रूप से विभिन्न अध्ययनों पर बनाए रखा जाएगा ।

इस प्रकाश में, मुझे यह विडंबनापूर्ण लगता है कि पत्रिकाओं द्वारा पी-मानों पर "प्रतिबंध" लगाया जा रहा है, यह देखते हुए कि व्यवहारिकता के संकट में वे जर्नल संपादकों के लिए अधिक महत्व रखते हैं, शोधकर्ता अपने कागजात जमा करने की तुलना में, व्यावहारिक रखने के तरीके के रूप में। खाड़ी में एक पत्रिका द्वारा लंबे समय में बताए गए शानदार निष्कर्षों की दर। पी-मान फ़िल्टरिंग में अच्छे हैं, या जैसा कि IJ Good ने लिखा है, वे सांख्यिकीविद् के पीछे के छोर की रक्षा के लिए अच्छे हैं, लेकिन क्लाइंट के पीछे के अंत में इतना नहीं है।

पी एस मैं कई परीक्षणों के साथ अध्ययन के दौरान बिना शर्त उम्मीद लेने के बेनजामिनी और होचबर्ग के विचार का बहुत बड़ा प्रशंसक हूं। वैश्विक "अशक्त" के तहत, "लगातार" FDR को अभी भी नियंत्रित किया जाता है - एक दर में एक या एक से अधिक अस्वीकृति के साथ अध्ययन एक नियंत्रित दर पर पॉप अप करता है, हालांकि, इस मामले में, कोई भी अध्ययन जहां कुछ अस्वीकार किए गए हैं, वास्तव में अनुपात है एक के बराबर है कि झूठी अस्वीकृति।


1

मैं मैट से सहमत हूं कि जब शून्य परिकल्पना सच होती है तो पी-वैल्यू उपयोगी होते हैं।

सबसे आसान उदाहरण मैं सोच सकता हूं कि एक यादृच्छिक संख्या जनरेटर का परीक्षण किया जा रहा है। यदि जनरेटर सही ढंग से काम कर रहा है, तो आप किसी भी उपयुक्त नमूने के आकार का उपयोग कर सकते हैं और कई नमूनों पर फिट का परीक्षण करते समय, पी-मूल्यों का एक समान वितरण होना चाहिए। यदि वे करते हैं, तो यह एक सही कार्यान्वयन के लिए अच्छा सबूत है। यदि वे नहीं करते हैं, तो आप जानते हैं कि आपने कहीं त्रुटि की है।

अन्य समान परिस्थितियां तब होती हैं जब आप जानते हैं कि एक सांख्यिकीय या यादृच्छिक चर का एक निश्चित वितरण होना चाहिए (फिर से, सबसे स्पष्ट संदर्भ अनुकरण है)। यदि पी-मान एक समान हैं, तो आपको एक वैध कार्यान्वयन के लिए समर्थन मिला है। यदि नहीं, तो आप जानते हैं कि आपको अपने कोड में कहीं समस्या है।


1

मैं उदाहरण के बारे में सोच सकता हूं कि प्रायोगिक उच्च ऊर्जा भौतिकी में पी-मान उपयोगी हैं। चित्र 1 देखें। यह कथानक इस पत्र से लिया गया है: एलएचसी में एटलस डिटेक्टर के साथ स्टैंडर्ड मॉडल हिग्स बोसोन की खोज में एक नए कण का अवलोकन

5σH125

यहाँ छवि विवरण दर्ज करें


1
आपको पृष्ठभूमि के साथ और यह मूल प्रश्न को कैसे संबोधित करता है, इसके बारे में अधिक जानकारी प्रदान करने की आवश्यकता है। यह लगभग पर्याप्त जानकारी नहीं है।
ग्रीनपार्क

@Greenparker, भूखंड पर कुछ पृष्ठभूमि जोड़ने की कोशिश की।
निकोलस गुटिरेज

±1σ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.