क्या छोटे पी-वैल्यू अधिक ठोस हैं?


31

मैं पर पढ़ने किया गया है -values, प्रकार 1 त्रुटि दर, महत्व स्तर, शक्ति गणना, प्रभाव आकार और फिशर बनाम Neyman-पियर्सन बहस। इससे मुझे कुछ अटपटा सा लगा। मैं पाठ की दीवार के लिए माफी मांगता हूं, लेकिन मैंने महसूस किया कि इन अवधारणाओं की मेरी वर्तमान समझ का अवलोकन प्रदान करना आवश्यक था, इससे पहले कि मैं अपने वास्तविक प्रश्नों पर चला गया।पी


मैं क्या एकत्रित की हैं से, एक -value बस आश्चर्य का एक उपाय, चरम रूप में कम से कम एक परिणाम प्राप्त करने की संभावना है, यह देखते हुए कि शून्य परिकल्पना सत्य है। फिशर मूल रूप से इसके लिए एक सतत उपाय होने का इरादा रखता था।पी

नेमन-पियर्सन फ्रेमवर्क में, आप पहले से एक महत्व स्तर का चयन करते हैं और इसे एक (मनमाना) कट-ऑफ पॉइंट के रूप में उपयोग करते हैं। महत्व स्तर टाइप 1 त्रुटि दर के बराबर है। यह लंबे समय तक चलने वाली आवृत्ति द्वारा परिभाषित किया गया है, अर्थात यदि आप 1000 बार एक प्रयोग को दोहराते हैं और अशक्त परिकल्पना सच है, तो उन प्रयोगों में से लगभग 50 का नमूना परिवर्तनशीलता के कारण एक महत्वपूर्ण प्रभाव होगा । एक महत्व स्तर को चुनकर, हम इन झूठी सकारात्मकता के खिलाफ एक निश्चित संभावना के साथ खुद की रखवाली कर रहे हैं। पारंपरिक रूप से वैल्यू इस ढांचे में दिखाई नहीं देते हैं।पी

हम एक मिल जाए 0.01 के -value इस करता है नहीं मतलब है कि टाइप 1 त्रुटि दर 0.01 है, प्रकार 1 त्रुटि एक प्रायोरी कहा गया है। मेरा मानना ​​है कि यह फिशर बनाम एनपी बहस में प्रमुख तर्कों में से एक है, क्योंकि अंतराल को अक्सर 0.05 *, 0.01 **, 0.001 *** के रूप में रिपोर्ट किया जाता है। यह कह रही है कि प्रभाव के लिए एक निश्चित में महत्वपूर्ण है में लोगों को गुमराह कर सकता है , -value बजाय एक निश्चित महत्व मूल्य पर की।पीपीपीपी

मुझे यह भी पता चलता है कि पी व्यू नमूना आकार का एक कार्य है। इसलिए, इसे एक पूर्ण माप के रूप में उपयोग नहीं किया जा सकता है। एक छोटा सा पी -value एक बड़े नमूना प्रयोग में एक छोटा सा, गैर प्रासंगिक प्रभाव को इंगित कर सकते हैं। इसका मुकाबला करने के लिए, अपने प्रयोग के लिए नमूना आकार का निर्धारण करते समय एक शक्ति / प्रभाव आकार गणना करना महत्वपूर्ण है। पी -values ​​हमें बताते हैं कि क्या कोई प्रभाव है, न कि यह कितना बड़ा है। सुलिवन 2012 देखें ।

मेरा प्रश्न: मैं उन तथ्यों को कैसे समेट सकता हूं कि पी पॉवेल आश्चर्य (छोटे = अधिक ठोस) का एक उपाय है, जबकि एक ही समय में इसे एक पूर्ण माप के रूप में नहीं देखा जा सकता है?

निम्नलिखित क्या मैं के बारे में उलझन में हूँ, है: हम एक छोटी सी में और अधिक विश्वास किया जा सकता है पी एक बड़े एक से -value? फिशरियन अर्थ में, मैं हाँ कहूँगा, हम और अधिक आश्चर्यचकित हैं। एनपी फ्रेमवर्क में, एक छोटे महत्व के स्तर को चुनने का मतलब होगा कि हम झूठी सकारात्मकता के खिलाफ खुद को अधिक मजबूती से रख रहे हैं।

लेकिन दूसरी ओर, पी नमूने नमूने के आकार पर निर्भर हैं। वे एक पूर्ण उपाय नहीं हैं। इस प्रकार हम केवल यह नहीं कह सकते कि 0.001593 0.0439 से अधिक महत्वपूर्ण है। फिर भी यह फिशर के ढांचे में क्या निहित होगा: हम इस तरह के चरम मूल्य से अधिक आश्चर्यचकित होंगे। इस शब्द के बारे में भी चर्चा है कि अत्यधिक महत्वपूर्ण एक मिथ्या नाम है: क्या परिणामों को "अत्यधिक महत्वपूर्ण" के रूप में संदर्भित करना गलत है?

मैंने सुना है कि विज्ञान के कुछ क्षेत्रों में -values ​​को केवल महत्वपूर्ण माना जाता है जब वे 0.0001 से छोटे होते हैं, जबकि अन्य क्षेत्रों में 0.01 के आसपास मान पहले से ही अत्यधिक महत्वपूर्ण माना जाता है।पी

संबंधित सवाल:


इसके अलावा, यह मत भूलो कि एक "महत्वपूर्ण" पी मूल्य आपको अपने सिद्धांत के बारे में कुछ भी नहीं बताता है। यह सबसे प्रबल रक्षकों द्वारा भी स्वीकार किया जाता है: सांख्यिकीय महत्व की प्राथमिकता : राशनेल, वैधता और उपयोगिता। सियु ल च। BEHAVIORAL और BRAIN विज्ञान (1998) 21, 169–239 डेटा की व्याख्या जब साक्ष्य में की जाती है। एक व्याख्या की गणना करने की आवश्यकता पर आधारित है और फिर, यदि संभव हो, जाँच की। क्या मापा जा रहा है?
नाराज

2
+1, लेकिन मैं आपको इस सवाल पर ध्यान केंद्रित करने और साइड प्रश्नों को हटाने के लिए प्रोत्साहित करूंगा। यदि आप रुचि रखते हैं कि क्यों कुछ लोगों का तर्क है कि आत्मविश्वास अंतराल पी-मूल्यों से बेहतर है, तो एक अलग सवाल पूछें (लेकिन सुनिश्चित करें कि यह पहले नहीं पूछा गया है)।
अमीबा का कहना है कि मोनिका

3
इसके अलावा, आपका प्रश्न डुप्लिकेट क्यों नहीं है क्यों निचले पी-मान नल के खिलाफ अधिक सबूत नहीं हैं? क्या आपने वह धागा देखा है? शायद आप इसे अपनी पोस्ट के अंत में सूची में जोड़ सकते हैं। एक समान प्रश्न भी देखें कि पी-वैल्यू की एक-दूसरे से तुलना करने में क्या समझदारी है? , लेकिन मैं उस धागे की सिफारिश करने के लिए अनिच्छुक हूं, क्योंकि स्वीकृत जवाब IMHO गलत / भ्रामक है (टिप्पणियों में चर्चा देखें)।
अमीबा का कहना है कि मोनिका

2
पी-वैल्यू के बारे में कहने के लिए जेलमैन की बहुत प्रासंगिकता है। उदा। 1. यहाँ (गेलमैन एंड स्टर्न, एम.एस.टैट। 2006 पीडीएफ) , 2. यहाँ उनके ब्लॉग पर , 3. उनका ब्लॉग फिर और शायद 4. यहाँ
ग्लेन_ब - मोनिका

2
लिंक के लिए धन्यवाद, @Glen_b; मैं गेलमैन एंड स्टर्न पेपर को अच्छी तरह से जानता हूं और अक्सर इसका जिक्र खुद करता हूं, लेकिन इससे पहले 2013 का यह पेपर या इसकी चर्चा नहीं देखी। हालाँकि, मैं ओपी को उसके सवाल के संदर्भ में जेलमैन एंड स्टर्न की व्याख्या करने के बारे में बताना चाहता हूं। जी एंड एस दो अध्ययनों के रूप में एक प्रभाव का आकलन करने के साथ एक अच्छा उदाहरण प्रस्तुत करते हैं और 10 ± 10 ; एक मामले में पी < 0.01 , दूसरे पी में > 0.05 , लेकिन अनुमानों के बीच का अंतर महत्वपूर्ण नहीं है। यह ध्यान रखना महत्वपूर्ण है, लेकिन अगर अब, ओपी का अनुसरण करते हुए, हम पूछते हैं कि क्या पहला अध्ययन अधिक ठोस है, तो मैं निश्चित रूप से हां कहूंगा। 25±1010±10p<0.01p>0.05
अमीबा का कहना है कि मोनिका

जवाबों:


18

छोटे होते हैं -values "अधिक समझाने"? हां, बेशक वे हैं।पी

फिशर ढांचे में, -value शून्य परिकल्पना के खिलाफ सबूत की राशि का एक मात्रा है। सबूत कमोबेश आश्वस्त करने वाले हो सकते हैं; पी- छोटा जितना छोटा होता है , उतना ही ठोस होता है। ध्यान दें कि फिक्स्ड सैंपल साइज़ n के साथ किसी भी प्रयोग में , p -value मोनोटोनॉली इफ़ेक्ट साइज़ से संबंधित है, जैसा कि @Scortchi अच्छी तरह से अपने उत्तर (+1) में बताता है। तो छोटे पी -values बड़ा प्रभाव आकार के अनुरूप; बेशक वे अधिक आश्वस्त हैं!पीपीnपीपी

नेमन-पीयरसन ढांचे में, लक्ष्य एक द्विआधारी निर्णय प्राप्त करना है: या तो सबूत "महत्वपूर्ण" है या यह नहीं है। दहलीज चयन करके , हम गारंटी देते हैं कि हमारे पास α झूठी सकारात्मक से अधिक नहीं होगा । ध्यान दें कि एक ही डेटा को देखते समय विभिन्न लोगों के मन में अलग-अलग α हो सकते हैं ; शायद जब मैं एक ऐसे क्षेत्र से एक पेपर पढ़ता हूं जिसके बारे में मुझे संदेह है, तो मैं व्यक्तिगत रूप से उदाहरण के लिए पी = 0.03 के साथ "महत्वपूर्ण" परिणामों पर विचार नहीं करूंगा, भले ही लेखक उन्हें महत्वपूर्ण कहें। मेरा व्यक्तिगत α 0.001 या कुछ पर सेट किया जा सकता है। स्पष्ट रूप से कम रिपोर्ट पीαααपी=0.03α0.001पी-साथ ही, जितने संशयवादी पाठक इसे समझाने में सक्षम होंगे! इसलिए, फिर से, कम -values अधिक ठोस है।पी

वर्तमान में मानक अभ्यास फिशर और नेमन-पीयरसन दृष्टिकोणों को संयोजित करना है: यदि , तो परिणाम "महत्वपूर्ण" कहलाते हैं और p -value को [वास्तव में या लगभग] रिपोर्ट किया जाता है और इसका उपयोग पक्केपन के उपाय के रूप में किया जाता है (इसे चिह्नित करके) सितारों के साथ, "अत्यधिक महत्वपूर्ण", आदि के रूप में अभिव्यक्ति का उपयोग करते हुए); यदि p > α , तो परिणाम "महत्वपूर्ण नहीं" कहलाते हैं और यही है।पी<αपीपी>α

इसे आमतौर पर "हाइब्रिड दृष्टिकोण" के रूप में जाना जाता है, और वास्तव में यह हाइब्रिड है। कुछ लोग तर्क देते हैं कि यह संकर असंगत है; मैं असहमत हूं। एक ही समय में दो वैध चीजें करना अमान्य क्यों होगा?

आगे की पढाई:


1
(+1) लेकिन माइकल ल्यू के पेपर की धारा ४.४ देखें: कुछ इसके बजाय पी-वैल्यू की तुलना में साक्ष्य की मात्रा की बराबरी करेंगे, जो अलग-अलग सैंपलिंग स्पेस के प्रयोगों से पी-वैल्यू की तुलना करने पर फर्क पड़ता है। इसलिए वे साक्ष्य / संभावना को "अनुक्रमण" या "अंशांकन" करने की बात करते हैं।
Scortchi - को पुनः स्थापित मोनिका

क्षमा करें, मेरा कहने का मतलब है, अधिक सटीक रूप से, इस दृष्टि से, विभिन्न मानों के लिए सापेक्ष "सबूत" (या "समर्थन") जो एक पैरामीटर ले सकते हैं, वे अवलोकन डेटा के लिए मूल्यांकन किए गए उनके संभावित कार्यों का अनुपात है। इसलिए लुई के उदाहरण में, छह टोज़्स में से एक सिर शून्य परिकल्पना के खिलाफ एक ही सबूत है, भले ही नमूना योजना द्विपद या नकारात्मक द्विपद हो; अभी तक पी-वैल्यू अलग-अलग हैं - आप कह सकते हैं कि एक नमूना योजना के तहत आपको अशक्त होने के प्रमाण के रूप में कम होने की संभावना थी। ( "सबूत" शब्द के लिए पाठ्यक्रम अधिकार से साथ के रूप में "महत्वपूर्ण", ...
Scortchi - को पुनः स्थापित मोनिका

... अभी तक मजबूती से स्थापित नहीं किए गए हैं)।
Scortchi - को पुनः स्थापित मोनिका

हम्म, इस खंड पर मेरा ध्यान आकर्षित करने के लिए बहुत बहुत धन्यवाद; मैंने इसे पहले पढ़ा था लेकिन स्पष्ट रूप से इसके महत्व को याद किया। मुझे कहना होगा कि फिलहाल मैं इससे भ्रमित हूं। ल्यू लिखते हैं कि नियमों को ध्यान में रखकर पी-मूल्यों को "समायोजित" नहीं किया जाना चाहिए; लेकिन मुझे उनके फार्मूले 5-6 में कोई समायोजन नहीं दिखता। "अनुचित" पी-मान क्या होगा?
अमीबा का कहना है कि मोनिका

1
@ सोरटची: हम्म। मुझे वास्तव में समझ में नहीं आता है कि इनमें से एक पी-वैल्यू "एडजस्टेड" और दूसरा क्यों नहीं है; इसके विपरीत क्यों नहीं? मैं यहां ल्यू के तर्क से बिल्कुल सहमत नहीं हूं, और मैं इसे पूरी तरह से समझ भी नहीं पाया हूं। इस बारे में सोचकर, मुझे 2012 से लीव के सवाल की संभावना के सिद्धांत और पी-वैल्यूज़ के बारे में पता चला, और वहाँ एक उत्तर पोस्ट किया। मुद्दा यह है कि किसी को अलग-अलग पी-वैल्यू प्राप्त करने के लिए अलग-अलग रोक नियमों की आवश्यकता नहीं है; एक बस विभिन्न परीक्षण आँकड़ों पर विचार कर सकता है। शायद हम वहां चर्चा जारी रख सकते हैं, मैं आपके इनपुट की सराहना करूंगा।
अमीबा का कहना है कि मोनिका

9

मुझे नहीं पता कि छोटे पी-मानों का "बेहतर" होने का क्या मतलब है, या हमारे द्वारा "उन्हें" अधिक आत्मविश्वास से भरा हुआ है। लेकिन डेटा द्वारा हमें कितना आश्चर्य होना चाहिए, इसका एक उपाय के रूप में पी-वैल्यू के बारे में, अगर हमें लगता है कि अशक्त परिकल्पना, उचित रूप से पर्याप्त है; पी-वैल्यू आपके द्वारा चुने गए टेस्ट स्टेटिस्टिक का एक मोनोटोनिक फ़ंक्शन हैजिस दिशा में आप रुचि रखते हैं, उस दिशा में अशक्त परिकल्पना के साथ विसंगति को मापने के लिए, प्रायोगिक उपचारों की आबादी या यादृच्छिक असाइनमेंट से नमूना लेने की एक प्रासंगिक प्रक्रिया के तहत इसके गुणों के संबंध में इसे जांचना। "महत्व" कुछ निर्दिष्ट मूल्य से ऊपर या नीचे होने वाले पी-मानों को संदर्भित करने के लिए एक तकनीकी शब्द बन गया है; इस तरह भी महत्व के स्तर को निर्दिष्ट करने और परिकल्पना को स्वीकार करने या अस्वीकार करने में कोई दिलचस्पी नहीं रखने वाले लोग, "अत्यधिक महत्वपूर्ण" जैसे-सम्मेलनों के पालन के वाक्यांशों से बचते हैं।

नमूना आकार और प्रभाव आकार पर पी-मूल्यों की निर्भरता के बारे में, शायद कुछ भ्रम पैदा होता है क्योंकि उदाहरण के लिए, ऐसा लग सकता है कि 1000 में से 474 सिर 10 में से 2 की तुलना में कम आश्चर्य की बात होनी चाहिए जो किसी को लगता है कि सिक्का उचित है - आखिर नमूना अनुपात केवल पूर्व मामले में 50% से थोड़ा विचलित करता है - फिर भी पी-मान उसी के बारे में हैं। लेकिन सही या गलत डिग्री का स्वीकार नहीं है; पी-वैल्यू क्या कर रहा है, इसके बारे में कहा जाता है: एक पैरामीटर के लिए अक्सर विश्वास अंतराल वास्तव में वही होता है जो यह आकलन करना चाहता है कि वास्तव में एक प्रभाव को कैसे मापा गया है, और इसके अनुमानित परिमाण का व्यावहारिक या सैद्धांतिक महत्व।


1
p=0.04p=0.000004

1

टिप्पणियों और सुझाए गए रीडिंग के लिए धन्यवाद। मेरे पास इस समस्या पर विचार करने के लिए कुछ और समय है और मुझे विश्वास है कि मैं भ्रम के अपने मुख्य स्रोतों को अलग करने में कामयाब रहा हूं।

  • प्रारंभ में मैंने सोचा कि आश्चर्य बनाम माप के रूप में पी-मूल्य को देखने के बीच एक द्विभाजन था, यह बताते हुए कि यह एक पूर्ण उपाय नहीं है। अब मुझे एहसास हुआ कि ये बयान जरूरी नहीं कि एक-दूसरे का खंडन करें। पूर्व हमें एक ही प्रयोग के अन्य काल्पनिक परिणामों की तुलना में, एक मनाया प्रभाव के extremeness (अवांछितता भी?) में अधिक या कम आश्वस्त होने की अनुमति देता है। जबकि उत्तरार्द्ध केवल हमें बताता है कि एक प्रयोग में एक ठोस पी-मूल्य क्या माना जा सकता है, एक दूसरे में बिल्कुल भी प्रभावशाली नहीं हो सकता है, उदाहरण के लिए यदि नमूना आकार भिन्न होता है।

  • तथ्य यह है कि विज्ञान के कुछ क्षेत्र मजबूत पी-मूल्यों की एक अलग आधार रेखा का उपयोग करते हैं, या तो सामान्य नमूना आकार (खगोल विज्ञान, नैदानिक, मनोवैज्ञानिक प्रयोगों) और / या पी में प्रभाव आकार को व्यक्त करने के प्रयास में अंतर का प्रतिबिंब हो सकता है। मूल्य। लेकिन उत्तरार्द्ध दो का गलत अनुमान है।

  • महत्व अल्फा के आधार पर एक हाँ / नहीं प्रश्न है जिसे प्रयोग से पहले चुना गया था। पी-वैल्यू इसलिए एक दूसरे की तुलना में अधिक महत्वपूर्ण नहीं हो सकता है, क्योंकि वे चुने हुए महत्व स्तर से छोटे या बड़े हैं। दूसरी ओर, एक छोटा पी-मूल्य एक बड़े (एक समान नमूना आकार / समान प्रयोग के लिए, जैसा कि मेरे पहले बिंदु में उल्लेख किया गया है) से अधिक आश्वस्त होगा।

  • विश्वास अंतराल स्वाभाविक रूप से प्रभाव के आकार को व्यक्त करते हैं, जिससे उन्हें ऊपर बताए गए मुद्दों से बचाव करने का अच्छा विकल्प मिल जाता है।


0

पी-मान आश्चर्य का एक उपाय नहीं हो सकता है क्योंकि यह केवल संभावना का एक उपाय है जब अशक्त सही है। यदि नल सत्य है तो p का प्रत्येक संभावित मान समान रूप से संभव है। अशक्त को अस्वीकार करने का निर्णय लेने से पहले किसी भी पी-मूल्य पर आश्चर्य नहीं किया जा सकता है। एक बार जब कोई निर्णय लेता है तो एक प्रभाव होता है और पी-वैल्यू का अर्थ गायब हो जाता है। एक केवल इसे अस्वीकार करने के लिए एक अपेक्षाकृत कमजोर प्रेरक श्रृंखला में एक कड़ी के रूप में रिपोर्ट करता है, या नहीं, अशक्त करने के लिए। लेकिन अगर इसे खारिज कर दिया गया तो इसका वास्तव में कोई मतलब नहीं है।


इस तथ्य के लिए "जब अशक्त सत्य होता है, तब प्रत्येक पी-मान समान रूप से होने की संभावना होती है 'हालांकि, मुझे लगता है कि यह केवल निरंतर यादृच्छिक चर के लिए है।

ध्यान दें कि मैंने कहा, पी के हर "संभव" मूल्य समान रूप से होने की संभावना है। तो यह विचारशील या निरंतर चर के लिए सच है। विचारशील चरों के साथ संभावित मानों की संख्या कम होती है।
जॉन

H0

मेरा मानना ​​है कि अग्रणी उत्तर दर्शाता है कि यह एक गैर-मुद्दा है। वितरण गैर-समान दिखता है, इसका कारण यह है कि संभावित पी-मान असमान रूप से हैं। ग्लेन इसे अर्ध-वर्दी भी कहते हैं। मुझे लगता है कि छोटे एनएस के साथ द्विपद डेटा के कुछ बहुत ही विरल परीक्षणों के साथ यह संभव है कि शायद विशिष्ट पी-मूल्यों की संभावना असमान है, लेकिन यदि आप किसी दिए गए रेंज में पी-मूल्यों की संभावना पर विचार करते हैं तो यह वर्दी के करीब होगा।
जॉन

1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.