क्या प्रभाव आकार वास्तव में पी-मूल्यों से बेहतर हैं?


14

पी-वैल्यू के बजाय प्रभाव के आकार पर भरोसा करने और रिपोर्टिंग पर बहुत जोर दिया जाता हैलागू अनुसंधान में (उदाहरण के लिए नीचे उद्धरण)।

लेकिन क्या ऐसा नहीं है कि एक पी-वैल्यू की तरह एक प्रभाव आकार एक यादृच्छिक चर है और जैसे कि एक ही प्रयोग के दोहराए जाने पर नमूना से नमूने में भिन्न हो सकते हैं? दूसरे शब्दों में, मैं पूछ रहा हूं कि सांख्यिकीय विशेषताएं क्या हैं (उदाहरण के लिए, प्रभाव का आकार नमूना से पी-मूल्य की तुलना में कम चर है) प्रभाव आकार बनाएं को पी-मानों की तुलना में बेहतर सबूत-मापने वाले सूचकांक हैं?

हालांकि, मुझे एक महत्वपूर्ण तथ्य का उल्लेख करना चाहिए जो एक पी-मूल्य को एक प्रभाव आकार से अलग करता है। यह है, एक प्रभाव आकार का अनुमान लगाया जाना है क्योंकि यह एक जनसंख्या पैरामीटर है, लेकिन एक पी-मूल्य का अनुमान लगाया जाना कुछ भी नहीं है क्योंकि इसमें कोई जनसंख्या पैरामीटर नहीं है।

मेरे लिए, प्रभाव का आकार केवल एक मीट्रिक है जो अनुसंधान के कुछ क्षेत्रों (जैसे, मानव अनुसंधान) में अनुभवजन्य निष्कर्षों को बदलने में मदद करता है जो विभिन्न शोधकर्ता-विकसित माप उपकरणों से एक सामान्य मीट्रिक में आते हैं (इस मीट्रिक मानव अनुसंधान का उपयोग करने के लिए उचित कहना बेहतर होगा क्वांट रिसर्च क्लब)।

हो सकता है कि यदि हम एक प्रभाव अनुपात के रूप में एक सरल अनुपात लेते हैं, तो निम्नलिखित (आर में) पी-मूल्यों पर प्रभाव के आकार की सर्वोच्चता को दर्शाता है? (पी-मूल्य परिवर्तन लेकिन प्रभाव आकार नहीं)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

ध्यान दें कि अधिकांश प्रभाव आकार रैखिक रूप से एक परीक्षण सांख्यिकीय से संबंधित हैं। इस प्रकार, प्रभाव आकारों का उपयोग करके अशक्त-परिकल्पना परीक्षण करना एक आसान कदम है।

उदाहरण के लिए, एक पूर्व पद डिजाइन से उत्पन्न टी स्टेटिस्टिक को आसानी से संबंधित कोहेन के डी प्रभाव आकार में परिवर्तित किया जा सकता है। इस प्रकार, कोहेन का डी का वितरण वितरण के पैमाने का स्थान संस्करण है।

उद्धरण:

क्योंकि पी-वैल्यू इंडिकेटेड इंडेक्स हैं, सिद्धांत में 100 अलग-अलग सैंपल साइज के साथ स्टडी और 100 अलग-अलग इफेक्ट साइज में से प्रत्येक का एक ही पी-वैल्यू हो सकता है, और एक ही साइज के साइज वाले 100 स्टडीज में पी-वैल्यू के लिए 100 अलग-अलग वैल्यू हो सकती हैं। ।

या

पी-मान एक यादृच्छिक चर है जो नमूना से नमूने में भिन्न होता है। । । । नतीजतन, पी-मूल्यों की तुलना दो अलग-अलग प्रयोगों से, या एक ही प्रयोग में मापे गए दो चर पर परीक्षण से करना उचित नहीं है, और यह घोषित करना कि एक दूसरे से अधिक महत्वपूर्ण है?

उद्धरण:

थॉम्पसन, बी। (2006)। व्यवहार संबंधी आंकड़ों की नींव: एक अंतर्दृष्टि-आधारित दृष्टिकोण। न्यूयॉर्क, एनवाई: गिलफोर्ड प्रेस।

गुड, पीआई, और हार्डिन, जेडब्ल्यू (2003)। आंकड़ों में आम त्रुटियां (और उनसे कैसे बचें)। न्यूयॉर्क: विली।


12
मैं उद्धरणों से समान निष्कर्ष नहीं निकालता (यह कि प्रभाव आकार "श्रेष्ठ" हैं या पी-मानों के बजाय रिपोर्ट किया जाना चाहिए)। मुझे पता है कि कुछ लोगों ने इस तरह के बयान दिए हैं (जैसे कि पी-मूल्यों पर बीएएसपी प्रतिबंध)। यह एक-या-अन्य स्थिति नहीं है: यह इंगित करने का मामला है कि पी-मान और प्रभाव आकार विभिन्न प्रकार की उपयोगी जानकारी देते हैं। आमतौर पर एक को दूसरे के संदर्भ में विचार किए बिना जांच नहीं की जानी चाहिए।
व्हीबर

1
मुझे व्यक्तिगत रूप से लगता है कि एक आत्मविश्वास अंतराल के साथ एक अनुमान की रिपोर्ट करना पर्याप्त है। यह एक ही समय में प्रभाव का आकार (व्यावहारिक महत्व) और परिकल्पना परीक्षण (सांख्यिकीय महत्व) देता है।
जीरपत सम्रवणध्वनि

1
चाहे p मान या प्रभाव आकार 'श्रेष्ठ' हो, आपके दृष्टिकोण पर निर्भर करता है। पूर्व फिशरियन एनएचएसटी परंपरा से चलता है, जबकि नेयमैन-पीयरसन परंपरा से उत्तरार्द्ध। कुछ क्षेत्रों (जैविक विज्ञान, मानविकी) में, प्रभाव का आकार बहुत छोटा होता है, जिससे p मान आकर्षक हो जाता है। इसके विपरीत, दूसरों के रूप में, पी-मान डिजाइन में परिवर्तन के माध्यम से 'मजबूर' छोटे हो सकते हैं, जैसे कि वृद्धि हुई एन।
HEITZ

3
क्या एक पेचकश हथौड़ा से बेहतर है?
kjetil b halvorsen

क्या एक नट बोल्ट से बेहतर है?
सेक्सटस एम्पिरिकस

जवाबों:


21

पी-मूल्यों के बजाय प्रभाव के आकार प्रदान करने की सलाह एक झूठे द्वैतवाद पर आधारित है और मूर्खतापूर्ण है। दोनों को क्यों नहीं पेश किया?

वैज्ञानिक निष्कर्ष उपलब्ध साक्ष्य और सिद्धांत के तर्कसंगत मूल्यांकन पर आधारित होना चाहिए। पी-मान और मनाया प्रभाव आकार अकेले या एक साथ पर्याप्त नहीं हैं।

आपके द्वारा आपूर्ति किए गए उद्धरणों में से कोई भी सहायक नहीं है। बेशक पी-मान प्रयोग से प्रयोग में भिन्न होते हैं, डेटा में साक्ष्य की ताकत प्रयोग से प्रयोग में भिन्न होती है। पी-मूल्य सांख्यिकीय मॉडल के माध्यम से उस साक्ष्य का एक संख्यात्मक निष्कर्षण है। पी-मूल्य की प्रकृति को देखते हुए, एक पी-मूल्य को दूसरे के साथ तुलना करने के लिए विश्लेषणात्मक उद्देश्यों के लिए बहुत कम प्रासंगिक है, इसलिए शायद यही वह है जो उद्धरण लेखक को व्यक्त करने की कोशिश कर रहा है।

यदि आप अपने आप को पी-मूल्यों की तुलना करना चाहते हैं तो आपको संभवतः रुचि के प्रश्न का उत्तर देने के लिए डेटा की एक अलग व्यवस्था पर एक महत्वपूर्ण परीक्षण करना चाहिए। ये प्रश्न देखें: पी-वैल्यू फॉर पी-वैल्यू? तथा यदि एक समूह का मतलब शून्य से भिन्न होता है, लेकिन दूसरा नहीं होता है, तो क्या हम यह निष्कर्ष निकाल सकते हैं कि समूह अलग हैं?

तो, आपके प्रश्न का उत्तर जटिल है। मुझे उपयोगी होने के लिए या तो पी-मान या प्रभाव आकार के आधार पर डेटा के लिए द्विगुणित प्रतिक्रियाएं नहीं मिलती हैं, तो क्या प्रभाव आकार पी-मूल्यों से बेहतर हैं? हां, नहीं, कभी-कभी, शायद, और यह आपके उद्देश्य पर निर्भर करता है।


मुझे लगता है कि प्रभाव के आकार और उसके आत्मविश्वास के अंतराल को प्रस्तुत करना बेहतर होगा, बशर्ते विश्लेषक सही ढंग से यह बताने में सक्षम हों कि अध्ययन के लिए एक सार्थक प्रभाव आकार क्या है। पी-मूल्य के विपरीत आत्मविश्वास अंतराल, पाठक को अनुमान की शुद्धता और साथ ही उसके चरम दोनों की भावना देता है।
अदमो १

1
@ अदमो हां, मैं काफी हद तक सहमत हूं, लेकिन पी-मूल्य के लिए दो चीजें हैं और उन्हें छोड़ा नहीं जाना चाहिए। यह अशक्त के खिलाफ सबूतों की ताकत का एक सूचकांक है, कुछ ऐसा जो केवल बहुत ही अनुभवी आंख से एक आत्मविश्वास अंतराल से प्राप्त किया जा सकता है, और एक सटीक पी-मूल्य सीधे अंदर / बाहर के द्विभाजन को आमंत्रित नहीं करता है जो विश्वास अंतराल करता है । बेशक, एक संभावना समारोह दोनों पर लाभ प्रदान करता है।
माइकल ल्यू

14

लागू अनुसंधान के संदर्भ में, निष्कर्षों के व्यावहारिक महत्व (सांख्यिकीय महत्व के विपरीत) की व्याख्या करने के लिए पाठकों के लिए प्रभाव आकार आवश्यक हैं। सामान्य तौर पर, पी-मान प्रभाव के आकार की तुलना में नमूना आकार के लिए कहीं अधिक संवेदनशील होते हैं। यदि कोई प्रयोग एक प्रभाव आकार को सही ढंग से मापता है (अर्थात यह उस जनसंख्या पैरामीटर के काफी करीब है जिसका वह अनुमान लगा रहा है) लेकिन एक गैर-महत्वपूर्ण p- मान प्राप्त करता है, तो सभी चीजों के बराबर होने पर, नमूना आकार में वृद्धि करने से परिणाम समान होगा लेकिन एक कम p- मान यह शक्ति विश्लेषण या सिमुलेशन के साथ प्रदर्शित किया जा सकता है।

इसके प्रकाश में, प्रभाव आकारों के लिए अत्यधिक महत्वपूर्ण पी-मान प्राप्त करना संभव है जिनका कोई व्यावहारिक महत्व नहीं है। इसके विपरीत, कम शक्ति वाले अध्ययन डिजाइन महान व्यावहारिक महत्व के प्रभाव आकारों के लिए गैर-महत्वपूर्ण पी-मूल्यों का उत्पादन कर सकते हैं।

एक विशिष्ट वास्तविक दुनिया के अनुप्रयोग के बिना सांख्यिकीय महत्व विज़-ए-विज़ प्रभाव आकार की अवधारणाओं पर चर्चा करना मुश्किल है। एक उदाहरण के रूप में, एक प्रयोग पर विचार करें जो छात्रों के ग्रेड पॉइंट एवरेज (GPA) पर एक नई अध्ययन पद्धति के प्रभाव का मूल्यांकन करता है। मैं तर्क दूंगा कि 0.01 ग्रेड अंकों के प्रभाव आकार का थोड़ा व्यावहारिक महत्व है (यानी 2.51 की तुलना में 2.50)। उपचार और नियंत्रण समूह, और 0.5 ग्रेड बिंदुओं की जनसंख्या मानक विचलन में 2,000 छात्रों का एक नमूना आकार मानते हुए:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

उपचार नमूना मतलब = 2.51

नियंत्रण नमूना मतलब = 2.50

प्रभाव का आकार = 2.51 - 2.50 = 0.01

पी = 0.53

20,000 छात्रों के लिए नमूना आकार में वृद्धि और बाकी सब कुछ स्थिर रखने से एक महत्वपूर्ण पी-मूल्य प्राप्त होता है:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

उपचार नमूना मतलब = 2.51

नियंत्रण नमूना मतलब = 2.50

प्रभाव का आकार = 2.51 - 2.50 = 0.01

पी = 0.044

जाहिर है कि परिमाण के क्रम से नमूना आकार को बढ़ाने के लिए यह कोई तुच्छ बात नहीं है! हालांकि, मुझे लगता है कि हम सभी इस बात से सहमत हो सकते हैं कि इस अध्ययन पद्धति द्वारा पेश किया गया व्यावहारिक सुधार नगण्य है। अगर हम पूरी तरह से पी-वैल्यू पर भरोसा करते हैं तो हम n = 20,000 मामले में विश्वास कर सकते हैं।

व्यक्तिगत रूप से मैं पी-मूल्यों और प्रभाव दोनों आकारों की रिपोर्टिंग के लिए वकालत करता हूं। और टी अंक या एफ-सांख्यिकी, स्वतंत्रता और मॉडल निदान की डिग्री के लिए बोनस अंक!


2
डैरेन, कृपया दिखाएं कि आप वास्तव में आर में क्या मतलब है या पीओ जैसे कुछ।
user138773

7
@ डारेंट जेम्स पी = ०.०६५ और पी = ०.०४३ के बीच के अंतर में कोई व्यावहारिक महत्व नहीं है दुर्भाग्यपूर्ण धारणा से परे है कि पी = ०.०५ एक उज्ज्वल रेखा है जिसका सम्मान किया जाना चाहिए। न तो पी-मूल्य स्वयं द्वारा किसी चीज के लिए या उसके खिलाफ बाध्यकारी साक्ष्य का प्रतिनिधित्व करता है।
माइकल ल्यू

@ माइकल ली, हाँ, मैं सहमत हूँ!
डैरेन जेम्स

1
जेम्स, आपके कोड और स्पष्टीकरण दिए गए हैं, आपको लगता है कि आपने ओपी की बात को पूरी तरह गलत समझा है। आपका R कोड भी गलत है! क्योंकि आपने NO सेट किया है, var.equal = TRUEजबकि आपके sds बराबर हैं। इस तरह की पृष्ठभूमि के साथ, मुझे यकीन नहीं है कि आपने इस तरह की प्रतिक्रिया क्यों पोस्ट की है। ओपी एक सवाल पूछ रहा है जिसमें कम से कम वर्तमान समय में एक आसान जवाब नहीं है!
user138773

1
मैंने कोड में var.equal = TRUE जोड़ दिया है। लेकिन इस मामले में यह अनावश्यक है। समान p- मान को var.equal = TRUE और डिफ़ॉल्ट var.equal = FALSE दोनों के साथ प्राप्त किया जाता है।
डैरेन जेम्स

5

मैं वर्तमान में डेटा विज्ञान क्षेत्र में काम करता हूं, और उसके बाद मैंने शिक्षा अनुसंधान में काम किया। जबकि प्रत्येक "कैरियर" में मैंने ऐसे लोगों के साथ सहयोग किया है, जो आंकड़ों में एक औपचारिक पृष्ठभूमि से नहीं आए थे, और जहां सांख्यिकीय (और व्यावहारिक) महत्व पर जोर पी-मूल्य पर रखा गया है । मैंने अपने विश्लेषणों में प्रभाव आकारों को शामिल किया है और उन पर जोर दिया है क्योंकि सांख्यिकीय महत्व और व्यावहारिक महत्व के बीच अंतर है।

आम तौर पर, जिन लोगों के साथ मैंने काम किया, उन्होंने एक चीज "हमारे कार्यक्रम / सुविधा को बनाते हैं और प्रभावित करते हैं, हां या नहीं?"। इस तरह के एक प्रश्न के लिए, आप एक टी-टेस्ट के रूप में सरल रूप में कुछ कर सकते हैं और उन्हें रिपोर्ट कर सकते हैं "हाँ, आपका कार्यक्रम / सुविधा फर्क करती है"। लेकिन यह "अंतर" कितना बड़ा या छोटा है?

सबसे पहले, मैं इस विषय में देरी करना शुरू करने से पहले, मैं संक्षेप में बताना चाहूंगा कि प्रभाव आकारों की बात करते समय हम क्या उल्लेख करते हैं

प्रभाव का आकार केवल दो समूहों के बीच अंतर के आकार को निर्धारित करने का एक तरीका है। [...] यह एक विशेष हस्तक्षेप की प्रभावशीलता को निर्धारित करने के लिए विशेष रूप से मूल्यवान है, कुछ तुलना के सापेक्ष। यह हमें सरलीकृत से आगे बढ़ने की अनुमति देता है, 'यह काम करता है या नहीं?' और अधिक परिष्कृत करने के लिए, 'संदर्भों की श्रेणी में यह कितनी अच्छी तरह काम करता है?' इसके अलावा, एक हस्तक्षेप के सबसे महत्वपूर्ण पहलू पर जोर देकर - प्रभाव का आकार - इसके सांख्यिकीय महत्व (जो प्रभाव आकार और नमूना आकार को बताता है) के बजाय, यह ज्ञान के संचय के लिए एक अधिक वैज्ञानिक दृष्टिकोण को बढ़ावा देता है। इन कारणों से, प्रभाव का आकार प्रभावशीलता और व्याख्या करने में एक महत्वपूर्ण उपकरण है।

यह इफ़ेक्ट साइज़, स्टुपिड है: इफ़ेक्ट साइज़ क्या है और यह क्यों महत्वपूर्ण है

अगला, एक पी-मूल्य क्या है , और यह हमें क्या जानकारी प्रदान करता है? ठीक है, एक पी-मूल्य , जितना संभव हो उतना कम शब्दों में, एक संभावना है कि शून्य वितरण से मनाया गया अंतर शुद्ध मौका है। इसलिए हम अस्वीकार करते हैं (या स्वीकार करने में असफल) जब यह परिकल्पना है पी-मान एक सीमा से छोटा होता है (α)।

पी वैल्यू पर्याप्त क्यों नहीं है?

सांख्यिकीय महत्व यह संभावना है कि दो समूहों के बीच मनाया गया अंतर मौका के कारण है। यदि पी मान चयनित अल्फा स्तर से बड़ा है (उदाहरण, .05), तो किसी भी मनाया गया अंतर को नमूना परिवर्तनशीलता द्वारा समझाया जाना माना जाता है। पर्याप्त रूप से बड़े नमूने के साथ, एक सांख्यिकीय परीक्षण लगभग हमेशा एक महत्वपूर्ण अंतर प्रदर्शित करेगा, जब तक कि कोई प्रभाव न हो, जब कि प्रभाव का आकार बिल्कुल शून्य हो; अभी भी बहुत छोटे अंतर, भले ही महत्वपूर्ण हों, अक्सर अर्थहीन होते हैं। इस प्रकार, एक विश्लेषण के लिए केवल महत्वपूर्ण पी मूल्य की रिपोर्टिंग पाठकों को परिणामों को पूरी तरह से समझने के लिए पर्याप्त नहीं है।

और बड़े नमूने आकारों के संबंध में @ डैरेनजम्स की टिप्पणियों को पुष्टि करने के लिए

उदाहरण के लिए, यदि एक नमूना आकार 10 000 है, तो एक महत्वपूर्ण P मान तब भी पाया जा सकता है जब समूहों के बीच परिणामों में अंतर नगण्य है और दूसरे पर एक महंगा या समय लेने वाली हस्तक्षेप को उचित नहीं ठहरा सकता है। अपने आप से महत्व का स्तर प्रभाव के आकार की भविष्यवाणी नहीं करता है। महत्व परीक्षणों के विपरीत, प्रभाव आकार नमूना आकार से स्वतंत्र है। दूसरी ओर, सांख्यिकीय महत्व, नमूना आकार और प्रभाव आकार दोनों पर निर्भर करता है। इस कारण से, पी मूल्यों को नमूना आकार पर उनकी निर्भरता के कारण भ्रमित माना जाता है। कभी-कभी सांख्यिकीय रूप से महत्वपूर्ण परिणाम का मतलब केवल इतना होता है कि एक विशाल नमूना आकार का उपयोग किया जाता था। [एक गलत दृष्टिकोण है कि यह व्यवहार अशक्त परिकल्पना के खिलाफ पूर्वाग्रह का प्रतिनिधित्व करता है।बार-बार होने वाली परिकल्पना परीक्षण पर्याप्त बड़े नमूनों के साथ अशक्त परिकल्पना को खारिज करने के पक्षपाती क्यों हो जाते हैं? ]

इफ़ेक्ट साइज़ का उपयोग करना — या पी वैल्यू पर्याप्त क्यों नहीं है

पी-मूल्य और प्रभाव आकार दोनों की रिपोर्ट करें

अब सवाल का जवाब देने के लिए, प्रभाव आकार रहे हैं बेहतर करने के लिए पी मूल्यों ? मैं तर्क दूंगा, कि ये प्रत्येक सांख्यिकीय विश्लेषण में महत्वपूर्ण घटकों के रूप में कार्य करते हैं जिनकी तुलना ऐसे शब्दों में नहीं की जा सकती है, और इन्हें एक साथ रिपोर्ट किया जाना चाहिए। पी-मूल्य सांख्यिकीय महत्व (शून्य वितरण से अंतर) से संकेत मिलता है एक आंकड़ा शब्दों में प्रभाव आकार डालता है एक अंतर का कितना जहां है।

एक उदाहरण के रूप में, अपने पर्यवेक्षक, बॉब का कहना है, जो बहुत आँकड़े-अनुकूल नहीं है, यह देखने में रुचि रखता है कि क्या wt (वजन) और mpg (मील प्रति गैलन) के बीच एक महत्वपूर्ण संबंध था । आप परिकल्पना के साथ विश्लेषण शुरू करते हैं

एच0:βपीजी=0 बनाम एच:βपीजी0

पर परीक्षण किया जा रहा है α=0.05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

से summaryउत्पादन हम देख सकते हैं कि हम एक है टी आंकड़ा एक बहुत छोटे से पी-मूल्य । हम आराम से शून्य परिकल्पना को अस्वीकार कर सकते हैं और रिपोर्ट कर सकते हैंβपीजी0। हालाँकि, आपका बॉस पूछता है, अच्छा, यह कितना अलग है? आप बॉब को बता सकते हैं, "ठीक है, ऐसा लगता है कि mpg और wt के बीच एक नकारात्मक रैखिक संबंध है । इसके अलावा, संक्षेप में कहा जा सकता है कि wt में प्रत्येक बढ़ी हुई इकाई के लिए mpg में 5.3445 की कमी है "

इस प्रकार, आप यह निष्कर्ष निकालने में सक्षम थे कि परिणाम सांख्यिकीय रूप से महत्वपूर्ण थे, और व्यावहारिक रूप से महत्व का संचार करते हैं।

मुझे आशा है कि यह आपके प्रश्न का उत्तर देने में उपयोगी था।


जॉन, धन्यवाद, वहाँ ग्रे क्षेत्रों की बहुत सारी है कि मैं और अधिक के बारे में सुनने की उम्मीद कर रहा था, लेकिन मैं नहीं था। बहुत सी स्थितियों में प्रभाव आकार और पी-वैल्यू सहमत नहीं होते हैं। ऐसी स्थितियों में कई ट्रस्ट इफेक्ट साइज़ हैं, जो मैं जानना चाहता था कि क्यों। मैं उन सिमुलेशन के बारे में अधिक सुनने की उम्मीद कर रहा था जो महत्वपूर्ण बिंदु दिखा सकते हैं। आपके द्वारा लाए गए मामले के बारे में, कि प्रभाव का आकार छोटा हो सकता है, लेकिन बिल्कुल शून्य नहीं; तुल्यता परीक्षण के तरीके अब कई सालों से लागू हैं। मैं और भी अधिक बायेसियन तुल्यता परीक्षण पसंद है। वैसे भी, मैंने शायद अपने सवाल को स्पष्ट रूप से पर्याप्त नहीं पूछा। -
साभार

BTW, एक सहयोगी ने टिप्पणी की कि डैरन का आर कोड गलत है, ऐसा लगता है कि वह सही है। उसने नहीं डाला है var.equal = TRUE
रनरॉज़ियन

* बहुत सारी स्थितियों में प्रभाव के आकार और पी-वैल्यू सहमत नहीं होते। * - क्या आप इस बारे में अधिक जानकारी प्रदान कर सकते हैं? एक उदाहरण? आपके द्वारा लाए गए मामले के संबंध में, वह प्रभाव आकार छोटा हो सकता है, लेकिन बिल्कुल शून्य नहीं - इस स्थिति के परिणामस्वरूप एक बड़ा नमूना आकार हो सकता है। इस प्रकार यदि प्रभाव का आकार लगभग शून्य है, तो ब्याज का चर महत्वपूर्ण रूप से परिणाम को प्रभावित नहीं कर सकता है, या संबंध गलत तरीके से निर्दिष्ट किया जा सकता है (जैसे रैखिक बनाम nonlinear)।
जॉन

बस इस उपकरण का प्रयास करेंइस दस्तावेज़ को भी देखें । ऐसा लगता है कि मुझे स्पष्टता के लिए कुछ कोड का उपयोग करके बाद में एक और सवाल पूछने की आवश्यकता होगी। -- धन्यवाद।
rnorouzian

@rnorouzian, ठीक है, मैंने आपका कोड चलाया। अापका नजरिया क्या है?
जॉन

4

पी-वैल्यू (साथ ही सांख्यिकीय निष्कर्ष के अन्य मेट्रिक्स) के सापेक्ष प्रभाव आकारों की उपयोगिता मेरे क्षेत्र-मनोविज्ञान में नियमित रूप से बहस की जाती है - और यह बहस वर्तमान में "गर्म" है, जो आपके प्रश्न के लिए प्रासंगिक कारणों से सामान्य है। हालांकि मुझे यकीन है कि मनोविज्ञान जरूरी नहीं कि सबसे सांख्यिकीय रूप से परिष्कृत वैज्ञानिक क्षेत्र है, इसने आसानी से चर्चा की है, अध्ययन किया है - और कई बार, प्रदर्शन किया - सांख्यिकीय अनुमान के लिए विभिन्न दृष्टिकोणों की सीमाएं, या कम से कम वे मानव उपयोग द्वारा कैसे सीमित हैं। पहले से ही पोस्ट किए गए उत्तरों में अच्छी अंतर्दृष्टि शामिल है, लेकिन यदि आप कारणों के बारे में अधिक व्यापक सूची (और संदर्भ) में रुचि रखते हैं और प्रत्येक के खिलाफ, नीचे देखें।

पी-वैल्यू अवांछनीय क्यों हैं?

  • जैसा कि डैरेन जेम्स नोट (और उनके सिमुलेशन से पता चलता है), पी-मान काफी हद तक आपके द्वारा देखे गए टिप्पणियों के आधार पर आकस्मिक हैं देखे जाने वाले (देखें किर्क, 2003)
  • जॉन नोटों के रूप में, पी-मान डेटा को देखने के सशर्त संभावना को चरम या अधिक चरम के रूप में दर्शाते हैं, यह देखते हुए कि शून्य परिकल्पना सच है। जैसा कि अधिकांश शोधकर्ता अनुसंधान परिकल्पना की संभावनाएँ, और / या अशक्त परिकल्पना करते हैं, पी-मान उन सम्भावनाओं पर बात नहीं करते हैं जिनमें शोधकर्ता सबसे अधिक रुचि रखते हैं (यानी, शून्य या शोध परिकल्पना की, डायोड देखें, 2008)
  • बहुत से लोग जो पी-वैल्यू का उपयोग करते हैं, वे समझ नहीं पाते हैं कि उनका क्या मतलब है / मतलब नहीं है (श्मिट एंड हंटर, 1997)। माइकल ल्यू के गेलमैन और स्टर्न के संदर्भ (2006) के पेपर में शोधकर्ता गलतफहमी को समझते हैं कि पी-मानों से कोई क्या (या नहीं कर सकता) की व्याख्या करता है। और फाइव थर्टीहाइट पर अपेक्षाकृत हाल की कहानी के रूप में, यह मामला जारी है।
  • पी-मान बाद के पी-मानों की भविष्यवाणी करने में महान नहीं हैं (कमिंग, 2008)
  • पी-वैल्यू को अक्सर गलत तरीके से प्रस्तुत किया जाता है (अधिक बार महत्व को बढ़ाते हुए ), और गलत शेयरिंग डेटा को साझा करने की अनिच्छा से जुड़ा होता है (बकर एंड वीचर्ट्स, 2011; न्यूजेटन एट अल।, 2016; विचर्ट्स एट अल।, 2011)।
  • पी-मान विश्लेषणात्मक लचीलेपन के माध्यम से सक्रिय रूप से विकृत हो सकते हैं (और ऐतिहासिक रूप से,) और इसलिए अविश्वास (जॉन एट अल।, 2012; सिमंस एट अल।, 2011)
  • पी-मान असमान रूप से महत्वपूर्ण हैं, क्योंकि वैज्ञानिक सटीकता पर वैज्ञानिक महत्व के लिए अकादमिक प्रणाली वैज्ञानिकों को पुरस्कृत करती दिखाई देती है (फैनेली, 2010; नोज़क एट अल।, 2012; रोसेंथल, 1979)।

प्रभाव आकार वांछनीय क्यों हैं?

ध्यान दें कि मैं आपके प्रश्न की व्याख्या विशेष रूप से मानकीकृत प्रभाव आकारों के रूप में कर रहा हूं, जैसा कि आप कहते हैं कि वे शोधकर्ताओं को अपने निष्कर्ष "एक मेमन मीट्रिक" को बदलने की अनुमति देते हैं।

  • जैसा कि जॉन और डैरेन जेम्स संकेत करते हैं, प्रभाव आकार एक प्रभाव की भयावहता का संकेत देते हैं, टिप्पणियों की संख्या से स्वतंत्र (अमेरिकी मनोवैज्ञानिक एसोसिएशन 2010; कमिंग, 2014) एक प्रभाव है या नहीं, इसके बारे में द्विभाजित निर्णय लेने के विरोध में।
  • प्रभाव का आकार मूल्यवान है क्योंकि वे मेटा-विश्लेषण को संभव बनाते हैं, और मेटा-विश्लेषण ड्राइव संचयी ज्ञान (बोरेनस्टीन एट।), 2009; चान एंड आर्वे, 2012;
  • प्रभाव आकार एक प्राथमिक शक्ति विश्लेषण के माध्यम से नमूना आकार योजना को सुविधाजनक बनाने में मदद करता है , और इसलिए अनुसंधान में कुशल संसाधन आवंटन (कोहेन, 1992)

पी-वैल्यू वांछनीय क्यों हैं?

हालांकि वे कम अक्सर जासूसी कर रहे हैं, पी-मूल्यों की संख्या कई है। कुछ प्रसिद्ध और दीर्घकालिक हैं, जबकि अन्य अपेक्षाकृत नए हैं।

  • पी-मान सांख्यिकीय मॉडल नल परिकल्पना के खिलाफ सबूत की ताकत का एक सुविधाजनक और परिचित सूचकांक प्रदान करते हैं।

  • जब सही तरीके से गणना की जाती है, तो पी-वैल्यू द्विगुणित निर्णय लेने का एक साधन प्रदान करते हैं (जो कभी-कभी आवश्यक होते हैं), और पी-वैल्यू स्वीकार्य स्तर पर लंबी-झूठी झूठी सकारात्मक दरों को बनाए रखने में मदद करते हैं (डायनेस, 2008; सलुक, 2016) "यह यह कहने के लिए कड़ाई से सही नहीं है कि द्वि-निगमित निर्णयों के लिए पी-मान आवश्यक हैं। वे वास्तव में उस तरह से व्यापक रूप से उपयोग किए जाते हैं, लेकिन नेमन एंड पियर्सन ने उस उद्देश्य के लिए परीक्षण सांख्यिकीय स्थान में 'महत्वपूर्ण क्षेत्रों' का इस्तेमाल किया। देखिए यह सवाल और इसके जवाब]

  • पी-वैल्यू का उपयोग लगातार कुशल नमूना आकार योजना (न केवल एक बार बिजली-विश्लेषण) की सुविधा के लिए किया जा सकता है (Lakens, 2014)
  • पी-मूल्यों का उपयोग मेटा-विश्लेषण की सुविधा के लिए किया जा सकता है और साक्ष्य मूल्य (साइमनोशन एट अल।, 2014.; सिमोनसोहन एट अल।, 2014 बी) का उपयोग किया जा सकता है। इस ब्लागपोस्ट को एक सुलभ चर्चा के लिएदेखेंकि कैसे इस तरह से पी-वैल्यू के वितरण का उपयोग किया जा सकता है, साथ ही इस सीवी पोस्ट संबंधित चर्चा के लिए ।
  • पी-वैल्यू का उपयोग फोरेंसिक रूप से यह निर्धारित करने के लिए किया जा सकता है कि क्या संदिग्ध अनुसंधान प्रथाओं का उपयोग किया जा सकता है, और कैसे पुन: प्रयोज्य परिणाम हो सकते हैं (शिमैक, 2014; स्कोनब्रॉड्ट ऐप, 2015 भी देखें)

प्रभाव आकार अवांछनीय (या ओवररेटेड) क्यों हैं?

शायद कई के लिए सबसे अधिक काउंटर-सहज स्थिति; क्यों मानकीकृत प्रभाव आकार की रिपोर्टिंग अवांछनीय होगी, या बहुत कम से कम, ओवररेटेड?

  • कुछ मामलों में, मानकीकृत प्रभाव आकार वे सभी नहीं होते हैं जो टूट जाते हैं (उदाहरण के लिए, ग्रीनलैंड, श्लेस्सलमैन, और क्रिक्वि, 1986)। Baguely (2009), विशेष रूप से, कुछ कारणों का एक अच्छा विवरण है कि क्यों कच्चे / अनियंत्रित प्रभाव आकार वांछनीय हो सकते हैं।
  • एक प्राथमिकता शक्ति विश्लेषण के लिए उनकी उपयोगिता के बावजूद, प्रभावी आकार-आकार योजना (मैक्सवेल, 2004) को सुविधाजनक बनाने के लिए प्रभाव आकारों का वास्तव में उपयोग नहीं किया जाता है।
  • यहां तक ​​कि जब प्रभाव आकार का उपयोग नमूना आकार योजना में किया जाता है, क्योंकि उन्हें प्रकाशन पूर्वाग्रह के माध्यम से फुलाया जाता है (रोसेन्थल, 1979) प्रकाशित प्रभाव आकार विश्वसनीय नमूना-आकार योजना (साइमनोशन, 2013) के लिए संदिग्ध उपयोगिता के हैं
  • प्रभाव का आकार अनुमान लगाया जा सकता है और सांख्यिकीय रूप से सॉफ्टवेयर में व्यवस्थित रूप से रखा गया है (लेविन और हुलेट, 2002)
  • प्रभाव आकार गलती से निकाले जाते हैं (और शायद गलत तरीके से) जो मेटा- एनालिसिस (Gøtzsche et al।), 2007 की विश्वसनीयता को कम करता है
  • अंत में, प्रभाव के आकार में प्रकाशन पूर्वाग्रह के लिए सही अप्रभावी बनी हुई है (कार्टर एट अल।, 2017 देखें), जो, यदि आप मानते हैं कि प्रकाशन पूर्वाग्रह मौजूद हैं, तो मेटा-विश्लेषण को कम प्रभावशाली बनाता है।

सारांश

माइकल ल्यू द्वारा किए गए बिंदु की गूंज, पी-वैल्यू और प्रभाव आकार हैं, लेकिन सांख्यिकीय प्रमाण के दो टुकड़े; वहाँ दूसरों को भी विचार के लायक हैं। लेकिन पी-वैल्यू और इफेक्ट साइज़ की तरह, इवेबिलिटी वैल्यू के अन्य मेट्रिक्स ने साझा किया है और अनूठी समस्याएं भी। शोधकर्ता आमतौर पर आत्मविश्वास अंतराल (जैसे, होकेस्ट्रा एट अल।, 2014; मोरे एट अल।, 2016), उदाहरण के लिए, और बायेसियन विश्लेषण के परिणाम शोधकर्ताओं द्वारा विकृत कर सकते हैं, जैसे पी-मान का उपयोग करते समय (जैसे, साइमनोशन)। , 2014)।

सभी साक्ष्यों के मीट्रिक जीत गए हैं और सभी को पुरस्कार मिलना चाहिए।

संदर्भ

अमेरिकन मनोवैज्ञानिक संगठन। (2010)। अमेरिकन साइकोलॉजिकल एसोसिएशन का प्रकाशन मैनुअल (6 वां संस्करण)। वाशिंगटन, डीसी: अमेरिकन साइकोलॉजिकल एसोसिएशन।

बागुले, टी। (2009)। मानकीकृत या सरल प्रभाव आकार: क्या बताया जाना चाहिए? मनोविज्ञान के ब्रिटिश जर्नल, 100 (3), 603-617।

बकर, एम।, और विचर्ट्स, जेएम (2011)। मनोविज्ञान पत्रिकाओं में सांख्यिकीय परिणामों की (गलत) रिपोर्टिंग। व्यवहार अनुसंधान विधियों, 43 (3), 666-678।

बोरेंस्टीन, एम।, हेजेज, एलवी, हिगिंस, जे।, और रोथस्टीन, एचआर (2009)। मेटा-विश्लेषण का परिचय। वेस्ट ससेक्स, यूके: जॉन विले एंड संस, लिमिटेड

कार्टर, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 अगस्त)। मनोविज्ञान में पूर्वाग्रह के लिए सुधार: मेटा-एनालिटिकल विधियों की तुलना। Osf.io/preprints/psyarxiv/9h3nu से लिया गया

चान, एमई, और आरवी, आरडी (2012)। मेटा-विश्लेषण और ज्ञान का विकास। मनोवैज्ञानिक विज्ञान पर परिप्रेक्ष्य, 7 (1), 79-92।

कोहेन, जे। (1992)। एक पावर प्राइमर। मनोवैज्ञानिक बुलेटिन, 112 (1), 155-159। 

कमिंग, जी। (2008)। प्रतिकृति और पी अंतराल: पी मान पूर्व-भविष्य को केवल अस्पष्ट रूप से निर्धारित करते हैं, लेकिन आत्मविश्वास अंतराल बहुत बेहतर करते हैं। मनोवैज्ञानिक विज्ञान पर परिप्रेक्ष्य, 3, 286- 300।

डायनेस, डी। (2008)। मनोविज्ञान को एक विज्ञान के रूप में समझना: वैज्ञानिक और सांख्यिकीय निष्कर्ष के लिए एक परिचय। न्यूयॉर्क, एनवाई: पालग्रेव मैकमिलन।

फैनेली, डी। (2010)। "सकारात्मक" परिणाम विज्ञान के पदानुक्रम को बढ़ाते हैं। प्लोस वन, 5 (4), ई 10068।

जेलमैन, ए।, और स्टर्न, एच। (2006)। "महत्वपूर्ण" और "महत्वपूर्ण नहीं" के बीच का अंतर स्वयं सांख्यिकीय रूप से महत्वपूर्ण नहीं है। द अमेरिकन स्टेटिस्टिशियन, 60 (4), 328-331।

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007)। मेटा-विश्लेषण में डेटा निष्कर्षण त्रुटियां जो मानकीकृत माध्य अंतरों का उपयोग करती हैं। JAMA, 298 (4), 430-437।

ग्रीनलैंड, एस।, श्लेस्सलमैन, जेजे और क्रिक्वि, एमएच (1986)। प्रभाव के उपायों के रूप में मानकीकृत प्रतिगमन गुणांक और सहसंबंधों को नियोजित करने की गिरावट। अमेरिकन जर्नल ऑफ एपिडेमियोलॉजी, 123 (2), 203-208।

होकेस्ट्रा, आर।, मोरे, आरडी, राइडर, जेएन, और वेगेनमेकर्स, ईजे (2014)। आत्मविश्वास के अंतराल की गलत व्याख्या। साइकोनोमिक बुलेटिन एंड रिव्यू, 21 (5), 1157-1164।

जॉन, एलके, लोवेनस्टीन, जी।, और प्रीलेक, डी। (2012)। सत्य कहने के लिए प्रोत्साहन के साथ संदिग्ध अनुसंधान प्रथाओं की व्यापकता को मापना। मनोवैज्ञानिक विज्ञान, 23 (5), 524-532।

किर्क, आरई (2003)। प्रभाव परिमाण का महत्व। एस एफ डेविस (एड।), प्रयोगात्मक मनोविज्ञान में अनुसंधान विधियों की पुस्तिका (पीपी 83-105)। माल्डेन, एमए: ब्लैकवेल।

लकेंस, डी। (2014)। अनुक्रमिक विश्लेषण के साथ कुशलता से उच्च ing संचालित अध्ययन करना। यूरोपीय जर्नल ऑफ सोशल साइकोलॉजी, 44 (7), 701-710।

लेविन, टीआर, और हुलेट, सीआर (2002)। एटा स्क्वायर्ड, आंशिक ईटा स्क्वर्ड, और संचार अनुसंधान में प्रभाव के आकार का गलत चित्रण। मानव संचार अनुसंधान, 28 (4), 612-625।

मैक्सवेल, एसई (2004)। मनोवैज्ञानिक अनुसंधान में कमज़ोर अध्ययन की दृढ़ता: कारण, परिणाम और उपचार। मनोवैज्ञानिक तरीके, 9 (2), 147।

मोरे, आरडी, होकेस्ट्रा, आर।, राइडर, जेएन, ली, एमडी, और वेगेनमेकर्स, ईजे (2016)। आत्मविश्वास अंतराल में आत्मविश्वास रखने की गिरावट। साइकोनोमिक बुलेटिन एंड रिव्यू, 23 (1), 103-123।

नोसेक, बीए, जासूस, जेआर, और मोतील, एम। (2012)। वैज्ञानिक यूटोपिया: II। युवावस्था पर सत्य को बढ़ावा देने के लिए प्रोत्साहन और प्रथाओं का पुनर्गठन। मनोवैज्ञानिक विज्ञान पर परिप्रेक्ष्य, 7 (6), 615-631।

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016)। मनोविज्ञान में सांख्यिकीय रिपोर्टिंग त्रुटियों की व्यापकता (1985-2013)। व्यवहार अनुसंधान विधियों, 48 (4), 1205-1226।

रोसेन्थल, आर। (1979)। फ़ाइल परिणाम समस्या और अशक्त परिणामों के लिए सहिष्णुता। मनोवैज्ञानिक बुलेटिन, 86 (3), 638-641।

सकलुक, जेके (2016)। छोटे की खोज, बड़े की पुष्टि: संचयी और नकल मनोवैज्ञानिक अनुसंधान को आगे बढ़ाने के लिए नए आँकड़ों के लिए एक वैकल्पिक प्रणाली। जर्नल ऑफ़ एक्सपेरिमेंटल सोशल साइकोलॉजी, 66, 47-54।

शिमैक, यू। (2014)। सांख्यिकीय अनुसंधान वफ़ादारी का परिमाण: द रिप्लेसेबिलिटी-इंडेक्स। Http://www.r-index.org से लिया गया 

श्मिट, एफएल, और हंटर, जेई (1997)। अनुसंधान डेटा के विश्लेषण में महत्व परीक्षण के बंद होने पर आठ आम लेकिन झूठी आपत्तियां। एलएल हरलो, एसए मुलिक, और जेएच स्टीगर (ईडीएस) में, क्या होगा अगर कोई महत्व परीक्षण नहीं थे? (पीपी। 37-64)। महवा, एनजे: एर्लबम।

स्कोनब्रोड, एफडी (2015)। पी-चेकर: एक के लिए सभी पी-मूल्य विश्लेषक। Http://shinyapps.org/apps/p-checker/ से लिया गया । 

सीमन्स, जेपी, नेल्सन, एलडी, और साइमनोशन, यू (2011)। गलत-सकारात्मक मनोविज्ञान: डेटा संग्रह और विश्लेषण में अज्ञात लचीलापन महत्वपूर्ण के रूप में कुछ भी पेश करने की अनुमति देता है। मनोवैज्ञानिक विज्ञान, 22 (11), 1359-1366।

सिमोनसोहन, यू। (2013)। मनाया प्रभाव आकार के आधार पर शक्ति प्रतिकृति की मूर्खता। से पुनर्प्राप्त http://datacolada.org/4

सिमोनसोहन, यू। (2014)। पोस्टीरियर-हैकिंग। Http://datacolada.org/13 से लिया गया ।

साइमनोशन, यू।, नेल्सन, एलडी, और सीमन्स, जेपी (2014)। पी-वक्र: फाइल-ड्रावर की एक कुंजी। प्रायोगिक मनोविज्ञान जर्नल: जनरल, 143 (2), 534-547।

साइमनोशन, यू।, नेल्सन, एलडी, और सीमन्स, जेपी (2014)। पी-वक्र और प्रभाव का आकार: केवल महत्वपूर्ण परिणामों का उपयोग करके प्रकाशन पूर्वाग्रह के लिए सही। मनोवैज्ञानिक विज्ञान पर परिप्रेक्ष्य, 9 (6), 666-681।

विचर्ट्स, जेएम, बकर, एम।, और मोलेनार, डी। (2011)। अनुसंधान डेटा साझा करने की इच्छा साक्ष्य की ताकत और सांख्यिकीय परिणामों की रिपोर्टिंग की गुणवत्ता से संबंधित है। प्लोस वन, 6 (11), ई 26828।


2
विचारों और संदर्भों का बहुत अच्छा संग्रह। यह उन लोगों के लिए सहायक होना चाहिए, जो थोड़ा और खोदना चाहते हैं, लेकिन ध्यान दें कि इस साइट पर कई बिंदुओं में प्रासंगिक प्रश्न और उत्तर हैं। उन लोगों के लिए लिंक भी मदद मिलेगी।
माइकल ल्यू

@MichaelLew धन्यवाद। मैं कुछ लिंक जोड़ने के बारे में देखूंगा जब मेरे पास बाद में समय होगा - इस प्रतिक्रिया का मसौदा तैयार करने और संदर्भों को इकट्ठा करने के लिए मुझे दोपहर का बेहतर हिस्सा लगा। आपके संपादन के बारे में, मुझे लगता है कि आपकी बात को अच्छी तरह से लिया गया है, लेकिन शायद एक सुधार के विपरीत, इसके अतिरिक्त भी? मैंने कहा कि पी-वैल्यू द्विगुणित निर्णय लेने का एक साधन प्रदान करते हैं (यह नहीं कि वे "आवश्यक" हैं, या करने का एकमात्र तरीका है)। मैं मानता हूं कि एनपी महत्वपूर्ण क्षेत्र एक और तरीका है, लेकिन मैंने ओपी को जवाब दिया कि पी-वैल्यू बनाम मानकीकृत प्रभाव आकार क्या खर्च करते हैं।
jsakaluk

1
jsakaluk, हाँ मैं देख सकता हूँ कि आपने उत्तर पर एक लंबा समय बिताया होगा और यह बहुत उपयोगी है और आपके प्रयास के योग्य है। मैंने आइटम को P-मानों के फायदों पर संपादित किया क्योंकि आपने "जब सही तरीके से उपयोग किया गया" लिखा तो उन्हें द्विभाजित किया जा सकता है, जबकि वास्तविकता यह है कि इस तरह का उपयोग पी-मूल्य में एन्कोडेड जानकारी की बहुत उपेक्षा करता है और इसलिए यकीनन ( मेरी राय में) एक गलत उपयोग। मैं आपके इरादे को तोड़ना नहीं चाहता था और इसलिए मैंने "इस्तेमाल किया" को "गणना" में बदल दिया।
माइकल ल्यू

3

एक एपिडेमियोलॉजिस्ट के दृष्टिकोण से, मैं पी-वैल्यू पर प्रभाव के आकार को क्यों पसंद करता हूं (हालांकि जैसा कि कुछ लोगों ने नोट किया है, यह एक गलत द्विभाजन का कुछ है):

  1. प्रभाव आकार मुझे बताता है कि मैं वास्तव में क्या चाहता हूं, पी-मूल्य मुझे बताता है कि क्या यह अशक्त से अलग है। 1.0001, 1.5, 5, और 50 के सापेक्ष जोखिम में सभी समान पी-वैल्यू के साथ जुड़े हो सकते हैं, लेकिन इसका मतलब है कि जनसंख्या के स्तर पर हमें जो करना पड़ सकता है, उसके संदर्भ में अलग-अलग चीजें।
  2. पी-वैल्यू पर भरोसा इस धारणा को पुष्ट करता है कि महत्व-आधारित परिकल्पना परीक्षण अंत-सभी, साक्ष्य के सभी हैं। निम्नलिखित दो कथनों पर विचार करें: "अस्पताल में रहने के दौरान प्रतिकूल परिणाम के साथ रोगियों को मुस्कुराते हुए डॉक्टरों को महत्वपूर्ण रूप से संबद्ध नहीं किया गया था।" बनाम "जिन रोगियों में उनकी डॉक्टर मुस्कान थी, उनके प्रतिकूल परिणाम होने की संभावना 50% कम थी (पी = 0.086)।" क्या आप अभी भी, शायद, यह देखते हुए कि इसकी कोई कीमत नहीं है, डॉक्टरों को अपने रोगियों को मुस्कुराने का सुझाव देना चाहिए?
  3. मैं बहुत सारे स्टैचस्टिक सिमुलेशन मॉडल के साथ काम करता हूं, जिसमें नमूना आकार कंप्यूटिंग शक्ति और धैर्य का एक कार्य है, और पी-मूल्य अनिवार्य रूप से अर्थहीन हैं। मैं उन चीज़ों के लिए p <0.05 परिणाम प्राप्त करने में कामयाब रहा, जिनके पास कोई नैदानिक ​​या सार्वजनिक स्वास्थ्य प्रासंगिकता नहीं है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.