क्या पी-मूल्य अनिवार्य रूप से बेकार और उपयोग करने के लिए खतरनाक है?


36

NY टाइम्स का यह लेख " द ओड्स, कंटीन्यूअसली अपडेटेड" मेरा ध्यान आकर्षित करने के लिए हुआ। संक्षेप में, यह कहा गया है कि

[Bayesian आँकड़े] जटिल समस्याओं से निपटने में विशेष रूप से उपयोगी साबित हो रहे हैं, जिसमें 2013 में इस्तेमाल किए गए एक कोस्ट गार्ड जैसे लापता मछुआरे, जॉन एल्ड्रिज (हालांकि अभी तक, मलेशिया एयरलाइंस की उड़ान 370 के लिए शिकार में) को ढूंढना शामिल नहीं है। ......, बायेसियन आँकड़े भौतिकी से लेकर कैंसर अनुसंधान, पारिस्थितिकी से लेकर मनोविज्ञान तक सभी चीजों में व्याप्त हैं।

लेख में, अक्सर व्यक्ति के पी-मूल्य के बारे में कुछ आलोचनाएं भी हैं, उदाहरण के लिए:

यदि पी-मान 5 प्रतिशत से कम है, तो परिणाम आमतौर पर "सांख्यिकीय रूप से महत्वपूर्ण" माना जाता है। कोलंबिया में एक सांख्यिकी प्रोफेसर एंड्रयू जेलमैन ने कहा कि इस परंपरा में एक खतरा है। भले ही वैज्ञानिकों ने हमेशा गणना सही ढंग से की हो - और वे नहीं करते हैं, उनका तर्क है - 5 प्रतिशत के पी-मूल्य के साथ सब कुछ स्वीकार करने का मतलब है कि 20 में से एक "सांख्यिकीय रूप से महत्वपूर्ण" परिणाम यादृच्छिक शोर के अलावा कुछ भी नहीं है।

ऊपर के अलावा, शायद पी-मूल्य की आलोचना करने वाला सबसे प्रसिद्ध पेपर यह है - प्रकृति से रेजिना नुज़ो द्वारा "वैज्ञानिक विधि: सांख्यिकीय त्रुटियां" , जिसमें पी-मान दृष्टिकोण द्वारा उठाए गए कई वैज्ञानिक मुद्दों पर चर्चा की गई है, जैसे कि प्रजनन संबंधी चिंताएं। पी-मूल्य हैकिंग, आदि।

P मान, सांख्यिकीय वैधता के 'सोने के मानक', उतने विश्वसनीय नहीं हैं जितने वैज्ञानिक मानते हैं। ...... शायद सबसे बड़ी गिरावट आत्म-धोखे की है, जिसके लिए पेन्सिलवेनिया विश्वविद्यालय के मनोवैज्ञानिक उरी सिमोनसोहन और उनके सहयोगियों ने पी-हैकिंग शब्द को लोकप्रिय बनाया है; इसे डेटा-ड्रेजिंग, स्नूपिंग, फिशिंग, महत्व-पीछा और डबल-डिपिंग के रूप में भी जाना जाता है। "पी-हैकिंग," साइमनसोहन कहते हैं, "जब तक आप वांछित परिणाम प्राप्त नहीं करते तब तक कई चीजें कोशिश कर रही हैं" - यहां तक ​​कि अनजाने में भी। ...... "ऐसा लगता है कि पी-हैकिंग के माध्यम से प्राप्त किया गया है, लेखकों ने एक स्थिति को गिरा दिया ताकि समग्र पी-मान .05 से कम हो", और "वह एक पी-हैकर है, वह हमेशा डेटा की निगरानी करती है जबकि इसे एकत्र किया जा रहा है। ”

एक और बात से निम्नलिखित के रूप में एक दिलचस्प साजिश है यहाँ , साजिश के बारे में टिप्पणी के साथ:

कोई फर्क नहीं पड़ता कि आपका प्रभाव कितना छोटा है, आप हमेशा डेटा इकट्ठा करने की कड़ी मेहनत कर सकते हैं ताकि p <.05 की सीमा को पार किया जा सके। जब तक आप जिस प्रभाव का अध्ययन कर रहे हैं वह अस्तित्वहीन नहीं है, पी-वैल्यू केवल यह मापता है कि आपने डेटा एकत्र करने में कितना प्रयास किया है।

यहाँ छवि विवरण दर्ज करें

उपरोक्त सभी के साथ, मेरे प्रश्न हैं:

  1. दूसरे ब्लॉक उद्धरण में एंड्रयू जेलमैन के तर्क का क्या मतलब है, ठीक है? उन्होंने 5-प्रतिशत पी-मूल्य की व्याख्या "20 में से एक के रूप में महत्वपूर्ण रूप से महत्वपूर्ण परिणाम नोटिंग लेकिन यादृच्छिक शोर" के रूप में की थी? मुझे विश्वास नहीं हो रहा है कि एक एकल अध्ययन पर निष्कर्ष निकालने के लिए मेरे लिए पी-वैल्यू का उपयोग किया जाता है। उनकी बात कई परीक्षण से संबंधित लगती है।

    अद्यतन: इस बारे में एंड्रयू जेलमैन के ब्लॉग की जाँच करें: नहीं, मैंने ऐसा नहीं कहा! (श्रेय @Scortchi, @whuber को)।

  2. Cp

  3. क्या सांख्यिकीय विश्लेषण के लिए पी-मूल्य का उपयोग करने का कोई अच्छा व्यावहारिक मार्गदर्शन है जो अधिक विश्वसनीय अनुसंधान परिणामों को जन्म दे सकता है?
  4. कुछ सांख्यिकीविद अधिवक्ता के रूप में बेयसियन मॉडलिंग को आगे बढ़ाने का एक बेहतर तरीका होगा? विशेष रूप से, बेयसियन दृष्टिकोण गलत मुद्दों को सुलझाने या डेटा मुद्दों में हेरफेर करने की अधिक संभावना होगी? मैं यहाँ भी आश्वस्त नहीं हूँ क्योंकि बायेसियन दृष्टिकोण में पूर्व बहुत व्यक्तिपरक है। क्या कोई व्यावहारिक और प्रसिद्ध अध्ययन है जो बेयसियन दृष्टिकोण दिखाते हैं, लगातारवादी के पी-मूल्य से बेहतर है, या कम से कम कुछ विशेष मामलों में?

    अद्यतन: मुझे विशेष रूप से इस बात में दिलचस्पी होगी कि क्या ऐसे मामले हैं जो बायेसियन दृष्टिकोण लगातार पी के मूल्य के दृष्टिकोण से अधिक विश्वसनीय है। "विश्वसनीय" से मेरा मतलब है कि बायेसियन दृष्टिकोण वांछित परिणामों के लिए डेटा में हेरफेर करने की कम संभावना है। कोई सुझाव?


अपडेट 6/9/2015

बस खबर पर गौर किया, और सोचा कि इसे चर्चा के लिए यहां रखना अच्छा होगा।

मनोविज्ञान पत्रिका P मानों पर प्रतिबंध लगाती है

एक विवादास्पद सांख्यिकीय परीक्षण अंत में कम से कम एक पत्रिका में अपने अंत से मिला है। इस महीने की शुरुआत में, बेसिक एंड एप्लाइड सोशल साइकोलॉजी (बीएएसपी) के संपादकों ने घोषणा की कि पत्रिका अब पी वैल्यू वाले पेपर प्रकाशित नहीं करेगी, क्योंकि आंकड़े अक्सर कम गुणवत्ता वाले अनुसंधान का समर्थन करने के लिए उपयोग किए जाते थे।

हाल ही में एक पेपर के साथ, "फिकल पी वैल्यू , पी वैल्यू के बारे में " नेचर से इररेप्रोडयूसीबल परिणाम उत्पन्न करता है

अपडेट 5/8/2016

मार्च में वापस, अमेरिकन स्टैटिस्टिकल एसोसिएशन (एएसए) ने सांख्यिकीय महत्व और पी-मूल्यों पर बयान जारी किया, ".... एएसए स्टेटमेंट का उद्देश्य 'पोस्ट पी <0.05 युग' में शोध को आगे बढ़ाना है।"

इस कथन में 6 सिद्धांत हैं जो पी-मूल्य के दुरुपयोग को संबोधित करते हैं:

  1. पी-मान इंगित कर सकते हैं कि निर्दिष्ट सांख्यिकीय मॉडल के साथ डेटा कितने असंगत हैं।
  2. पी-मान उस संभावना को नहीं मापते हैं कि अध्ययन की गई परिकल्पना सच है, या संभावना है कि डेटा अकेले यादृच्छिक मौका द्वारा उत्पादित किए गए थे।
  3. वैज्ञानिक निष्कर्ष और व्यवसाय या नीतिगत निर्णय केवल इस आधार पर नहीं होना चाहिए कि क्या पी-मूल्य एक विशिष्ट सीमा से गुजरता है।
  4. उचित आक्षेप के लिए पूर्ण रिपोर्टिंग और पारदर्शिता की आवश्यकता होती है।
  5. एक पी-मूल्य, या सांख्यिकीय महत्व, किसी परिणाम के आकार या परिणाम के महत्व को नहीं मापता है।
  6. अपने आप से, एक पी-मूल्य एक मॉडल या परिकल्पना के बारे में सबूत का एक अच्छा उपाय प्रदान नहीं करता है।

विवरण: "पी-मूल्यों पर एएसए का बयान: संदर्भ, प्रक्रिया और उद्देश्य"


11
0.050.05


4
अच्छा लगता है, @Sortortchi! रिकॉर्ड के लिए - यदि कभी भी लिंक खराब हो जाता है - जेलमैन एनवाई टाइम्स के चरित्र चित्रण (यद्यपि बहुत चतुराई से) को अस्वीकार कर देता है और लिखता है "5 प्रतिशत के पी-मूल्य के साथ सब कुछ स्वीकार करने से बहुत सारे निष्कर्ष निकल सकते हैं- ऐसे मामले जहां एक अवलोकन" आंकड़ों में सांख्यिकीय रूप से महत्वपूर्ण "पैटर्न जनसंख्या में संबंधित पैटर्न को प्रतिबिंबित नहीं करता है - समय के 5 प्रतिशत से अधिक।"
whuber

3
आपकी टिप्पणी के संदर्भ में "जब तक आप जो प्रभाव पढ़ रहे हैं वह अस्तित्वहीन नहीं है", तो यह है कि पी मूल्यों को शामिल करने वाले अध्ययनों का बिंदु - यह निर्धारित करने के लिए कि क्या आप जो प्रभाव पढ़ रहे हैं वह वास्तव में मौजूद है या यदि विशिष्टताओं का उल्लेख है। आपके द्वारा एकत्र किया गया डेटा बस यादृच्छिक मौका के कारण है। बढ़ते हुए नमूने के आकार के साथ पी वैल्यू को कम करना पूरी तरह से गणितीय रूप से ध्वनि है और वास्तव में, एकमात्र विकल्प है। आप किसी भी तरह से p- मान को "हैक" नहीं कर रहे हैं। एक सहज दृष्टिकोण से, यह समझ में आता है कि डेटा एकत्र करने में अधिक प्रयास करने से आप जो निष्कर्ष निकालते हैं उसमें एक उच्च आत्मविश्वास में बदल जाएगा।
डेविड वेब

1
@DavidWebb सहमत हुए। यदि प्रभाव का आकार छोटा है, तो यह ठीक है और यह कहना आसान होगा कि अधिक डेटा के साथ प्रभाव कितना बड़ा या छोटा है। यदि आप अधिक डेटा प्राप्त कर सकते हैं, तो आपको चाहिए।
Desty

जवाबों:


25

यहाँ कुछ विचार हैं:

  1. 80%100/118.7584%
  2. p
  3. p
  4. मैं बेयसियन तरीकों का उपयोग करने के लिए हठपूर्वक विरोध नहीं कर रहा हूं, लेकिन मुझे विश्वास नहीं है कि वे इस समस्या को हल करेंगे। उदाहरण के लिए, आप केवल तब तक डेटा एकत्र करते रह सकते हैं जब तक कि विश्वसनीय अंतराल में अब कोई भी मूल्य शामिल नहीं है जिसे आप अस्वीकार करना चाहते हैं। इस प्रकार आपके पास 'विश्वसनीय अंतराल-हैकिंग' है। जैसा कि मैं इसे देखता हूं, मुद्दा यह है कि कई चिकित्सक आंतरिक रूप से उन सांख्यिकीय विश्लेषणों में रुचि नहीं रखते हैं, जो वे उपयोग करते हैं, इसलिए वे जो भी विधि का उपयोग करना चाहते हैं, वह एक अस्थिर और यांत्रिक तरीके से आवश्यक है। यहां मेरे दृष्टिकोण के बारे में अधिक जानकारी के लिए, मेरे जवाब को पढ़ने में मदद मिल सकती है: महत्व परीक्षण के लिए परिकल्पना के रूप में प्रभाव का आकार

10
(+1) एक विश्वसनीय अंतराल हैक करने का एक आसान तरीका सिर्फ सही पूर्व :-) को अपनाना है। बेशक कोई सक्षम व्यवसायी ऐसा नहीं करेगा - गेलमैन संवेदनशीलता आकलन, अनइनफॉर्मेटिव हाइपरप्रिअर्स, आदि का उपयोग करने पर जोर देता है ।-- लेकिन फिर फिर से परिकल्पना परीक्षणों का कोई सक्षम उपयोगकर्ता पी-वैल्यू हैकिंग नहीं करेगा, क्या वे करेंगे? दूसरी ओर, एक बायेसियन विश्लेषण में यह छिपाना अधिक कठिन हो सकता है कि कोई क्या कर रहा है - पहले मान लेना स्पष्ट रूप से खुलासा है - पी-मूल्य हैकिंग में शामिल हो सकने वाले सभी अनिर्दिष्ट विश्लेषणों की तुलना में।
whuber

1
@whuber, यह सच है, लेकिन मुझे लगता है कि हम किसी भी मुद्दे को अलग कर सकते हैं w / अनुचितता या व्यक्ति की प्राथमिकता। यदि वास्तविक प्रभाव ठीक 0 नहीं है, तो w / पर्याप्त डेटा विश्वसनीय अंतराल में अंततः 0 शामिल नहीं होगा, जैसे कि p <.05 (cf, अंतिम उद्धरण) होगा, इसलिए आप बस तब तक डेटा एकत्र कर सकते हैं जब तक आप प्राप्त नहीं करते परिणाम आप पूर्व की परवाह किए बिना चाहते हैं।
गूँग - मोनिका

4
अच्छे अंक। मुझे 10,000 उत्पादों में विफलताओं की भविष्यवाणी करने के बारे में हाल ही में एक प्रश्न याद दिलाया गया है कि उनमें से 100,000 में कोई विफलता नहीं है। उत्तर पूर्व के प्रति बहुत संवेदनशील है क्योंकि विफलताएं बहुत कम हैं। यह उस तरह की असाधारण स्थिति हो सकती है जो "नियम को साबित करता है"; यह दर्शाता है कि वास्तव में वांछित परिणाम प्राप्त करने के लिए पर्याप्त डेटा एकत्र करना अव्यावहारिक हो सकता है। ठीक वैसा ही जब कुछ ग्राहक वांछित परिणाम प्राप्त करने के लिए सांख्यिकीविद को "अपना जादू करने" के लिए प्रेरित करना शुरू करते हैं! शायद कई पाठकों ने उस दबाव को पहले भी महसूस किया हो ...।
whuber

1
@gung, व्यावहारिक क्लिनिक परीक्षणों में, प्रयोगों के लिए अधिक विषयों की भर्ती के लिए हमेशा विभिन्न चरणों में मानदंड रोक रहे हैं। इस मायने में, क्या बायेसियन दृष्टिकोण इस तरह के शोध निष्कर्षों को विश्वसनीय अंतराल में हेरफेर करने की संभावना कम है?
आरोन ज़ेंग

2
@AaronZeng, यह मुझे लगता है कि स्पष्ट रूप से रोक के मानदंड फ़्रीक्वेंटिस्ट और बायेसियन दृष्टिकोण के लिए समान रूप से लागू होते हैं। मुझे यहाँ कोई शुद्ध लाभ / हानि नहीं दिख रही है।
गूँग -

8

मेरे लिए, पी-हैकिंग विवाद के बारे में सबसे दिलचस्प चीजों में से एक यह है कि सांख्यिकीय महत्व के लिए "<एक बार एक नीला चंद्रमा में" मानक के रूप में पी का = इतिहास, जैसा कि जोसेफ काल्डेन ने फोरेंसिक आंकड़ों के लिए एक जेएएसए लेख में नोट किया है। 90 के दशक में वापस, बिल्कुल भी कोई सांख्यिकीय सिद्धांत नहीं है। यह एक सम्मलेन है, सरल न्यायवादी और अंगूठे का नियम है जो आरए फिशर के साथ शुरू हुआ है और तब से इसकी वर्तमान "निर्विवाद" स्थिति में पुन: प्रमाणित या संरक्षित हो गया है। बायेसियन या नहीं, इस मीट्रिक मानक को चुनौती देने या कम से कम इसे संदेहपूर्ण समय देने के लिए समय बहुत अधिक है।

उस ने कहा, गेलमैन की बात की मेरी व्याख्या है, जैसा कि सर्वविदित है, सहकर्मी की समीक्षा प्रक्रिया सकारात्मक सांख्यिकीय महत्व को पुरस्कृत करती है और उन पत्रों को प्रकाशित न करके तुच्छ परिणामों को दंडित करती है। यह इस बात से बेपरवाह है कि एक निरर्थक खोज को प्रकाशित करने या न करने से किसी दिए गए डोमेन के लिए सोच और सिद्धांत पर बड़ा प्रभाव पड़ेगा। जेलमैन, सिमोंशोहोन और अन्य ने बार-बार सहकर्मी की समीक्षा और प्रकाशित शोध में 0.05 महत्व के स्तर के दुरुपयोग की ओर इशारा किया है, जो असाधारण, सामाजिक और मनोवैज्ञानिक अनुसंधान में हास्यास्पद, फिर भी सांख्यिकीय रूप से महत्वपूर्ण निष्कर्षों का उदाहरण है। सबसे अहंकारी में से एक सांख्यिकीय महत्वपूर्ण खोज थी कि गर्भवती महिलाओं को लाल कपड़े पहनने की अधिक संभावना थी। गेलमैन ने सांख्यिकीय परिणामों के लिए तार्किक चुनौतियों के अभाव में,संभावित अर्थहीन व्याख्या। यहाँ, वह उद्योग के व्यावसायिक खतरों के बारे में अत्यधिक तकनीकी और निरर्थक तर्कों का जिक्र कर रहा है जो एक श्रोता के बीच बहस को आगे बढ़ाने के लिए बहुत कम या कुछ भी नहीं करते हैं।

यह एक बिंदु है गैरी किंग वीथिकली बनाता है जब वह व्यावहारिक रूप से मात्रात्मक राजनीतिक वैज्ञानिकों (और, विस्तार से, सभी quants) को यंत्रवत, तकनीकी रिपोर्ट जैसे "यह परिणाम एपी <= 0.05 के स्तर पर महत्वपूर्ण था" को रोकने और अधिक मूल व्याख्याओं की ओर बढ़ने के लिए कहता है। । यहां उनके द्वारा एक कागज से एक उद्धरण दिया गया है,

(1) सबसे बड़े मूल ब्याज की मात्राओं के संख्यात्मक सटीक अनुमानों को व्यक्त करें, (2) में उन अनुमानों के बारे में अनिश्चितता के उचित उपाय शामिल हैं, और (3) को समझने के लिए बहुत कम विशेष ज्ञान की आवश्यकता होती है। निम्नलिखित सरल कथन हमारे मानदंड को संतुष्ट करते हैं: 'अन्य चीजें समान होने के नाते, शिक्षा का एक अतिरिक्त वर्ष आपकी वार्षिक आय औसतन 1,500 डॉलर बढ़ाएगा, साथ ही साथ या लगभग 500 डॉलर घटाएगा।' कोई भी उच्च विद्यालय का छात्र उस वाक्य को समझ सकता है, चाहे वह सांख्यिकीय मॉडल कितना भी परिष्कृत क्यों न हो और शक्तिशाली कंप्यूटर उसका उत्पादन करता था।

किंग की बात को बहुत अच्छी तरह से लिया गया है और बहस को जिस दिशा में ले जाने की जरूरत है, उसका नक्शा तैयार करता है।

सांख्यिकीय विश्लेषणों में से अधिकांश बनाना: व्याख्या और प्रस्तुतीकरण में सुधार , राजा, टॉम्ज़ और विटेनबर्ग, 2002, एएम जोन्स ऑफ पोली साइंस


2
+1 थ्रेड के लिए इस पठनीय, सूचनात्मक और विचारशील योगदान के लिए धन्यवाद।
whuber

@whuber तरह के शब्दों के लिए धन्यवाद। समय बताएगा कि अन्य प्रतिभागी इससे सहमत हैं या नहीं।
माइक हंटर

2
मैं बहक सकता हूं, लेकिन मैं यह सोचना पसंद करता हूं कि हमारे सक्रिय मतदाताओं में से कुछ (यदि अधिकांश नहीं हैं) समझौते या असहमति के आधार पर वोट नहीं देते हैं, लेकिन क्या कोई पद इस तरह मूल प्रश्न का जवाब देता है जो स्पष्ट और आधिकारिक है । आखिरकार, अपवोट आइकन के ऊपर होवर टेक्स्ट में लिखा है "यह उत्तर उपयोगी है," नहीं "मैं इस आदमी से सहमत हूं।" (यह हमारे मेटा साइट पर मतदान के साथ भ्रमित नहीं होना है, जो समझौते की डिग्री का संकेत देता है।) इस छाप के लिए कुछ सबूत कई स्पोर्ट्समैनशिप बैज द्वारा सम्मानित किए गए हैं।
whuber

@Whuber आपके द्वारा इंगित की गई बारीकियों को विधिवत उल्लेख किया गया है।
माइक हंटर

@ इस थ्रेड के साथ दूसरे दिन हमारी चैट में बहकने वाले शब्द के मेरे उपयोग का स्रोत था ।
माइक हंटर

5

प्रश्न 3 के बारे में यहाँ मेरे कुछ विचार हैं, सभी टिप्पणियों और उत्तरों को पढ़ने के बाद।

संभवतः पी-वैल्यू हैकिंग से बचने के लिए सांख्यिकीय विश्लेषण में एक व्यावहारिक मार्गदर्शन इसके बजाय वैज्ञानिक रूप से (या, जैविक रूप से, चिकित्सकीय रूप से) महत्वपूर्ण / सार्थक प्रभाव आकार को देखने के लिए है।

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

इसके अलावा, प्रभाव का पता लगाने के लिए बहुत बड़े नमूना आकार का उपयोग करने से बचने के लिए, आवश्यक नमूना आकार को भी ध्यान में रखा जाना चाहिए। यही है, हमें प्रयोग के लिए उपयोग किए जाने वाले अधिकतम नमूना आकार पर एक बाधा डालनी चाहिए।

सारांश में,

  1. हमें महत्व को घोषित करने के लिए सार्थक प्रभाव आकार के लिए पूर्वनिर्धारित सीमा की आवश्यकता है;
  2. हमें प्रयोग में लिए जाने वाले नमूने के आकार के लिए एक सीमा को पूर्वनिर्धारित करने की आवश्यकता है ताकि यह पता लगाया जा सके कि सार्थक प्रभाव आकार कितना उपयोगी है;

ऊपर के साथ, शायद इसलिए हम एक विशाल नमूना आकार द्वारा दावा किए गए मामूली "महत्वपूर्ण" प्रभाव से बच सकते हैं।


[अपडेट 6/9/2015]

प्रश्न 3 के संबंध में, यहाँ प्रकृति से हाल के कागज़ात के आधार पर कुछ सुझाव दिए गए हैं: "चंचल पी मान अपरिवर्तनीय परिणाम उत्पन्न करता है" जैसा कि मैंने प्रश्न भाग में उल्लेख किया है।

  1. रिपोर्ट के आकार का अनुमान और उनकी सटीकता, यानी 95% विश्वास अंतराल, क्योंकि उन अधिक जानकारीपूर्ण जानकारी वास्तव में सवालों का जवाब देती हैं जैसे अंतर कितना बड़ा है, या संबंध या संबंध कितना मजबूत है;
  2. विशिष्ट वैज्ञानिक अध्ययनों / प्रश्नों के संदर्भ में प्रभाव आकार के अनुमानों और 95% सीआई को रखें और उन सवालों के जवाब देने की उनकी प्रासंगिकता पर ध्यान केंद्रित करें और चंचल पी मान को छूट दें;
  3. प्रभाव के एक निर्धारित डिग्री तक पहुंचने के लिए प्रभाव के आकार का आकलन करने के लिए आवश्यक नमूना आकार का निर्धारण करने के लिए " सटीक के लिए योजना " के साथ शक्ति विश्लेषण को बदलें ।

[अंतिम अद्यतन 6/9/2015]


4
H0:θ=δ

@AndyW, टिप्पणियों के लिए धन्यवाद। मैंने उसी हिसाब से अपना जवाब बदल दिया है। क्या यह बेहतर विकल्प होगा?
आरोन ज़ेंग

2
उस प्रकृति लेख के संदर्भ के लिए +1। इसमें कुछ आश्चर्यजनक गलत जानकारी शामिल है, हालांकि, जैसे कि (अघोषित) पी-मूल्यों की बेयसियन व्याख्या: "एक उदाहरण के रूप में, यदि एक अध्ययन पी = 0.03 प्राप्त करता है, तो 90% संभावना है कि एक प्रतिकृति अध्ययन कहीं एक पी मान लौटाएगा। 0-0.6 (90% पूर्वानुमान अंतराल) की विस्तृत श्रृंखला के बीच, जबकि P <0.05 की संभावना सिर्फ 56% है। " मुझे आश्चर्य है कि लेखक किस पूर्व वितरण को मान रहे हैं - और यह भी प्रासंगिक क्यों है?
whuber

@AndyW और आरोन ज़ेंग, और भी बेहतर है कि अंतर के लिए दोनों परीक्षणों से परिणामों को मिलाएं , और समकक्षता के लिए परीक्षण करें। इस तरह, एक प्रासंगिक प्रभाव आकार और सांख्यिकीय शक्ति दोनों स्पष्ट रूप से एक निष्कर्ष ( एक प्रासंगिकता परीक्षण पर अनुभाग देखें) में स्थित है।
एलेक्सिस

3

P(D|H0)αH0H0

  1. तात्पर्य यह है कि 1/20 परिणाम शून्य को अस्वीकार कर सकते हैं जब उनके पास नहीं होना चाहिए। यदि विज्ञान आधारित यह एकल प्रयोगों पर निष्कर्ष निकालता है, तो कथन रक्षात्मक होगा। अन्यथा, यदि प्रयोगों को दोहराया गया था तो इसका अर्थ यह होगा कि 19/20 अस्वीकार नहीं किया जाएगा। कहानी का नैतिक यह है कि प्रयोगों को दोहराया जाना चाहिए।

  2. विज्ञान एक परंपरा है जिसे "निष्पक्षता" के रूप में देखा जाता है, इसलिए "उद्देश्य की संभावना" स्वाभाविक रूप से अपील करती है। याद रखें कि अध्ययन के बाहर कारकों को नियंत्रित करने के लिए अक्सर ब्लॉक डिजाइन और रैंडमाइजेशन को नियंत्रित करने के लिए उच्च स्तर के नियंत्रण का प्रदर्शन करने के लिए प्रयोगों का अनुमान लगाया जाता है। इस प्रकार, यादृच्छिक की तुलना में कोई मतलब नहीं है क्योंकि अध्ययन के तहत अन्य सभी कारकों को नियंत्रित किया जाना चाहिए। ये तकनीकें विज्ञान में चित्रित होने से पहले कृषि और उद्योग में अत्यधिक सफल थीं।

  3. मुझे यकीन नहीं है कि जानकारी की कमी कभी समस्या थी। यह उल्लेखनीय है कि गैर-गणितीय विज्ञानों में से कई के लिए आँकड़े केवल टिक करने के लिए एक बॉक्स है।

  4. मैं निर्णय सिद्धांत के बारे में एक सामान्य पढ़ने का सुझाव देता हूं जो दो रूपरेखाओं को एकजुट करता है। यह बस के रूप में आप के रूप में ज्यादा जानकारी का उपयोग करने के लिए नीचे आता है। फ़्रीक्वेंटिस्ट आंकड़े मान लेते हैं कि मॉडल में निश्चित वितरण से अज्ञात मान हैं। बायेसियन मान लेते हैं कि हम जो जानते हैं, उसके द्वारा वितरित किए गए वितरण से मॉडल में पैरामीटर आते हैं। यदि एक सटीक पोस्टीरियर को अद्यतन करने के लिए पूर्व और पर्याप्त जानकारी बनाने के लिए पर्याप्त जानकारी है तो यह बहुत अच्छा है। अगर वहाँ नहीं है तो आप खराब परिणामों के साथ समाप्त हो सकते हैं।


1

सांख्यिकीय परीक्षण के परिणामों की पुनरावृत्ति

यह सांख्यिकीय परीक्षण के आधार पर निर्णयों की प्रतिलिपि प्रस्तुत करने की क्षमता का आकलन करने के लिए एक छोटा, सरल अभ्यास है।

H1 और H2 युक्त वैकल्पिक परिकल्पनाओं के एक सेट के साथ एक शून्य परिकल्पना H0 पर विचार करें। 0.05 की शक्ति के लिए 0.05 के महत्व स्तर पर सांख्यिकीय परिकल्पना परीक्षण प्रक्रिया को सेट करें, यदि H1 सत्य है। इसके अलावा मान लें कि H2 के लिए शक्ति 0.5 है। परीक्षण के परिणाम के प्रतिलिपि प्रस्तुत करने योग्यता का आकलन करने के लिए, प्रयोग को परीक्षण प्रक्रिया को दो बार निष्पादित करने के बारे में माना जाता है। स्थिति से शुरू करते हुए, जहां H0 सत्य है, संयुक्त प्रयोग के परिणामों की संभावनाएं तालिका 1 में प्रदर्शित की गई हैं। निर्णय को पुन: प्रस्तुत करने में सक्षम नहीं होने की संभावना 0.095 है।

तालिका 1. आवृत्तियों, यदि H0 सत्य है

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

प्रकृति की वास्तविक स्थिति के बदलते ही आवृत्तियों में परिवर्तन होता है। H1 को सच मानते हुए, H0 को 0.8 की शक्ति के साथ डिजाइन के रूप में खारिज किया जा सकता है। संयुक्त प्रयोग के विभिन्न परिणामों के लिए परिणामी आवृत्तियों को तालिका 2 में प्रदर्शित किया गया है। निर्णय को पुन: प्रस्तुत करने में सक्षम नहीं होने की संभावना 0.32 है।

तालिका 2. आवृत्ति, यदि H1 सत्य है

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

एच 2 को सच मानते हुए, एच 0 को 0.5 की संभावना के साथ खारिज कर दिया जाएगा। संयुक्त प्रयोग के विभिन्न परिणामों के लिए परिणामी आवृत्तियों को तालिका 3 में प्रदर्शित किया गया है। फैसले को पुन: प्रस्तुत करने में सक्षम नहीं होने की संभावना 0.5 है।

तालिका 3. आवृत्ति, यदि H2 सत्य है

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

परीक्षण प्रक्रिया को टाइप I त्रुटियों को नियंत्रित करने के लिए डिज़ाइन किया गया था (शून्य परिकल्पना की अस्वीकृति भले ही यह सच है) 0.05 की संभावना और सीमा प्रकार II त्रुटियों के साथ है (शून्य परिकल्पना की कोई अस्वीकृति भले ही वह गलत हो और एच 1 सच है) से 0.2। दोनों मामलों के लिए, H0 या H1 को सही माना जाता है, इससे गैर-नगण्य आवृत्तियों, 0.095 और 0.32, क्रमशः "गैर-प्रजनन योग्य", "विरोधाभासी" निर्णयों की ओर जाता है, यदि एक ही प्रयोग दो बार दोहराया जाता है। "गैर-प्रजनन योग्य", "विरोधाभासी" फैसलों के लिए 0.5 तक की आवृत्ति के साथ स्थिति खराब हो जाती है, अगर प्रकृति की वास्तविक स्थिति अशक्त और प्रयोग को डिजाइन करने के लिए वैकल्पिक वैकल्पिक परिकल्पना के बीच है।

स्थिति भी बेहतर हो सकती है - यदि टाइप 1 त्रुटियों को अधिक सख्ती से नियंत्रित किया जाता है, या यदि प्रकृति की सही स्थिति नल से बहुत दूर है, जिसके परिणामस्वरूप 1 के करीब आने वाले नल को अस्वीकार करने की शक्ति होती है।

इस प्रकार, यदि आप अधिक प्रतिलिपि प्रस्तुत करने योग्य निर्णय चाहते हैं, तो महत्व और अपने परीक्षणों की शक्ति बढ़ाएं। बहुत आश्चर्य नहीं ...


(+1) लेकिन आप प्रयोग से पहले पी-वैल्यू को 5% पर सेट नहीं कर सकते - सोचें कि आपका मतलब "महत्व स्तर" है।
Scortchi - को पुनः स्थापित मोनिका

धन्यवाद। "महत्व का स्तर कम और शक्ति में वृद्धि": अंतिम वाक्य में एक ही बात
फिर से बहाल करते मोनिका - Scortchi

मुझे लगता है कि पी मूल्यों के साथ सबसे बड़ा मुद्दा यह है कि लोग उन्हें महत्वपूर्ण महत्व के साथ भ्रमित करते हैं। इसलिए यदि p <.05 का अर्थ है कि खोजे गए प्रभाव का आकार काफी बड़ा है। मुझे पी वैल्यू जेनरेट करके [निश्चित रूप से] महत्वपूर्ण प्रभाव उत्पन्न करने के लिए काम करने के लिए कहा जाता है।
user54285
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.