क्या यह वास्तव में पी-वैल्यू कैसे काम करता है? क्या प्रति वर्ष एक लाख शोध पत्र शुद्ध यादृच्छिकता पर आधारित हो सकते हैं?


98

मैं आँकड़ों के लिए बहुत नया हूँ, और मैं मूल बातें समझने के लिए सीख रहा हूँ, जिसमें pvalues ​​भी शामिल है। लेकिन अभी मेरे दिमाग में एक बहुत बड़ा सवालिया निशान है, और मुझे उम्मीद है कि मेरी समझ गलत है। यहाँ मेरी विचार प्रक्रिया है:p

"अनंत बंदर प्रमेय" में बंदरों की तरह दुनिया भर के सभी शोध नहीं हैं? गौर कीजिए कि दुनिया में 23887 विश्वविद्यालय हैं। यदि प्रत्येक विश्वविद्यालय में 1000 छात्र हैं, तो प्रत्येक वर्ष 23 मिलियन छात्र हैं।

मान लीजिए कि प्रत्येक वर्ष, प्रत्येक छात्र शोध का कम से कम एक टुकड़ा करता है, जो कि हाइपोथीसिस परीक्षण का उपयोग ।α=0.05

इसका मतलब यह नहीं है कि भले ही सभी अनुसंधान नमूनों को यादृच्छिक आबादी से खींचा गया था, लेकिन उनमें से लगभग 5% "अवैध रूप से अशक्त परिकल्पना को अस्वीकार करेंगे"। वाह। उसके बारे में सोचना। "महत्वपूर्ण" परिणामों के कारण प्रति वर्ष एक लाख शोध पत्र प्रकाशित हो रहे हैं।

यदि यह कैसे काम करता है, तो यह डरावना है। इसका अर्थ है कि हम जो "वैज्ञानिक सत्य" देते हैं वह बहुत कुछ शुद्ध यादृच्छिकता पर आधारित होता है।

R कोड का एक सरल हिस्सा मेरी समझ का समर्थन करता है:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

तो क्या यह लेख सफल -fishing पर है: I Fooled लाखों गलत सोच के चॉकलेट वजन घटाने में मदद करता है। यहाँ कैसे हैp

क्या वास्तव में यह सब वहाँ है? क्या यह "विज्ञान" काम करने वाला है?


31
सही समस्या संभावित रूप से महत्वपूर्ण नल की संख्या को गुणा करने से कहीं अधिक बदतर है, महत्व खोजने के लिए दबाव के कारण (यदि एक महत्वपूर्ण पत्रिका गैर-महत्वपूर्ण परिणाम प्रकाशित नहीं करेगी, या एक रेफरी एक कागज को अस्वीकार कर देगा जो नहीं करता है महत्वपूर्ण परिणाम हैं, महत्व हासिल करने का एक तरीका खोजने का दबाव है ... और हम यहां कई सवालों में 'महत्व शिकार' अभियान देखते हैं); यह वास्तविक महत्व स्तर को जन्म दे सकता है जो कि दिखने में काफी अधिक है।
Glen_b

5
दूसरी ओर, कई अशक्त परिकल्पनाएं बिंदु नल हैं, और वे वास्तव में बहुत कम सच हैं।
Glen_b

37
कृपया पी-वैल्यू के साथ वैज्ञानिक पद्धति को भ्रमित न करें। अन्य बातों के अलावा, विज्ञान प्रजनन क्षमता पर जोर देता है । इस तरह से, कागज़, कहना, कोल्ड फ़्यूज़न प्रकाशित हो सकता है (1989 में) लेकिन पिछली तिमाही के लिए कोल्ड फ्यूज़न एक टेनबल वैज्ञानिक सिद्धांत के रूप में मौजूद नहीं है। ध्यान दें, भी, कि कुछ वैज्ञानिक उन क्षेत्रों में काम करने में रुचि रखते हैं जहां प्रासंगिक शून्य परिकल्पना वास्तव में सच है । इस प्रकार, आपकी परिकल्पना कि "सभी अनुसंधान नमूने [एक] यादृच्छिक जनसंख्या से खींचे गए थे" कुछ भी यथार्थवादी नहीं दर्शाते हैं।
whuber

13
Xkcd जेली बीन्स कार्टून का अनिवार्य संदर्भ । संक्षिप्त उत्तर - यह दुर्भाग्य से बहुत बार हो रहा है, और कुछ जर्नल अब "महत्वपूर्ण" शोध की मात्रा को कम करने के लिए प्रत्येक प्रकाशन की समीक्षा करने वाले एक सांख्यिकीविद पर जोर दे रहे हैं जो सार्वजनिक डोमेन में अपना रास्ता बनाता है। इस पूर्व चर्चा में
फ्लोरिस

8
शायद मुझे शिकायत नहीं है ... "हमने सफलतापूर्वक 95% संगीन परिकल्पनाओं को हराया। शेष 5% को यादृच्छिक प्रभावों के कारण हारना इतना आसान नहीं था, जो सार्थक प्रभाव की तरह लग रहे थे। हमें उन और अधिक बारीकी से देखना चाहिए और अनदेखा करना चाहिए। अन्य 95% यह बिल्कुल "विज्ञान" जैसी किसी भी चीज़ के लिए व्यवहार के सही प्रकार की तरह लगता है।
एरिक टावर्स

जवाबों:


70

यह निश्चित रूप से एक वैध चिंता है, लेकिन यह बिल्कुल सही नहीं है।

यदि 1,000,000 अध्ययन किए जाते हैं और सभी अशक्त परिकल्पनाएं सच होती हैं, तो लगभग 50,000 का p <0.05 पर महत्वपूर्ण परिणाम होगा। यही एपी मूल्य है। हालांकि, नल अनिवार्य रूप से कड़ाई से सच नहीं है। लेकिन यहां तक ​​कि अगर हम इसे "लगभग सही" या "सही के बारे में" या कुछ इस तरह से ढीला करते हैं, तो इसका मतलब यह होगा कि 1,000,000 अध्ययनों को सभी चीजों के बारे में होना चाहिए

  • सामाजिक सुरक्षा संख्या और IQ के बीच संबंध
  • क्या आपके पैर की लंबाई आपके जन्म की स्थिति से संबंधित है?

और इसी तरह। बकवास।

एक समस्या यह है कि निश्चित रूप से, हम नहीं जानते कि कौन से अशक्त सत्य हैं। एक अन्य समस्या है एक @Glen_b ने अपनी टिप्पणी में उल्लेख किया है - फ़ाइल दराज समस्या।

यही कारण है कि मैं रॉबर्ट एबेल्सन के विचारों को इतना पसंद करता हूं कि वह सांख्यिकी में राजसी तर्क के रूप में सामने आता है । यही है, सांख्यिकीय साक्ष्य एक राजसी तर्क का हिस्सा होना चाहिए कि क्यों कुछ मामला है और मैग्नेट मानदंडों पर न्याय किया जाना चाहिए:

  • परिमाण: प्रभाव कितना बड़ा है?
  • मुखरता: क्या यह "ifs", "ands" और "buts" (यह बुरा है) से भरा है
  • सामान्यता: यह व्यापक रूप से कैसे लागू होता है?
  • interestingness
  • क्रेडिबिल्टी: अविश्वसनीय दावों के लिए बहुत सारे सबूतों की आवश्यकता होती है

4
क्या कोई यह भी कह सकता है कि "यदि 1M अध्ययन किया जाता है और यहां तक ​​कि अगर सभी अशक्त परिकल्पनाएं सच होती हैं, तो लगभग 50.000 टाइप 1 त्रुटि करेंगे और गलत तरीके से शून्य परिकल्पना को अस्वीकार करेंगे? यदि एक शोधकर्ता को पी <0.05 मिलता है तो वे जानते हैं कि" h0 सही है? और एक दुर्लभ घटना घटित हुई है या h1 गलत है "। यह बताने का कोई तरीका नहीं है कि यह केवल इस एक अध्ययन के परिणामों को
देखकर है

5
आप केवल एक गलत सकारात्मक प्राप्त कर सकते हैं यदि सकारात्मक, वास्तव में, गलत है। यदि आपने 40 IV उठाए हैं जो सभी शोर थे, तो आपके पास एक प्रकार की त्रुटि का एक अच्छा मौका होगा। लेकिन आम तौर पर हम IVs को एक कारण के लिए चुनते हैं। और नल झूठा है। यदि नल झूठा है तो आप टाइप I त्रुटि नहीं कर सकते।
पीटर Flom

6
मुझे आपके दूसरे पैराग्राफ की समझ नहीं है, जिसमें बुलेट पॉइंट्स भी शामिल हैं। मान लें कि तर्क के लिए सभी 1 मिलियन अध्ययन एक विशिष्ट स्थिति का इलाज करने के लिए दवा यौगिकों का परीक्षण कर रहे थे। इन अध्ययनों में से प्रत्येक के लिए अशक्त परिकल्पना यह है कि दवा हालत को ठीक नहीं करती है। तो, ऐसा क्यों होना चाहिए "अनिवार्य रूप से कड़ाई से सच नहीं है"? इसके अलावा, आप यह क्यों कहते हैं कि सभी अध्ययनों को निरर्थक संबंधों के बारे में होना चाहिए, जैसे एसएस # और आईक्यू? किसी भी अतिरिक्त स्पष्टीकरण के लिए धन्यवाद जो मुझे आपकी बात समझने में मदद कर सकता है।
चेलियन जूल

11
@ पीटरफ्लोम के उदाहरणों को ठोस बनाने के लिए: एसएसएन के पहले तीन अंक (प्रयुक्त) आवेदक के ज़िप कोड को एनकोड करते हैं। चूंकि अलग-अलग राज्यों में कुछ अलग जनसांख्यिकी हैं और पैर के अंगूठे का आकार कुछ जनसांख्यिकीय कारकों (आयु, दौड़, आदि) के साथ जोड़ा जा सकता है, इसलिए निश्चित रूप से सामाजिक सुरक्षा संख्या और पैर के आकार के बीच एक संबंध है - यदि किसी के पास पर्याप्त डेटा है।
मैट क्रैस

6
@MattKrause अच्छा उदाहरण है। मैं लिंग द्वारा फिंगर काउंट पसंद करता हूं। मुझे यकीन है कि अगर मैंने सभी पुरुषों और सभी महिलाओं की जनगणना ली, तो मैं पाऊंगा कि एक लिंग में दूसरे की तुलना में अधिक उंगलियां होती हैं। एक बहुत बड़ा नमूना लेने के बिना, मुझे नहीं पता कि किस लिंग में अधिक उंगलियां हैं। इसके अलावा, मुझे संदेह है कि मैं एक दस्ताने निर्माता के रूप में मैं दस्ताने डिजाइन में उंगली की जनगणना डेटा का उपयोग करूंगा।
एम्परी जूल

40

"अनंत बंदर प्रमेय" बंदरों की तरह दुनिया भर में सभी शोध नहीं हैं?

याद रखें, वैज्ञानिक गंभीर रूप से अनंत बंदरों की तरह नहीं हैं, क्योंकि उनका अनुसंधान व्यवहार - विशेष रूप से प्रयोग - कुछ भी लेकिन यादृच्छिक है। प्रयोगों (कम से कम माना जाता है) अविश्वसनीय रूप से नियंत्रित हेरफेर और माप हैं जो कि यंत्रवत रूप से सूचित परिकल्पना पर आधारित हैं जो पिछले शोध के एक बड़े शरीर पर बनाता है। वे अंधेरे (या टाइपराइटर पर बंदर की उंगलियों) में सिर्फ यादृच्छिक शॉट्स नहीं हैं।

गौर कीजिए कि दुनिया में 23887 विश्वविद्यालय हैं। यदि प्रत्येक विश्वविद्यालय में 1000 छात्र हैं, तो प्रत्येक वर्ष 23 छात्र हैं। मान लीजिए कि प्रत्येक वर्ष, प्रत्येक छात्र कम से कम एक शोध करता है,

प्रकाशित शोध निष्कर्षों की संख्या के अनुमान का रास्ता बंद हो गया है। मुझे नहीं पता कि दुनिया में 23 मिलियन "विश्वविद्यालय के छात्र" हैं (क्या इसमें सिर्फ विश्वविद्यालय या कॉलेज शामिल हैं?), लेकिन मुझे पता है कि उनमें से अधिकांश कभी भी कोई वैज्ञानिक निष्कर्ष प्रकाशित नहीं करते हैं। मेरा मतलब है, उनमें से ज्यादातर विज्ञान की बड़ी नहीं हैं, और यहां तक ​​कि अधिकांश विज्ञान की बड़ी कंपनियों ने कभी भी निष्कर्ष प्रकाशित नहीं किए हैं।

प्रत्येक वर्ष वैज्ञानिक प्रकाशनों की संख्या के लिए एक अधिक संभावित अनुमान (कुछ चर्चा ) लगभग 1-2 मिलियन है।

इसका मतलब यह नहीं है कि भले ही सभी अनुसंधान नमूनों को यादृच्छिक जनसंख्या से खींचा गया था, लेकिन उनमें से लगभग 5% "अवैध रूप से अशक्त परिकल्पना को अस्वीकार करेंगे"। वाह। उस के बारे में सोचो। "महत्वपूर्ण" परिणामों के कारण प्रति वर्ष एक लाख शोध पत्र प्रकाशित हो रहे हैं।

ध्यान रखें, सभी प्रकाशित शोध में आँकड़े नहीं हैं जहाँ महत्व p = 0.05 मान पर सही है। अक्सर कोई p <0.01 या p <0.001 जैसे p मान देखता है। मुझे नहीं पता कि "मीन" पी मूल्य एक लाख कागजात से अधिक है, निश्चित रूप से।

यदि यह कैसे काम करता है, तो यह डरावना है। इसका अर्थ है कि हम जो "वैज्ञानिक सत्य" देते हैं वह बहुत कुछ शुद्ध यादृच्छिकता पर आधारित होता है।

यह भी ध्यान रखें, वैज्ञानिकों को वास्तव में 0.05 के आसपास "वैज्ञानिक सत्य" के रूप में परिणाम की एक छोटी संख्या लेने के लिए नहीं माना जाता है। आस - पास भी नहीं। वैज्ञानिकों को कई अध्ययनों को एकीकृत करने के लिए माना जाता है, जिनमें से प्रत्येक में उपयुक्त सांख्यिकीय शक्ति, प्रशंसनीय तंत्र, प्रतिलिपि प्रस्तुत करने योग्यता, प्रभाव की भयावहता, आदि हैं, और इसमें शामिल हैं कि कुछ घटना कैसे काम करती है के एक अस्थायी मॉडल में।

लेकिन, क्या इसका मतलब यह है कि लगभग सभी विज्ञान सही हैं? बिल्कुल नहीं। वैज्ञानिक मानव हैं, और पूर्वाग्रह से ग्रस्त हैं, खराब अनुसंधान पद्धति (अनुचित सांख्यिकीय दृष्टिकोण सहित), धोखाधड़ी, सरल मानव त्रुटि, और दुर्भाग्य। संभवतः प्रकाशित विज्ञान का एक स्वस्थ हिस्सा गलत है, पी <0.05 सम्मेलन के बजाय ये कारक गलत हैं। वास्तव में, चलो अभी पीछा करने के लिए सही काटते हैं, और जो आपने आगे रखा है, उससे भी अधिक "डरावना" बयान करें:

क्यों सबसे प्रकाशित अनुसंधान निष्कर्ष गलत हैं


10
मैं कहूंगा कि Ioannidis एक कठोर तर्क दे रहा है जो प्रश्न का समर्थन करता है। विज्ञान के साथ ऐसा कुछ भी नहीं किया गया है, जैसा कि यहां उत्तर देने वाले आशावादी लोग सोचते हैं। और बहुत सारे प्रकाशित शोध कभी भी दोहराया नहीं जाता है। इसके अलावा, जब प्रतिकृति का प्रयास किया जाता है, तो परिणाम Ioannidis तर्क का समर्थन करते हैं कि बहुत अधिक प्रकाशित विज्ञान मूल रूप से बैलॉक है।
मैट_ब्लैक

9
यह दिलचस्पी का विषय हो सकता है कि कण भौतिकी में एक खोज का दावा करने के लिए हमारे पी-मूल्य सीमा 0.00000057 है।
डेविड जेड

2
और कई मामलों में, कोई भी पी मान नहीं हैं। गणित और सैद्धांतिक भौतिकी सामान्य मामले हैं।
डेविड मम

21

p

α

डेविड कोलक्वाउन द्वारा 2014 के पेपर की इस हालिया चर्चा को देखें: गलत खोज दर और कई परीक्षण (कोलंबो 2014 पर) के साथ भ्रम । मैं इस "कम से कम 30%" अनुमान के खिलाफ वहां बहस कर रहा हूं, लेकिन मैं इस बात से सहमत हूं कि अनुसंधान के कुछ क्षेत्रों में झूठी खोज की दर 5% से बहुत अधिक हो सकती है। यह वास्तव में चिंताजनक है।

मुझे नहीं लगता है कि यह कहना कि अशक्त लगभग कभी सच नहीं है यहां मदद करता है; टाइप एस और टाइप एम त्रुटियाँ (जैसा कि एंड्रयू जेलमैन द्वारा पेश किया गया है) टाइप I / II त्रुटियों से बहुत बेहतर नहीं हैं।

मुझे लगता है कि इसका वास्तव में क्या मतलब है, यह है कि किसी को एक अलग "महत्वपूर्ण" परिणाम पर भरोसा नहीं करना चाहिए।

α107α=0.05

p<0.05p

p<0.05


पुन: "संचयी पी मान": क्या आप केवल व्यक्तिगत पी मानों को गुणा कर सकते हैं, या क्या आपको इसे काम करने के लिए कुछ राक्षसी कॉम्बिनेटरिक्स करने की आवश्यकता है?
केविन

pαp

17

आपकी चिंता वास्तव में वह चिंता है जो प्रजनन के बारे में विज्ञान में वर्तमान चर्चा का एक बड़ा हिस्सा है। हालाँकि, मामलों की सही स्थिति आपके सुझाव से कुछ अधिक जटिल है।

सबसे पहले, कुछ शब्दावली स्थापित करें। नल की परिकल्पना महत्व परीक्षण को सिग्नल डिटेक्शन समस्या के रूप में समझा जा सकता है - नल की परिकल्पना या तो सच है या गलत है, और आप इसे अस्वीकार या बनाए रखने का विकल्प चुन सकते हैं। दो निर्णयों और दो संभावित "सत्य" मामलों के संयोजन के परिणाम निम्न तालिका में हैं, जो ज्यादातर लोग कुछ बिंदुओं पर देखते हैं जब वे कुछ सीखने की प्रक्रिया सीखते हैं:

यहाँ छवि विवरण दर्ज करें

शून्य परिकल्पना महत्व परीक्षण का उपयोग करने वाले वैज्ञानिक सही निर्णय की संख्या को अधिकतम करने का प्रयास कर रहे हैं (नीले रंग में दिखाया गया है) और गलत निर्णयों की संख्या को कम से कम (लाल रंग में दिखाया गया है)। कामकाजी वैज्ञानिक भी अपने परिणाम प्रकाशित करने की कोशिश कर रहे हैं ताकि वे नौकरी पा सकें और अपने करियर को आगे बढ़ा सकें।

H0


H0

प्रकाशन पूर्वाग्रह

α

p

स्वतंत्रता की शोधकर्ता डिग्री

αα। बड़ी संख्या में संदिग्ध अनुसंधान प्रथाओं की उपस्थिति को देखते हुए, झूठी सकारात्मकता की दर उतनी ही अधिक हो सकती है ।60 भले ही नाममात्र दर .05 ( सिमंस, नेल्सन, और साइमनोशन, 2011 ) पर निर्धारित की गई थी ।

यह ध्यान रखना महत्वपूर्ण है कि स्वतंत्रता के शोधकर्ता डिग्री का अनुचित उपयोग (जिसे कभी-कभी एक संदिग्ध अनुसंधान अभ्यास के रूप में जाना जाता है; मार्टिन्सन, एंडरसन, और डी वीस, 2005 ) डेटा बनाने के समान नहीं है। कुछ मामलों में, आउटलेर्स को छोड़ना सही काम है, क्योंकि या तो उपकरण विफल हो जाते हैं या किसी अन्य कारण से। प्रमुख मुद्दा यह है कि, आजादी के शोधकर्ता डिग्री की उपस्थिति में, विश्लेषण के दौरान किए गए निर्णय अक्सर इस बात पर निर्भर करते हैं कि डेटा कैसे निकला ( गेलमैन और लोकेन, 2014)), भले ही प्रश्न में शोधकर्ताओं को इस तथ्य के बारे में पता न हो। जब तक शोधकर्ता किसी महत्वपूर्ण परिणाम की संभावना को बढ़ाने के लिए (जानबूझकर या अनजाने में) शोधकर्ता डिग्री का उपयोग करते हैं (शायद इसलिए क्योंकि महत्वपूर्ण परिणाम अधिक "publishable" हैं), स्वतंत्रता की शोधकर्ता डिग्री की मौजूदगी एक शोध साहित्य को गलत सकारात्मकता के साथ सामने लाएगी। उसी तरह जैसे प्रकाशन पूर्वाग्रह।


उपरोक्त चर्चा के लिए एक महत्वपूर्ण चेतावनी यह है कि वैज्ञानिक कागजात (कम से कम मनोविज्ञान में, जो मेरा क्षेत्र है) शायद ही कभी एकल परिणामों से मिलकर बनता है। अधिक सामान्य कई अध्ययन हैं, जिनमें से प्रत्येक में कई परीक्षण शामिल हैं - जोर एक बड़े तर्क के निर्माण पर है और प्रस्तुत साक्ष्य के लिए वैकल्पिक स्पष्टीकरण को खारिज कर रहा है। हालांकि, परिणामों की चयनात्मक प्रस्तुति (या स्वतंत्रता की शोधकर्ता डिग्री की उपस्थिति) परिणामों के एक सेट में पूर्वाग्रह पैदा कर सकती है जैसे कि आसानी से एकल परिणाम। इस बात के प्रमाण हैं कि बहु-अध्ययन पत्रों में प्रस्तुत किए गए परिणाम अक्सर बहुत साफ-सुथरे होते हैं और एक से अधिक मजबूत होता है, भले ही इन अध्ययनों की सभी भविष्यवाणियां सच हों ( फ्रांसिस, 2013 )।


निष्कर्ष

मौलिक रूप से, मैं आपके अंतर्ज्ञान से सहमत हूं कि अशक्त परिकल्पना महत्व परीक्षण गलत हो सकता है। हालाँकि, मैं तर्क दूंगा कि झूठी सकारात्मकता की उच्च दर का उत्पादन करने वाले सच्चे अपराधी प्रकाशन पूर्वाग्रह और स्वतंत्रता की शोधकर्ता डिग्री की उपस्थिति जैसी प्रक्रियाएं हैं। दरअसल, कई वैज्ञानिक इन समस्याओं से अच्छी तरह परिचित हैं, और वैज्ञानिक पुनरुत्पादकता में सुधार चर्चा का एक बहुत ही सक्रिय वर्तमान विषय है (जैसे, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 )। तो आप अपनी चिंताओं के साथ अच्छी कंपनी में हैं, लेकिन मुझे भी लगता है कि कुछ सतर्क आशावाद के कारण भी हैं।


संदर्भ

स्टर्न, जेएम, और नीबू, आरजे (1997)। प्रकाशन पूर्वाग्रह: नैदानिक ​​अनुसंधान परियोजनाओं के एक पलटन अध्ययन में देरी से प्रकाशन के साक्ष्य। बीएमजे, 315 (7109), 640-645। http://doi.org/10.1136/bmj.315.7109.640

डवान, के।, अल्टमैन, डीजी, अर्नीज़, जेए, ब्लूम, जे।, चान, ए।, क्रोनिन, ई।,… विलियमसन, पीआर (2008)। अध्ययन प्रकाशन पूर्वाग्रह और परिणाम रिपोर्टिंग पूर्वाग्रह के अनुभवजन्य साक्ष्य की व्यवस्थित समीक्षा। PLOS ONE, 3 (8), e3081। http://doi.org/10.1371/journal.pone.0003081

रोसेन्थल, आर। (1979)। फ़ाइल परिणाम समस्या और अशक्त परिणामों के लिए सहिष्णुता। मनोवैज्ञानिक बुलेटिन, 86 (3), 638-641। http://doi.org/10.1037/0033-2909.86.3.638

सीमन्स, जेपी, नेल्सन, एलडी, और सिमोनसोहन, यू (2011)। गलत-सकारात्मक मनोविज्ञान: डेटा संग्रह और विश्लेषण में अज्ञात लचीलापन महत्वपूर्ण के रूप में कुछ भी पेश करने की अनुमति देता है। मनोवैज्ञानिक विज्ञान, 22 (11), 1359–1366। http://doi.org/10.1177/0956797611417632

मार्टिंसन, बीसी, एंडरसन, एमएस, और डी वीस, आर (2005)। बुरा बर्ताव करने वाले वैज्ञानिक। प्रकृति, ४३५, ,३ ,- .३37। http://doi.org/10.1038/435737a

जेलमैन, ए।, और लोकेन, ई। (2014)। विज्ञान में सांख्यिकीय संकट। अमेरिकी वैज्ञानिक, 102, 460-465।

फ्रांसिस, जी (2013)। प्रतिकृति, सांख्यिकीय स्थिरता और प्रकाशन पूर्वाग्रह। जर्नल ऑफ़ मैथमेटिकल साइकोलॉजी, 57 (5), 153–169। http://doi.org/10.1016/j.jmp.2013.02.003

नोसेक, बीए और बार-आन, वाई। (2012)। वैज्ञानिक यूटोपिया: I. वैज्ञानिक संचार खोलना। मनोवैज्ञानिक जाँच, २३ (३), २१ 217-२४३। http://doi.org/10.1080/1047840X.2012.692215

नोसेक, बीए, जासूस, जेआर, और मोतील, एम। (2012)। वैज्ञानिक यूटोपिया: II। युवावस्था पर सत्य को बढ़ावा देने के लिए प्रोत्साहन और प्रथाओं का पुनर्गठन। मनोवैज्ञानिक विज्ञान पर परिप्रेक्ष्य, 7 (6), 615–631। http://doi.org/10.1177/1745691612459058


1
+1। लिंक का अच्छा संग्रह। यहां आपकी "स्वतंत्रता की शोधकर्ता डिग्री" अनुभाग के लिए एक बहुत ही प्रासंगिक पेपर है: जाली रास्तों का बगीचा: क्यों कई तुलनाएं एक समस्या हो सकती हैं, यहां तक ​​कि जब कोई "मछली पकड़ने का अभियान" या "पी-हैकिंग" नहीं है और अनुसंधान की परिकल्पना थी एंड्रयू जेलमैन और एरिक लोकेन (2013) द्वारा समय से पहले प्रस्तुत किया गया
अमीबा

धन्यवाद, @amoeba, उस दिलचस्प संदर्भ के लिए। मैं विशेष रूप से इस बात को पसंद करता हूं कि गेलमैन और लोकेन (2013) स्वतंत्रता के शोधकर्ता डिग्री पर पूंजीकरण करना एक जागरूक प्रक्रिया नहीं है। मैंने अपना उत्तर उस पेपर को शामिल करने के लिए संपादित किया है।
पैट्रिक एस। फ़ॉश्चर

मुझे बस अमेरिकी वैज्ञानिक में जेलमैन और लोकेन (2014) का प्रकाशित संस्करण मिला।
पैट्रिक एस। फ़ॉश्चर

10

इस प्रश्न में उठाए गए महत्वपूर्ण मुद्दे पर एक पर्याप्त जांच यह है कि "वैज्ञानिक सत्य" व्यक्तिगत, पृथक प्रकाशनों पर आधारित नहीं है। यदि कोई परिणाम पर्याप्त रूप से दिलचस्प है तो यह अन्य वैज्ञानिकों को परिणाम के निहितार्थ को आगे बढ़ाने के लिए प्रेरित करेगा। वह काम मूल खोज की पुष्टि या खंडन करेगा। एक व्यक्तिगत अध्ययन में एक सच्चे अशक्त परिकल्पना को खारिज करने का 1/20 मौका हो सकता है, लेकिन एक पंक्ति में दो बार ऐसा करने का केवल 1/400।

यदि वैज्ञानिकों ने केवल "महत्व" पाए जाने तक प्रयोगों को दोहराया और फिर अपने परिणामों को प्रकाशित किया तो समस्या उतनी बड़ी हो सकती है जितनी कि ओपी का सुझाव है। लेकिन यह नहीं है कि विज्ञान कैसे काम करता है, कम से कम बायोमेडिकल अनुसंधान में मेरे लगभग 50 वर्षों के अनुभव में। इसके अलावा, एक प्रकाशन एक एकल "महत्वपूर्ण" प्रयोग के बारे में शायद ही कभी होता है, बल्कि अंतर-संबंधित प्रयोगों के सेट पर आधारित होता है (प्रत्येक को अपने आप में "महत्वपूर्ण" होने की आवश्यकता होती है) जो एक व्यापक, मूल परिकल्पना के लिए समर्थन प्रदान करते हैं।

एक बहुत बड़ी समस्या वैज्ञानिकों की है, जो अपनी परिकल्पना के लिए भी प्रतिबद्ध हैं। वे तब अपने परिकल्पनाओं का समर्थन करने के लिए व्यक्तिगत प्रयोगों के निहितार्थों की अधिक व्याख्या कर सकते हैं, संदिग्ध डेटा संपादन (जैसे मनमाने ढंग से निकालने वाले), या (जैसा कि मैंने देखा है और पकड़ने में मदद की है) बस डेटा बनाते हैं।

विज्ञान, हालांकि, एक अत्यधिक सामाजिक प्रक्रिया है, चाहे पागल वैज्ञानिकों के बारे में पौराणिक कथाएं हाथीदांत टावरों में छिपी हों। दूसरों के काम से जो सीखा है, उसके आधार पर हजारों वैज्ञानिकों को उनके हितों को आगे बढ़ाने का अधिकार है, जो झूठी सकारात्मकता से अंतिम संस्थागत संरक्षण है। गलत निष्कर्ष कभी-कभी वर्षों तक बनाए रखा जा सकता है, लेकिन अगर कोई मुद्दा पर्याप्त रूप से महत्वपूर्ण है तो प्रक्रिया अंततः गलत निष्कर्ष की पहचान करेगी।


6
1/400040

2
23M अध्ययनों में से, हम अभी भी नहीं बता सकते हैं कि क्या 5.000 परिणाम केवल शोर के कारण अशक्त परिकल्पना को अस्वीकार करते हैं, हम कर सकते हैं? यह वास्तव में पैमाने की समस्या भी है। एक बार जब आप लाखों शोध करेंगे, तो टाइप 1 त्रुटि आम होगी।
n_mu_sigma

3
अगर २३,०००,००० अध्ययनों में से केवल ५००० गलत निष्कर्ष थे, तो मैं वास्तव में असामान्य बात कहूंगा !
whuber

3
लगभग 50 वर्षों में विज्ञान करने और अन्य वैज्ञानिकों को जानने के बाद, मैं किसी भी ऐसे व्यक्ति के बारे में नहीं सोच सकता जो तब तक बार-बार प्रयोग करते हैं जब तक कि उन्होंने "महत्व" हासिल नहीं कर लिया। @Whuber द्वारा उठाई गई सैद्धांतिक संभावना मेरे अनुभव में है, न कि एक बड़ी व्यावहारिक समस्या। बहुत बड़ी व्यावहारिक समस्या डेटा बना रही है, या तो अप्रत्यक्ष रूप से "आउटलेयर" को फेंकने से जो एक पूर्वधारणा के अनुकूल नहीं है, या बस शुरू करने के लिए "डेटा" बनाकर। उन व्यवहारों को मैंने पहले हाथ से देखा है, और वे p -values को समायोजित करके तय नहीं किए जा सकते हैं ।
EdM

3
@ ईडीएम "एक व्यक्तिगत अध्ययन में एक सच्चे अशक्त परिकल्पना को खारिज करने का 1/20 मौका हो सकता है, लेकिन एक पंक्ति में दो बार ऐसा करने का केवल 1/4000।" आपको दूसरा नंबर कैसे मिला?
अक्कल

5

बस चर्चा में जोड़ने के लिए, यहां एक दिलचस्प पोस्ट और बाद की चर्चा है कि लोग आमतौर पर गलतफहमी पी-मूल्य कैसे हैं।

किसी भी मामले में क्या बनाए रखा जाना चाहिए कि एक पी-मूल्य किसी दिए गए परिकल्पना को खारिज करने में साक्ष्य की ताकत का एक उपाय है। एक पी-मूल्य निश्चित रूप से एक कठिन सीमा नहीं है, जिसके नीचे कुछ "सच" है और इसके बाद यह केवल मौका के कारण है। जैसा कि ऊपर संदर्भित पोस्ट में बताया गया है:

परिणाम वास्तविक प्रभावों और संयोग का एक संयोजन हैं, यह या तो / या नहीं है


शायद यह p- मानों की समझ में योगदान देगा: आंकड़े.stackexchange.com/questions/166323/…

4

जैसा कि अन्य उत्तरों में भी कहा गया है, यह केवल समस्या पैदा करेगा यदि आप चुनिंदा परिणामों पर विचार करने जा रहे हैं जहां अशक्त परिकल्पना को खारिज किया जाता है। यही कारण है कि वैज्ञानिक समीक्षा लेख लिखते हैं जहां वे पहले प्रकाशित शोध परिणामों पर विचार करते हैं और उस पर आधारित विषय की बेहतर समझ विकसित करने का प्रयास करते हैं। हालांकि, तब भी एक समस्या बनी हुई है, जो तथाकथित "प्रकाशन पूर्वाग्रह" के कारण है, अर्थात वैज्ञानिक एक नकारात्मक परिणाम की तुलना में सकारात्मक परिणाम के बारे में एक लेख लिखने की अधिक संभावना रखते हैं, एक नकारात्मक परिणाम पर एक पेपर भी है सकारात्मक परिणाम पर एक पेपर की तुलना में प्रकाशन के लिए अस्वीकार किए जाने की अधिक संभावना है।

विशेषकर उन क्षेत्रों में जहां सांख्यिकीय परीक्षण बहुत महत्वपूर्ण है, यह एक बड़ी समस्या होगी, चिकित्सा का क्षेत्र एक कुख्यात उदाहरण है। यही कारण है कि इससे पहले कि वे आयोजित किए जाते हैं (जैसे यहां ) नैदानिक ​​परीक्षणों को पंजीकृत करना अनिवार्य किया गया था । इसलिए, आपको सेट अप की व्याख्या करनी चाहिए, कि परीक्षण शुरू होने से पहले सांख्यिकीय विश्लेषण कैसे किया जाता है, आदि। अगर वे पंजीकृत नहीं हैं, तो परीक्षण करने वाले प्रमुख मेडिकल जर्नल कागजात प्रकाशित करने से इनकार कर देंगे।

दुर्भाग्य से, इस उपाय के बावजूद, सिस्टम वह सब ठीक नहीं कर रहा है


शायद यह p- मानों की समझ में योगदान देगा: आंकड़े.stackexchange.com/questions/166323/…

3

यह वैज्ञानिक पद्धति के बारे में एक बहुत महत्वपूर्ण तथ्य के करीब है: यह मिथ्याकरण पर बल देता है। विज्ञान का दर्शन जो आज सबसे लोकप्रिय है, उसमें कॉर्नर पॉपर की अवधारणा है जो एक कोने के पत्थर के रूप में है।

बुनियादी वैज्ञानिक प्रक्रिया इस प्रकार है:

  • कोई भी किसी भी समय किसी भी सिद्धांत का दावा कर सकता है। विज्ञान किसी भी सिद्धांत को स्वीकार करेगा जो "मिथ्या है।" उस शब्द का सबसे शाब्दिक अर्थ यह है कि, यदि कोई और दावा पसंद नहीं करता है, तो वह व्यक्ति दावे को खारिज करने के लिए संसाधनों को खर्च करने के लिए स्वतंत्र है। अगर आपको नहीं लगता है कि argyle मोजे कैंसर को ठीक कर देते हैं, तो आप इसे अस्वीकार करने के लिए अपने स्वयं के मेडिकल वार्ड का उपयोग करने के लिए स्वतंत्र हैं।

  • क्योंकि प्रवेश के लिए यह बार स्मारक रूप से कम है, यह पारंपरिक है कि "विज्ञान" एक सांस्कृतिक समूह के रूप में वास्तव में किसी भी विचार का मनोरंजन नहीं करेगा जब तक कि आपने अपने स्वयं के सिद्धांत को गलत साबित करने के लिए "अच्छा प्रयास" नहीं किया है।

  • विचारों की स्वीकृति चरणों में जाती है। आप एक अध्ययन और एक कम पी-मूल्य के साथ एक पत्रिका लेख में अपनी अवधारणा प्राप्त कर सकते हैं। जो आपको खरीदता है वह प्रचार और कुछ विश्वसनीयता है। यदि कोई आपके विचार में रुचि रखता है, जैसे कि यदि आपके विज्ञान में इंजीनियरिंग अनुप्रयोग हैं, तो वे इसका उपयोग करना चाह सकते हैं। उस समय, वे एक अतिरिक्त दौर के मिथ्याकरण को निधि देने की अधिक संभावना रखते हैं।

  • यह प्रक्रिया हमेशा एक ही दृष्टिकोण के साथ आगे बढ़ती है: विश्वास करें कि आप क्या चाहते हैं, लेकिन इसे विज्ञान कहने के लिए, मुझे बाद में अवज्ञा करने में सक्षम होने की आवश्यकता है।

प्रवेश के लिए यह कम बार वह है जो इसे इतना अभिनव बनाने की अनुमति देता है। तो हाँ, वहाँ सैद्धांतिक रूप से "गलत" जर्नल लेखों की एक बड़ी संख्या है। हालांकि, कुंजी यह है कि प्रत्येक प्रकाशित लेख सिद्धांत रूप में मिथ्या है, इसलिए किसी भी समय, कोई व्यक्ति इसे परीक्षण करने के लिए पैसा खर्च कर सकता है।

यह कुंजी है: पत्रिकाओं में न केवल वे चीजें होती हैं जो एक उचित पी-टेस्ट पास करती हैं, बल्कि उनके पास दूसरों के लिए भी कुंजी होती है यदि परिणाम गलत हो जाते हैं।


1
यह बहुत आदर्शवादी है। कुछ लोग चिंतित हैं कि बहुत से गलत कागजात साहित्य में बहुत कम सिग्नल-टू-शोर अनुपात बना सकते हैं और वैज्ञानिक प्रक्रिया को गंभीरता से धीमा या गलत कर सकते हैं।
अमीबा

1
@amoeba आप एक अच्छी बात लाते हैं। मैं निश्चित रूप से आदर्श मामले को पकड़ना चाहता था क्योंकि मुझे लगता है कि यह शोर में खो गया है। इसके अलावा, मुझे लगता है कि साहित्य में एसएनआर का सवाल एक वैध सवाल है, लेकिन कम से कम यह एक ऐसा है जो बैलेनेबल होना चाहिए। पहले से ही गरीब पत्रिकाओं बनाम अच्छे पत्रिकाओं की अवधारणाएं हैं, इसलिए कुछ संकेत हैं कि कुछ समय से संतुलन अधिनियम चल रहा है।
Cort Ammon

विज्ञान के दर्शन की यह समझ कई दशकों से चली आ रही है। विज्ञान कैसे होता है, इसके बारे में एक आम शहरी मिथक होने के अर्थ में पोपेरियन फासिफ़िबिलिटी केवल "लोकप्रिय" है।
एनर्जीनाइट्स

@EnergyNumbers क्या आप मुझे सोचने के नए तरीके से बता सकते हैं? दर्शन एसई आपकी बहुत अलग राय है। आप वहाँ पर सवाल इतिहास को देखें, तो Popperian falsifiability है जो लोग अपने आवाज में बात की थी के बहुमत के लिए विज्ञान की मुख्य विशेषता। मुझे सोचने का एक नया तरीका सीखना और उसे वहाँ लाना अच्छा लगेगा!
Cort Ammon

नया? कुहन ने दशकों पहले पॉपर का खंडन किया था। यदि आपको दर्शनशास्त्र पर कोई एक पोपेरियन पद नहीं मिला है, तो इसे अपडेट करना एक खोया हुआ कारण प्रतीत होगा - बस इसे 1950 के दशक में छोड़ दें। यदि आप खुद को अपडेट करना चाहते हैं, तो विज्ञान के दर्शन पर 21 वीं सदी के किसी भी स्नातक प्राइमर को आपको शुरू करना चाहिए।
एनर्जीनाइट्स

1

क्या यह "विज्ञान" काम करने वाला है?

इस तरह से बहुत सारे सामाजिक विज्ञान काम करते हैं। भौतिक विज्ञान के साथ ऐसा नहीं है। इस बारे में सोचें: आपने अपना प्रश्न कंप्यूटर पर टाइप किया है। लोग भौतिकी, रसायन विज्ञान और भौतिक विज्ञान के अन्य क्षेत्रों के ज्ञान का उपयोग करके कंप्यूटर नामक इन जटिल जानवरों का निर्माण करने में सक्षम थे। यदि स्थिति आपके द्वारा बताई गई खराब थी, तो कोई भी इलेक्ट्रॉनिक्स काम नहीं करेगा। या इलेक्ट्रान के द्रव्यमान जैसी चीजों के बारे में सोचें, जो विक्षिप्तता के साथ जानी जाती हैं। वे एक कंप्यूटर पर अरबों तर्क गेट्स से गुजरते हैं, और आपका कंप्यूटर अभी भी वर्षों तक काम करता है और काम करता है।

अद्यतन: मुझे प्राप्त वोटों के जवाब के लिए, मैंने आपको कुछ उदाहरण देने के लिए प्रेरित महसूस किया।

पहले एक भौतिकी से है: बिस्ट्रिटस्की, वीएम, एट अल। " एक जिरकोनियम ड्यूटेराइड लक्ष्य का उपयोग करके पराबैंगनी ऊर्जा क्षेत्र में खगोलीय एस कारकों और पी (डी, 3) 3He प्रतिक्रिया के क्रॉस सेक्शन को मापने ।" कण और नाभिक पत्र के भौतिकी 10.7 (2013): 717-722।

0.237±0.061

मेरा अगला उदाहरण है ... मनोविज्ञान: पैस्टियन-अंडरडेल, सामंथा सी।, लिसा स्लेटीरी वॉकर, और डेविड जे। वोहर। " नेतृत्व प्रभावशीलता के लिंग और धारणाएं: प्रासंगिक मध्यस्थों का मेटा-विश्लेषण ।" एप्लाइड मनोविज्ञान जर्नल, 2014, वॉल्यूम। ९९, नंबर ६, ११२ ९ -११४५।

χ2

अब, कागजात से कुछ तालिकाओं को देखें और अनुमान लगाएं कि वे किस कागजात से हैं:

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

यही कारण है कि एक मामले में आपको "शांत" आंकड़ों की आवश्यकता होती है और दूसरे में आप ऐसा नहीं करते हैं: क्योंकि डेटा या तो भद्दा है या नहीं। जब आपके पास अच्छा डेटा होता है, तो आपको मानक त्रुटियों से परे बहुत अधिक आँकड़ों की आवश्यकता नहीं होती है।

UPDATE2: @ PatrickS.Forscher ने टिप्पणी में एक दिलचस्प बयान दिया:

यह भी सच है कि सामाजिक विज्ञान सिद्धांत भौतिकी सिद्धांतों की तुलना में "नरम" (कम औपचारिक) हैं।

मैं असहमत होना चाहिए। अर्थशास्त्र और वित्त में सिद्धांत बिल्कुल भी "नरम" नहीं हैं। आप इन क्षेत्रों में बेतरतीब ढंग से एक कागज देख सकते हैं और इस तरह से कुछ प्राप्त कर सकते हैं:

यहाँ छवि विवरण दर्ज करें

और इसी तरह।

यह Schervish, Mark J., Teddy Seidenfeld, और Joseph B. Kadane से है। " अपेक्षित उपयोगिता सिद्धांत के विस्तार और जोड़ीदार तुलना की कुछ सीमाएं ।" (2003)। क्या यह आपको नरम लगता है?

मैं यहां अपनी बात को फिर से दोहरा रहा हूं कि जब आपके सिद्धांत अच्छे नहीं हैं और डेटा भद्दा है, तो आप सबसे कठिन गणित का उपयोग कर सकते हैं और फिर भी एक भद्दा परिणाम प्राप्त कर सकते हैं।

इस पत्र में वे उपयोगिताओं, खुशी और संतुष्टि जैसी अवधारणा के बारे में बात कर रहे हैं - बिल्कुल अप्राप्य। यह ऐसा है जैसे एक घर खाने की उपयोगिता क्या है? संभवतः यह फ़ंक्शन है, जहां आप "ईट चीज़बर्गर" या "स्वयं के घर में रह सकते हैं" प्लग कर सकते हैं और फ़ंक्शन कुछ इकाइयों में उत्तर को थूक देगा। पागल के रूप में यह लगता है कि यह आधुनिक इकोनॉमिक्स पर बनाया गया है, वॉन न्यूमन के लिए धन्यवाद।


1
+1 यह पक्का नहीं है कि इसे दो बार क्यों घटाया गया। आप मूल रूप से इंगित कर रहे हैं कि भौतिकी में खोजों को प्रयोगों के साथ परीक्षण किया जा सकता है, और सामाजिक विज्ञानों में अधिकांश "खोजें" नहीं हो सकती हैं, जो उन्हें मीडिया का बहुत ध्यान आकर्षित करने से नहीं रोकती हैं।
फ्लॉडरर

6
अधिकांश प्रयोगों में अंततः कुछ प्रकार के सांख्यिकीय परीक्षण शामिल होते हैं और फिर भी टाइप 1 त्रुटियों के लिए जगह छोड़ देते हैं और पी-वैल्यू मछली पकड़ने जैसे दुर्व्यवहार करते हैं। मुझे लगता है कि सामाजिक विज्ञानों को एकल करना थोड़ा दूर का निशान है।
केंजी

4
थोड़ा सा संशोधन करने के लिए @GuilhermeKenjiChihaya क्या कह रहा है, त्रुटियों का मानक विचलन संभवतः शारीरिक प्रयोगों में एक सांख्यिकीय परीक्षण करने के लिए इस्तेमाल किया जा सकता है। संभवतः यह सांख्यिकीय परीक्षण उसी निष्कर्ष पर पहुंचेगा कि लेखक अपनी त्रुटि पट्टियों के साथ ग्राफ को देखने तक पहुंचते हैं। भौतिक विज्ञान के पेपर के साथ मुख्य अंतर, प्रयोग में शोर की अंतर्निहित मात्रा है, एक अंतर जो स्वतंत्र है या नहीं पी-वैल्यू का उपयोग करने वाला तर्क वैध या अमान्य है।
पैट्रिक एस। फ़ॉश्चर

3
इसके अलावा, @Flounder, आप "प्रयोग" शब्द का उपयोग इस अर्थ में करते हैं कि मैं अपरिचित हूं, क्योंकि सामाजिक वैज्ञानिक "प्रयोगों" (यानी, परिस्थितियों के लिए इकाइयों का यादृच्छिककरण) करते हैं। यह सच है कि सामाजिक विज्ञान प्रयोगों को उसी सीमा तक नियंत्रित करना मुश्किल है जो भौतिकी प्रयोगों में मौजूद है। यह भी सच है कि सामाजिक विज्ञान सिद्धांत भौतिकी सिद्धांतों की तुलना में "नरम" (कम औपचारिक) हैं। लेकिन ये कारक स्वतंत्र हैं कि क्या दिया गया अध्ययन "प्रयोग" है।
पैट्रिक एस। फ़ॉश्चर

2
@ अक्षल जबकि मैं -1 से असहमत हूं, मैं सामाजिक विज्ञानों के आपके आलोचक से भी आंशिक रूप से असहमत हूं। आर्थिक पेपर का आपका उदाहरण भी एक अच्छा उदाहरण नहीं है कि सामाजिक वैज्ञानिक दैनिक आधार पर क्या करते हैं क्योंकि उपयोगिता सिद्धांत एक सख्ती से किफायती / गणितीय / सांख्यिकीय अवधारणा है (इसलिए इसमें पहले से ही गणित है) और यह समान नहीं है जैसे मनोवैज्ञानिक सिद्धांत प्रयोगात्मक रूप से परीक्षण किया जाता है ... हालांकि मैं मानता हूं कि यह अक्सर ऐसा मामला है कि सामाजिक विज्ञान सहित अनुसंधान के कई क्षेत्रों में आँकड़ों का शिथिल उपयोग किया जाता है।
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.