कार्यकारी सारांश: यदि "पी-हैकिंग" को मोटे तौर पर एक ला गेलमैन के जाली मार्गों को समझा जाए , तो इसका जवाब कितना व्यापक है, यह है कि यह लगभग सार्वभौमिक है।
एंड्रयू जेलमैन इस विषय के बारे में लिखना पसंद करते हैं और अपने ब्लॉग पर हाल ही में इसके बारे में बड़े पैमाने पर पोस्ट कर रहे हैं। मैं हमेशा उससे सहमत नहीं हूं लेकिन मुझे फेकिंग के बारे में उसका नजरिया पसंद है । यहां उनके गार्डन ऑफ फोर्किंग पाथ्स पेपर (गेलमैन एंड लोकेन 2013) के परिचय का एक अंश दिया गया है; अमेरिकी वैज्ञानिक 2014 में एक संस्करण दिखाई दिया; एएसए के बयान पर गेलमैन की संक्षिप्त टिप्पणी भी देखें ), मेरा जोर:p
इस समस्या को कभी-कभी "पी-हैकिंग" या "स्वतंत्रता के शोधकर्ता डिग्री" (सीमन्स, नेल्सन और साइमनोशन, 2011) कहा जाता है। हाल के एक लेख में, हमने "मछली पकड़ने के अभियान [...]" की बात की। लेकिन हम महसूस करने लगे हैं कि "फिशिंग" शब्द दुर्भाग्यपूर्ण था, इसमें एक शोधकर्ता की छवि को तुलना के बाद तुलना करने की कोशिश करते हुए दिखाया गया है, जब तक एक मछली के छीने जाने तक लाइन को झील में बार-बार फेंकना। हमारे पास यह सोचने का कोई कारण नहीं है कि शोधकर्ता नियमित रूप से ऐसा करते हैं। हमें लगता है कि वास्तविक कहानी यह है कि शोधकर्ता अपनी मान्यताओं और उनके डेटा को देखते हुए एक उचित विश्लेषण कर सकते हैं, लेकिन डेटा अलग-अलग निकला था, वे अन्य विश्लेषण कर सकते थे जो उन परिस्थितियों में उचित थे।
हम दो कारणों से "मछली पकड़ने" और "पी-हैकिंग" (और यहां तक कि "स्वतंत्रता की शोधकर्ता डिग्री) शब्दों के प्रसार पर अफसोस करते हैं : पहला, क्योंकि जब इस तरह के शब्दों का उपयोग किसी अध्ययन का वर्णन करने के लिए किया जाता है, तो भ्रामक निहितार्थ है कि शोधकर्ताओं एक डेटा सेट पर सचेत रूप से कई अलग-अलग विश्लेषणों की कोशिश कर रहे थे; और, दूसरा, क्योंकि यह उन शोधकर्ताओं का नेतृत्व कर सकता है जो जानते हैं कि उन्होंने कई अलग-अलग विश्लेषणों को गलत तरीके से समझने की कोशिश नहीं की थी कि वे स्वतंत्रता की शोधकर्ता डिग्री की समस्याओं के बहुत दृढ़ता से विषय नहीं हैं। [...]
हमारा मुख्य बिंदु यह है कि एक डेटा विश्लेषण के संदर्भ में कई संभावित तुलनाएं करना संभव है, जिसका विवरण डेटा पर अत्यधिक आकस्मिक है, शोधकर्ता मछली पकड़ने की किसी भी जागरूक प्रक्रिया को करने या कई पी-मूल्यों की जांच करने के बिना है। ।
इसलिए: गेलमैन को पी-हैकिंग शब्द पसंद नहीं है क्योंकि इसका मतलब है कि शोध सक्रिय रूप से धोखा दे रहे थे। जबकि समस्याएं केवल इसलिए हो सकती हैं क्योंकि शोधकर्ता डेटा को देखने के बाद परीक्षण करने / रिपोर्ट करने का चयन करते हैं, यानी कुछ खोजपूर्ण विश्लेषण करने के बाद।
जीव विज्ञान में काम करने के कुछ अनुभव के साथ, मैं सुरक्षित रूप से कह सकता हूं कि हर कोई ऐसा करता है। हर कोई (खुद को शामिल) कुछ डेटा एकत्र करता है जिसमें केवल एक प्राथमिकताओं की परिकल्पना होती है, व्यापक खोजपूर्ण विश्लेषण करता है, विभिन्न महत्त्वपूर्ण परीक्षणों को चलाता है, कुछ और आंकड़ों को एकत्र करता है, परीक्षणों को चलाता है और अंत में अंतिम पांडुलिपि में कुछ -values की रिपोर्ट करता है । यह सब सक्रिय रूप से धोखा दिए बिना हो रहा है, गूंगा xkcd-jelly-beans- शैली चेरी-पिकिंग, या होशपूर्वक कुछ भी हैकिंग कर रहा है।p
इसलिए यदि "पी-हैकिंग" को मोटे तौर पर एक ला गेलमैन के जाली रास्तों को समझा जाए , तो इसका जवाब कितना व्यापक है, यह है कि यह लगभग सार्वभौमिक है।
केवल अपवाद जो मन में आते हैं, वे मनोविज्ञान में पूरी तरह से पूर्व-पंजीकृत प्रतिकृति अध्ययन या पूरी तरह से पूर्व-पंजीकृत मेडिकल परीक्षण हैं।
विशिष्ट साक्ष्य
मनोरंजक रूप से, कुछ लोगों ने शोधकर्ताओं को यह पता लगाने के लिए चुना कि बहुत से लोग किसी प्रकार की हैकिंग कर रहे हैं ( जॉन एट अल। 2012, सत्य के लिए प्रोत्साहन के साथ संदिग्ध अनुसंधान प्रथाओं की व्यापकता को मापना ):
इसके अलावा, हर कोई मनोविज्ञान में तथाकथित "प्रतिकृति संकट" के बारे में सुनता है: शीर्ष मनोविज्ञान पत्रिकाओं में प्रकाशित हालिया अध्ययनों में से आधे से अधिक नहीं दोहराते हैं ( नोजेक एट अल। 2015, मनोवैज्ञानिक विज्ञान की प्रजनन क्षमता का अनुमान लगाते हुए )। (यह अध्ययन हाल ही में सभी ब्लॉगों पर फिर से किया गया है, क्योंकि विज्ञान के मार्च 2016 के अंक में Nkk et al। का खंडन करने का प्रयास करते हुए एक टिप्पणी प्रकाशित की और साथ ही Nosek et al द्वारा एक उत्तर दिया गया। चर्चा अन्यत्र भी जारी रही, एंड्रयू जेलमैन द्वारा पोस्ट देखें । रिट्रीटवॉच पोस्ट जिसे वह लिंक करता है। इसे विनम्रता से रखने के लिए, समालोचना असंबद्ध है।)
अद्यतन नवंबर 2018: कपलान और इरविन, 2017, एनएचएलबीआई क्लिनिकल परीक्षणों के अशक्त प्रभाव की संभावना समय के साथ बढ़ी है कि पूर्व-पंजीकरण आवश्यक हो जाने के बाद, नैदानिक परीक्षणों के शून्य से रिपोर्टिंग परिणामों का अंश 43% से बढ़कर 92% हो गया है:
P साहित्य में -value वितरण
हेड एट अल। 2015
मैंने हेड एट अल के बारे में नहीं सुना है । पहले अध्ययन करें, लेकिन अब कुछ समय आसपास के साहित्य के माध्यम से देख रहे हैं। मैंने उनके कच्चे आंकड़ों का भी संक्षिप्त विवरण लिया है ।
हेड एट अल। PubMed से सभी ओपन एक्सेस पेपर डाउनलोड किए और पाठ में रिपोर्ट किए गए सभी पी-वैल्यूज निकाले, 2.7 मिली पी-मान प्राप्त किए। इनमें से 1.1 mln को रूप में बताया गया था न कि । इनमें से, हेड एट अल। बेतरतीब ढंग से प्रति पेपर एक पी-मूल्य लिया गया, लेकिन यह वितरण को बदलने के लिए प्रतीत नहीं होता है, इसलिए यहां बताया गया है कि सभी 1.1 मिलियन मानों का वितरण कैसा दिखता है ( और बीच ):p=ap<a00.06
मैंने बिन चौड़ाई का उपयोग किया है , और एक स्पष्ट रूप से रिपोर्ट किए गए वैल्यू में बहुत कुछ पूर्वानुमानित देख सकता है । अब, हेड एट अल। निम्नलिखित करें: वे अंतराल की संख्या की तुलना अंतराल और अंतराल में करते हैं; पूर्व संख्या बड़ी हो गई है (महत्वपूर्ण) और वे इसे -hacking के प्रमाण के रूप में लेते हैं। अगर एक स्क्वाट करता है, तो कोई इसे मेरे फिगर पर देख सकता है।0.0001pp(0.045,0.5)(0.04,0.045)p
मुझे यह एक साधारण कारण के लिए बेहद अटपटा लगता है। साथ अपने निष्कर्षों की रिपोर्ट कौन करना चाहता है ? दरअसल, बहुत से लोग वास्तव में ऐसा करते दिखते हैं, लेकिन फिर भी इस असंतोषजनक सीमा-रेखा के मूल्य से बचने की कोशिश करना स्वाभाविक है और इसके बजाय एक और महत्वपूर्ण अंक, उदाहरण के लिए (जब तक कि यह ) रिपोर्ट करना स्वाभाविक है । इसलिए प्लस के कुछ अतिरिक्त करीब लेकिन बराबर नहीं है, इसे शोधकर्ता की वरीयताओं को समझा जा सकता है।p=0.05p=0.048p=0.052p0.05
और इसके अलावा, प्रभाव छोटा है ।
(इस आंकड़े पर मैं जो एकमात्र मजबूत प्रभाव देख सकता हूं, वह ठीक बाद के घनत्व घनत्व की एक स्पष्ट बूंद है । यह स्पष्ट रूप से प्रकाशन पूर्वाग्रह के कारण है।)p0.05
जब तक मैंने कुछ याद नहीं किया, हेड एट अल। इस संभावित वैकल्पिक व्याख्या पर भी चर्चा न करें। वे या तो अंतराल का कोई हिस्टोग्राम प्रस्तुत नहीं करते हैं।p
हेड एट अल की आलोचना करने वाले पत्रों का एक समूह है। में इस अप्रकाशित पांडुलिपि Hartgerink कि सिर एट अल का तर्क है। उनकी तुलना में और शामिल होना चाहिए था (और यदि उनके पास था, तो उन्हें अपना प्रभाव नहीं मिला होगा)। मैं उसके बारे में निश्चित नहीं हूं; यह बहुत ठोस नहीं है। यह बहुत बेहतर होगा अगर हम किसी भी तरह से बिना किसी गोलाई के "कच्चे" -values के वितरण का निरीक्षण कर सकें ।p=0.04p=0.05p
के वितरण गोलाई बिना -valuesp
2016 में इस PeerJ पेपर (2015 में पोस्ट किए गए प्रिफर) वही हर्ट्जरिंक एट अल। शीर्ष मनोविज्ञान पत्रिकाओं में बहुत सारे कागजात से पी-मान निकालें और वास्तव में ऐसा करें: वे रिपोर्ट किए गए -, -, - आदि सांख्यिकीय मूल्यों से सटीक रूल्स को फिर से जोड़ते हैं; यह वितरण किसी भी दौर की कलाकृतियों से मुक्त है और 0.05 (चित्रा 4) की ओर किसी भी वृद्धि का प्रदर्शन नहीं करता है।ptFχ2
पीएलओएस वन में क्रॉसिक 2015 द्वारा एक बहुत ही समान दृष्टिकोण लिया गया है , जो शीर्ष प्रायोगिक मनोविज्ञान पत्रिकाओं से 135k -values निकालता है । यहाँ बताया गया है कि वितरण रिपोर्ट के लिए कैसा दिखता है (बाएं) और पुनर्संयोजित (दाएं) -values:pp
अंतर हड़ताली है। बायां हिस्टोग्राम आसपास कुछ अजीब सामान दिखा रहा है , लेकिन दाईं ओर यह चला गया है। इसका मतलब यह है कि यह अजीब सामान लोगों की प्राथमिकताओं की वजह से है, जो आसपास रिपोर्टिंग मूल्यों की वजह से है, न कि -hacking के कारण ।p=0.05p≈0.05p
मैस्कैम्पैम्पो और लालंडे
ऐसा लगता है कि पहले 0.05 से नीचे -values की कथित अधिकता का निरीक्षण करने के लिए Masicampo & Lalande 2012 थे , मनोविज्ञान में तीन शीर्ष पत्रिकाओं को देख रहे हैं:p
यह प्रभावशाली लग रही है, लेकिन Lakens 2015 ( प्रीप्रिंट एक प्रकाशित टिप्पणी में) का तर्क है कि यह केवल प्रकट होता है भ्रामक घातीय फिट करने के लिए प्रभावशाली धन्यवाद। यह भी देखें कि लक्सन्स 2015, पी-वैल्यू से निष्कर्ष निकालने की चुनौतियों पर 0.05 से नीचे है और उसमें सन्दर्भ है।
अर्थशास्त्र
ब्रूडूर एट अल। 2016 (लिंक 2013 की छाप पर जाता है) अर्थशास्त्र साहित्य के लिए भी यही काम करते हैं। तीन अर्थशास्त्र पत्रिकाओं पर नज़र, 50k परीक्षण के परिणाम निकालें, उन सभी को -scores में परिवर्तित करें (रिपोर्ट किए गए गुणांक और मानक त्रुटियों का उपयोग करते हुए जब भी संभव हो और केवल-रिपोर्ट किए जाने पर का उपयोग करें ), और निम्न प्राप्त करें:zp
क्योंकि छोटे इसमें कुछ समय भ्रामक है -values सही पर हैं और बड़े -values बाईं तरफ हैं। जैसा कि लेखक अमूर्त में लिखते हैं, "पी-वैल्यू का वितरण ऊँचे पी-वैल्यू के साथ ऊँट के आकार को प्रदर्शित करता है ।25" और ".25 और .10 के बीच की घाटी"। उनका तर्क है कि यह घाटी कुछ गड़बड़ है, लेकिन यह केवल एक अप्रत्यक्ष सबूत है। इसके अलावा, यह केवल चयनात्मक रिपोर्टिंग के कारण हो सकता है, जब ऊपर बड़े p-मान .25 प्रभाव की कमी के कुछ सबूत के रूप में रिपोर्ट किए जाते हैं, लेकिन .1 और .25 के बीच p-मान न तो यहां और न ही वहां महसूस होते हैं और न ही होते हैं। किफायत से इस्तेमाल करो। (मुझे यकीन नहीं है कि यह प्रभाव जैविक साहित्य में मौजूद है या नहीं क्योंकि अंतराल पर ऊपर दिए गए प्लॉट ध्यान केंद्रित करते हैं।)ppp<0.05
झूठे आश्वासन?
उपर्युक्त सभी के आधार पर, मेरा निष्कर्ष यह है कि मुझे जैविक / मनोवैज्ञानिक साहित्य में संपूर्ण रूप से -value वितरण में -hacking का कोई मजबूत सबूत नहीं दिखता है । चयनात्मक रिपोर्टिंग, प्रकाशन पूर्वाग्रह का सबूत के बहुत सारे है, गोलाई -values नीचे करने के लिए और अन्य अजीब राउंडिंग प्रभाव है, लेकिन मैं सिर एट अल के निष्कर्ष से असहमत .: नीचे कोई संदिग्ध टक्कर है ।ppp0.05 0.050.050.05
उरी सिमोनसोहन का तर्क है कि यह "झूठे आश्वासन" है । ठीक है, वास्तव में वह इन पत्रों को संयुक्त राष्ट्र के आलोचनात्मक रूप से उद्धृत करता है लेकिन फिर टिप्पणी करता है कि 0.05 की तुलना में "अधिकांश पी-मान छोटे हैं"। फिर वह कहता है: "यह आश्वस्त है, लेकिन मिथ्या आश्वस्त है"। और यहाँ क्यों है:
यदि हम यह जानना चाहते हैं कि क्या शोधकर्ता अपने परिणामों को पी-हैक करते हैं, तो हमें उनके परिणामों से जुड़े पी-मूल्यों की जांच करने की आवश्यकता है, जिन्हें वे पहले स्थान पर पी-हैक करना चाहते हैं। नमूने, निष्पक्ष होने के लिए, केवल ब्याज की आबादी से टिप्पणियों को शामिल करना चाहिए।
अधिकांश कागजात में बताए गए अधिकांश पी-वैल्यू ब्याज के रणनीतिक व्यवहार के लिए अप्रासंगिक हैं। Covariates, जोड़तोड़ की जाँच, परीक्षण परीक्षण बातचीत में मुख्य प्रभाव, आदि जिनमें हम पी-हैकिंग को कम आंकते हैं और हम डेटा के औसत मूल्य को कम आंकते हैं। सभी पी-वैल्यू का विश्लेषण एक अलग सवाल पूछता है, एक कम समझदार। इसके बजाय "क्या शोधकर्ता पी-हैक करते हैं जो वे अध्ययन करते हैं?" हम पूछते हैं कि क्या "शोधकर्ताओं ने सब कुछ पी-हैक किया है?"
यह कुल समझ में आता है। को देखते हुए सभी सूचना -values रास्ता बहुत शोर है। उरी का कर्व पेपर ( सिमोनसोहन एट अल। 2013 ) अच्छी तरह से प्रदर्शित करता है कि कोई देख सकता है कि क्या कोई ध्यान से चयनित वैल्यू को देखता है। उन्होंने कुछ संदिग्ध कीवर्ड्स के आधार पर 20 मनोविज्ञान के पेपरों का चयन किया (अर्थात्, इन पेपरों के लेखकों ने एक कोवरिएट के लिए परीक्षण करने वाले परीक्षणों की रिपोर्ट की और यह रिपोर्ट नहीं की कि इसके लिए नियंत्रण के बिना क्या होता है) और फिर केवल अंतराल लिया जो मुख्य निष्कर्षों का परीक्षण कर रहे हैं। यहां बताया गया है कि वितरण कैसा दिखता है (बाएं):ppपी पीpp
मजबूत बाएं तिरछा मजबूत फॉकिंग का सुझाव देता है ।p
निष्कर्ष
मैं कहूंगा कि हम चाहते हैं कि पता है कि चाहिए की एक बहुत कुछ हो सकता है -hacking ज्यादातर forking-पथ प्रकार है कि Gelman का वर्णन करता है, पर जा रहा; संभवतया इस हद तक कि प्रकाशित वैल्यू को वास्तव में अंकित मूल्य पर नहीं लिया जा सकता है और इसे पाठक द्वारा कुछ पर्याप्त अंश द्वारा "छूट" दिया जाना चाहिए। हालाँकि, यह रुख केवल नीचे के समग्र -values वितरण में एक टक्कर की तुलना में बहुत अधिक सूक्ष्म प्रभाव पैदा करता है और वास्तव में इस तरह के कुंद विश्लेषण से पता नहीं लगाया जा सकता है।ppपी 0.05 p0.05