हम "जंगली में" पी-हैकिंग के बारे में कितना जानते हैं?


94

वाक्यांश p -hacking (यह भी: "डेटा ड्रेजिंग" , "स्नूपिंग" या "फिशिंग") विभिन्न प्रकार के सांख्यिकीय कदाचार को संदर्भित करता है जिसमें परिणाम कृत्रिम रूप से सांख्यिकीय रूप से महत्वपूर्ण हो जाते हैं। "अधिक महत्वपूर्ण" परिणाम प्राप्त करने के कई तरीके हैं, जिनमें शामिल हैं, लेकिन किसी भी तरह सीमित नहीं है:

  • केवल डेटा के एक "दिलचस्प" सबसेट का विश्लेषण , जिसमें एक पैटर्न पाया गया था;
  • कई परीक्षणों के लिए ठीक से समायोजित करने में विफल , विशेष रूप से पश्च-परीक्षण परीक्षण और रिपोर्ट किए गए परीक्षणों के लिए असफल जो महत्वपूर्ण नहीं थे;
  • एक ही परिकल्पना के विभिन्न परीक्षणों की कोशिश करना , जैसे कि एक पैरामीट्रिक और एक गैर पैरामीट्रिक परीक्षण ( इस थ्रेड में इसकी कुछ चर्चा है ), लेकिन केवल सबसे महत्वपूर्ण रिपोर्टिंग;
  • वांछित परिणाम प्राप्त होने तक, डेटा पॉइंट्स को शामिल / अपवर्जन के साथ प्रयोग करना । एक अवसर आता है जब "डेटा-सफाई आउटलेयर", लेकिन यह भी जब एक अस्पष्ट परिभाषा (उदाहरण के लिए "विकसित देशों के अर्थमितीय अध्ययन" को लागू करते हुए, विभिन्न परिभाषाएँ देशों के विभिन्न सेटों का उत्पादन करती हैं), या गुणात्मक समावेशन मानदंड (जैसे मेटा-विश्लेषण में) , यह एक संतुलित संतुलित तर्क हो सकता है कि क्या किसी विशेष अध्ययन की कार्यप्रणाली शामिल करने के लिए पर्याप्त मजबूत है);
  • पिछला उदाहरण वैकल्पिक रोक से संबंधित है , यानी किसी डेटासेट का विश्लेषण करना और इस पर निर्णय लेना कि अब तक एकत्र किए गए डेटा के आधार पर अधिक डेटा एकत्र करना है या नहीं ("यह लगभग महत्वपूर्ण है, चलो इसके लिए लेखांकन के बिना तीन और छात्रों को मापें!") विश्लेषण में;
  • मॉडल-फिटिंग के दौरान प्रयोग , विशेष रूप से शामिल करने के लिए covariates, लेकिन डेटा परिवर्तन / कार्यात्मक रूप के बारे में भी।

तो हम जानते हैं कि पी- फॉकिंग किया जा सकता है। इसे अक्सर " पी- वेल्यू के खतरों" में से एक के रूप में सूचीबद्ध किया गया है और इसे सांख्यिकीय महत्व पर एएसए रिपोर्ट में उल्लेख किया गया है, यहां चर्चा की गई है क्रॉस वैलिडेट पर , इसलिए हम यह भी जानते हैं कि यह एक खराब बात है। हालाँकि कुछ संदिग्ध प्रेरणाएँ और (विशेषकर अकादमिक प्रकाशन के लिए प्रतिस्पर्धा में) अनुत्पादक प्रोत्साहन स्पष्ट हैं, मुझे संदेह है कि यह पता लगाना कठिन है कि ऐसा क्यों किया गया है, चाहे वह जानबूझकर किया गया अनाचार हो या साधारण अज्ञानता। किसी ने रिपोर्टिंग पी एक चरणबद्ध प्रतिगमन से -values (क्योंकि वे चरणबद्ध प्रक्रियाओं को खोजने के "अच्छा मॉडलों का उत्पादन", लेकिन कथित जानकारी नहीं है पी-वापस अमान्य हैं) बाद के शिविर में है, लेकिन प्रभाव अभी भी ऊपर मेरे बुलेट बिंदुओं के अंतिम के तहत p -hacking है।

वहाँ निश्चित रूप से सबूत है कि p -hacking है "बाहर वहाँ", उदाहरण के लिए हेड एट अल (2015) वैज्ञानिक साहित्य को संक्रमित करने के बारे में बताए गए संकेतों के लिए दिखता है, लेकिन इसके बारे में हमारे साक्ष्य आधार की वर्तमान स्थिति क्या है? मुझे पता है कि हेड एट अल द्वारा लिया गया दृष्टिकोण विवाद के बिना नहीं था, इसलिए साहित्य की वर्तमान स्थिति, या अकादमिक समुदाय में सामान्य सोच दिलचस्प होगी। उदाहरण के लिए क्या हमारे पास इसके बारे में कोई विचार है:

  • बस यह कितना प्रचलित है, और किस हद तक हम प्रकाशन पूर्वाग्रह से इसकी घटना को अलग कर सकते हैं ? (क्या यह भेद भी सार्थक है?)
  • क्या प्रभाव विशेष रूप से सीमा पर तीव्र है ? उदाहरण के लिए पर समान प्रभाव देखा जाता है , या क्या हम p -values की पूरी श्रृंखला को प्रभावित करते हैं?p0.05p0.01
  • क्या पी- फेकिंग में पैटर्न अकादमिक क्षेत्रों के बीच भिन्न हैं?
  • क्या हमारे पास कोई विचार है जो p -hacking के तंत्र (जिनमें से कुछ ऊपर दिए गए बुलेट बिंदुओं में सूचीबद्ध हैं) सबसे आम हैं? क्या कुछ रूपों को दूसरों की तुलना में पता लगाने के लिए कठिन साबित हुआ है क्योंकि वे "बेहतर प्रच्छन्न" हैं?

संदर्भ

हेड, एमएल, होल्मन, एल।, लैनफ़ियर, आर।, कहन, एटी, एंड जेनियंस, एमडी (2015)। हद और के परिणामों पी विज्ञान के क्षेत्र में -hackingPLoS बॉय , 13 (3), e1002106।


6
आपका अंतिम प्रश्न एक शोध के लिए एक अच्छा विचार है: शोधकर्ताओं के एक समूह को कुछ कच्चे डेटा दें, अलग-अलग क्षेत्रों का निर्माण करें, उन्हें एसपीएसएस (या जो भी वे उपयोग करते हैं) में लैस करें और फिर रिकॉर्ड करें कि वे एक दूसरे के साथ प्रतिस्पर्धा कर रहे हैं और अधिक महत्वपूर्ण परिणामों के लिए ।
टिम

1
हो सकता है कि यह एक विषय के बिना ऐसा करने में सक्षम हो सकता है, यह जानते हुए कि यह कागले प्रस्तुतियाँ के इतिहास का उपयोग कर रहा था। वे प्रकाशित नहीं कर रहे हैं, लेकिन वे जादुई संख्या को हिट करने के लिए हर संभव कोशिश कर रहे हैं।
EngrStudent

1
क्या पी-हैकिंग के सरल सिमुलेशन उदाहरणों के किसी भी संग्रह (जैसे समुदाय विकी) के क्रॉसवैलिड हैं? मैं खिलौने के उदाहरणों की कल्पना कर रहा हूं, जिसमें नकली शोधकर्ता अधिक डेटा एकत्र करके "रिग्रेसिवली महत्वपूर्ण" परिणामों पर प्रतिक्रिया करता है, प्रतिगमन विनिर्देशों के साथ प्रयोग आदि
एड्रियन

2
@ एड्रियन सीवी सिर्फ एक क्यू एंड ए साइट है, यह कोई डेटा या कोड नहीं रखता है, इसमें कोई छिपी हुई रिपॉजिटरी नहीं है - आप जो कुछ भी जवाब में पाते हैं वह सीसी लाइसेंस के तहत आपका है :) यह सवाल ऐसे उदाहरणों को इकट्ठा करने के बारे में पूछ रहा है।
टिम

1
@ निश्चित रूप से, मैं किसी भी छिपे हुए कोड रेपो की कल्पना नहीं कर रहा था - बस कोड स्निपेट उत्तर में शामिल थे। उदाहरण के लिए, कोई व्यक्ति पूछ सकता है कि "पी-हैकिंग क्या है?", और कोई व्यक्ति अपने उत्तर में एक खिलौना आर सिमुलेशन शामिल कर सकता है। क्या कोड उदाहरण के साथ वर्तमान प्रश्न का उत्तर देना उचित होगा? "हम कितना जानते हैं" एक बहुत व्यापक प्रश्न है।
एड्रियन

जवाबों:


76

कार्यकारी सारांश: यदि "पी-हैकिंग" को मोटे तौर पर एक ला गेलमैन के जाली मार्गों को समझा जाए , तो इसका जवाब कितना व्यापक है, यह है कि यह लगभग सार्वभौमिक है।


एंड्रयू जेलमैन इस विषय के बारे में लिखना पसंद करते हैं और अपने ब्लॉग पर हाल ही में इसके बारे में बड़े पैमाने पर पोस्ट कर रहे हैं। मैं हमेशा उससे सहमत नहीं हूं लेकिन मुझे फेकिंग के बारे में उसका नजरिया पसंद है । यहां उनके गार्डन ऑफ फोर्किंग पाथ्स पेपर (गेलमैन एंड लोकेन 2013) के परिचय का एक अंश दिया गया है; अमेरिकी वैज्ञानिक 2014 में एक संस्करण दिखाई दिया; एएसए के बयान पर गेलमैन की संक्षिप्त टिप्पणी भी देखें ), मेरा जोर:p

इस समस्या को कभी-कभी "पी-हैकिंग" या "स्वतंत्रता के शोधकर्ता डिग्री" (सीमन्स, नेल्सन और साइमनोशन, 2011) कहा जाता है। हाल के एक लेख में, हमने "मछली पकड़ने के अभियान [...]" की बात की। लेकिन हम महसूस करने लगे हैं कि "फिशिंग" शब्द दुर्भाग्यपूर्ण था, इसमें एक शोधकर्ता की छवि को तुलना के बाद तुलना करने की कोशिश करते हुए दिखाया गया है, जब तक एक मछली के छीने जाने तक लाइन को झील में बार-बार फेंकना। हमारे पास यह सोचने का कोई कारण नहीं है कि शोधकर्ता नियमित रूप से ऐसा करते हैं। हमें लगता है कि वास्तविक कहानी यह है कि शोधकर्ता अपनी मान्यताओं और उनके डेटा को देखते हुए एक उचित विश्लेषण कर सकते हैं, लेकिन डेटा अलग-अलग निकला था, वे अन्य विश्लेषण कर सकते थे जो उन परिस्थितियों में उचित थे।

हम दो कारणों से "मछली पकड़ने" और "पी-हैकिंग" (और यहां तक ​​कि "स्वतंत्रता की शोधकर्ता डिग्री) शब्दों के प्रसार पर अफसोस करते हैं : पहला, क्योंकि जब इस तरह के शब्दों का उपयोग किसी अध्ययन का वर्णन करने के लिए किया जाता है, तो भ्रामक निहितार्थ है कि शोधकर्ताओं एक डेटा सेट पर सचेत रूप से कई अलग-अलग विश्लेषणों की कोशिश कर रहे थे; और, दूसरा, क्योंकि यह उन शोधकर्ताओं का नेतृत्व कर सकता है जो जानते हैं कि उन्होंने कई अलग-अलग विश्लेषणों को गलत तरीके से समझने की कोशिश नहीं की थी कि वे स्वतंत्रता की शोधकर्ता डिग्री की समस्याओं के बहुत दृढ़ता से विषय नहीं हैं। [...] हमारा मुख्य बिंदु यह है कि एक डेटा विश्लेषण के संदर्भ में कई संभावित तुलनाएं करना संभव है, जिसका विवरण डेटा पर अत्यधिक आकस्मिक है, शोधकर्ता मछली पकड़ने की किसी भी जागरूक प्रक्रिया को करने या कई पी-मूल्यों की जांच करने के बिना है। ।

इसलिए: गेलमैन को पी-हैकिंग शब्द पसंद नहीं है क्योंकि इसका मतलब है कि शोध सक्रिय रूप से धोखा दे रहे थे। जबकि समस्याएं केवल इसलिए हो सकती हैं क्योंकि शोधकर्ता डेटा को देखने के बाद परीक्षण करने / रिपोर्ट करने का चयन करते हैं, यानी कुछ खोजपूर्ण विश्लेषण करने के बाद।

जीव विज्ञान में काम करने के कुछ अनुभव के साथ, मैं सुरक्षित रूप से कह सकता हूं कि हर कोई ऐसा करता है। हर कोई (खुद को शामिल) कुछ डेटा एकत्र करता है जिसमें केवल एक प्राथमिकताओं की परिकल्पना होती है, व्यापक खोजपूर्ण विश्लेषण करता है, विभिन्न महत्त्वपूर्ण परीक्षणों को चलाता है, कुछ और आंकड़ों को एकत्र करता है, परीक्षणों को चलाता है और अंत में अंतिम पांडुलिपि में कुछ -values ​​की रिपोर्ट करता है । यह सब सक्रिय रूप से धोखा दिए बिना हो रहा है, गूंगा xkcd-jelly-beans- शैली चेरी-पिकिंग, या होशपूर्वक कुछ भी हैकिंग कर रहा है।p

इसलिए यदि "पी-हैकिंग" को मोटे तौर पर एक ला गेलमैन के जाली रास्तों को समझा जाए , तो इसका जवाब कितना व्यापक है, यह है कि यह लगभग सार्वभौमिक है।

केवल अपवाद जो मन में आते हैं, वे मनोविज्ञान में पूरी तरह से पूर्व-पंजीकृत प्रतिकृति अध्ययन या पूरी तरह से पूर्व-पंजीकृत मेडिकल परीक्षण हैं।

विशिष्ट साक्ष्य

मनोरंजक रूप से, कुछ लोगों ने शोधकर्ताओं को यह पता लगाने के लिए चुना कि बहुत से लोग किसी प्रकार की हैकिंग कर रहे हैं ( जॉन एट अल। 2012, सत्य के लिए प्रोत्साहन के साथ संदिग्ध अनुसंधान प्रथाओं की व्यापकता को मापना ):

जॉन एट अल

इसके अलावा, हर कोई मनोविज्ञान में तथाकथित "प्रतिकृति संकट" के बारे में सुनता है: शीर्ष मनोविज्ञान पत्रिकाओं में प्रकाशित हालिया अध्ययनों में से आधे से अधिक नहीं दोहराते हैं ( नोजेक एट अल। 2015, मनोवैज्ञानिक विज्ञान की प्रजनन क्षमता का अनुमान लगाते हुए )। (यह अध्ययन हाल ही में सभी ब्लॉगों पर फिर से किया गया है, क्योंकि विज्ञान के मार्च 2016 के अंक में Nkk et al। का खंडन करने का प्रयास करते हुए एक टिप्पणी प्रकाशित की और साथ ही Nosek et al द्वारा एक उत्तर दिया गया। चर्चा अन्यत्र भी जारी रही, एंड्रयू जेलमैन द्वारा पोस्ट देखें । रिट्रीटवॉच पोस्ट जिसे वह लिंक करता है। इसे विनम्रता से रखने के लिए, समालोचना असंबद्ध है।)

अद्यतन नवंबर 2018: कपलान और इरविन, 2017, एनएचएलबीआई क्लिनिकल परीक्षणों के अशक्त प्रभाव की संभावना समय के साथ बढ़ी है कि पूर्व-पंजीकरण आवश्यक हो जाने के बाद, नैदानिक ​​परीक्षणों के शून्य से रिपोर्टिंग परिणामों का अंश 43% से बढ़कर 92% हो गया है:

यहाँ छवि विवरण दर्ज करें


P साहित्य में -value वितरण

हेड एट अल। 2015

मैंने हेड एट अल के बारे में नहीं सुना है पहले अध्ययन करें, लेकिन अब कुछ समय आसपास के साहित्य के माध्यम से देख रहे हैं। मैंने उनके कच्चे आंकड़ों का भी संक्षिप्त विवरण लिया है ।

हेड एट अल। PubMed से सभी ओपन एक्सेस पेपर डाउनलोड किए और पाठ में रिपोर्ट किए गए सभी पी-वैल्यूज निकाले, 2.7 मिली पी-मान प्राप्त किए। इनमें से 1.1 mln को रूप में बताया गया था न कि । इनमें से, हेड एट अल। बेतरतीब ढंग से प्रति पेपर एक पी-मूल्य लिया गया, लेकिन यह वितरण को बदलने के लिए प्रतीत नहीं होता है, इसलिए यहां बताया गया है कि सभी 1.1 मिलियन मानों का वितरण कैसा दिखता है ( और बीच ):p=ap<a00.06

साहित्य में पी-मूल्यों का वितरण

मैंने बिन चौड़ाई का उपयोग किया है , और एक स्पष्ट रूप से रिपोर्ट किए गए वैल्यू में बहुत कुछ पूर्वानुमानित देख सकता है । अब, हेड एट अल। निम्नलिखित करें: वे अंतराल की संख्या की तुलना अंतराल और अंतराल में करते हैं; पूर्व संख्या बड़ी हो गई है (महत्वपूर्ण) और वे इसे -hacking के प्रमाण के रूप में लेते हैं। अगर एक स्क्वाट करता है, तो कोई इसे मेरे फिगर पर देख सकता है।0.0001pp(0.045,0.5)(0.04,0.045)p

मुझे यह एक साधारण कारण के लिए बेहद अटपटा लगता है। साथ अपने निष्कर्षों की रिपोर्ट कौन करना चाहता है ? दरअसल, बहुत से लोग वास्तव में ऐसा करते दिखते हैं, लेकिन फिर भी इस असंतोषजनक सीमा-रेखा के मूल्य से बचने की कोशिश करना स्वाभाविक है और इसके बजाय एक और महत्वपूर्ण अंक, उदाहरण के लिए (जब तक कि यह ) रिपोर्ट करना स्वाभाविक है । इसलिए प्लस के कुछ अतिरिक्त करीब लेकिन बराबर नहीं है, इसे शोधकर्ता की वरीयताओं को समझा जा सकता है।p=0.05p=0.048p=0.052p0.05

और इसके अलावा, प्रभाव छोटा है

(इस आंकड़े पर मैं जो एकमात्र मजबूत प्रभाव देख सकता हूं, वह ठीक बाद के घनत्व घनत्व की एक स्पष्ट बूंद है । यह स्पष्ट रूप से प्रकाशन पूर्वाग्रह के कारण है।)p0.05

जब तक मैंने कुछ याद नहीं किया, हेड एट अल। इस संभावित वैकल्पिक व्याख्या पर भी चर्चा न करें। वे या तो अंतराल का कोई हिस्टोग्राम प्रस्तुत नहीं करते हैं।p

हेड एट अल की आलोचना करने वाले पत्रों का एक समूह है। में इस अप्रकाशित पांडुलिपि Hartgerink कि सिर एट अल का तर्क है। उनकी तुलना में और शामिल होना चाहिए था (और यदि उनके पास था, तो उन्हें अपना प्रभाव नहीं मिला होगा)। मैं उसके बारे में निश्चित नहीं हूं; यह बहुत ठोस नहीं है। यह बहुत बेहतर होगा अगर हम किसी भी तरह से बिना किसी गोलाई के "कच्चे" -values के वितरण का निरीक्षण कर सकें ।p=0.04p=0.05p

के वितरण गोलाई बिना -valuesp

2016 में इस PeerJ पेपर (2015 में पोस्ट किए गए प्रिफर) वही हर्ट्जरिंक एट अल। शीर्ष मनोविज्ञान पत्रिकाओं में बहुत सारे कागजात से पी-मान निकालें और वास्तव में ऐसा करें: वे रिपोर्ट किए गए -, -, - आदि सांख्यिकीय मूल्यों से सटीक रूल्स को फिर से जोड़ते हैं; यह वितरण किसी भी दौर की कलाकृतियों से मुक्त है और 0.05 (चित्रा 4) की ओर किसी भी वृद्धि का प्रदर्शन नहीं करता है।ptFχ2

हार्टर्जिंक पीरज पेपर

पीएलओएस वन में क्रॉसिक 2015 द्वारा एक बहुत ही समान दृष्टिकोण लिया गया है , जो शीर्ष प्रायोगिक मनोविज्ञान पत्रिकाओं से 135k -values निकालता है । यहाँ बताया गया है कि वितरण रिपोर्ट के लिए कैसा दिखता है (बाएं) और पुनर्संयोजित (दाएं) -values:pp

क्रावक्ज़क

अंतर हड़ताली है। बायां हिस्टोग्राम आसपास कुछ अजीब सामान दिखा रहा है , लेकिन दाईं ओर यह चला गया है। इसका मतलब यह है कि यह अजीब सामान लोगों की प्राथमिकताओं की वजह से है, जो आसपास रिपोर्टिंग मूल्यों की वजह से है, न कि -hacking के कारण ।p=0.05p0.05p

मैस्कैम्पैम्पो और लालंडे

ऐसा लगता है कि पहले 0.05 से नीचे -values की कथित अधिकता का निरीक्षण करने के लिए Masicampo & Lalande 2012 थे , मनोविज्ञान में तीन शीर्ष पत्रिकाओं को देख रहे हैं:p

मैस्कैम्पैम्पो और लालंडे

यह प्रभावशाली लग रही है, लेकिन Lakens 2015 ( प्रीप्रिंट एक प्रकाशित टिप्पणी में) का तर्क है कि यह केवल प्रकट होता है भ्रामक घातीय फिट करने के लिए प्रभावशाली धन्यवाद। यह भी देखें कि लक्सन्स 2015, पी-वैल्यू से निष्कर्ष निकालने की चुनौतियों पर 0.05 से नीचे है और उसमें सन्दर्भ है।

अर्थशास्त्र

ब्रूडूर एट अल। 2016 (लिंक 2013 की छाप पर जाता है) अर्थशास्त्र साहित्य के लिए भी यही काम करते हैं। तीन अर्थशास्त्र पत्रिकाओं पर नज़र, 50k परीक्षण के परिणाम निकालें, उन सभी को -scores में परिवर्तित करें (रिपोर्ट किए गए गुणांक और मानक त्रुटियों का उपयोग करते हुए जब भी संभव हो और केवल-रिपोर्ट किए जाने पर का उपयोग करें ), और निम्न प्राप्त करें:zp

Brodeur

क्योंकि छोटे इसमें कुछ समय भ्रामक है -values सही पर हैं और बड़े -values बाईं तरफ हैं। जैसा कि लेखक अमूर्त में लिखते हैं, "पी-वैल्यू का वितरण ऊँचे पी-वैल्यू के साथ ऊँट के आकार को प्रदर्शित करता है ।25" और ".25 और .10 के बीच की घाटी"। उनका तर्क है कि यह घाटी कुछ गड़बड़ है, लेकिन यह केवल एक अप्रत्यक्ष सबूत है। इसके अलावा, यह केवल चयनात्मक रिपोर्टिंग के कारण हो सकता है, जब ऊपर बड़े p-मान .25 प्रभाव की कमी के कुछ सबूत के रूप में रिपोर्ट किए जाते हैं, लेकिन .1 और .25 के बीच p-मान न तो यहां और न ही वहां महसूस होते हैं और न ही होते हैं। किफायत से इस्तेमाल करो। (मुझे यकीन नहीं है कि यह प्रभाव जैविक साहित्य में मौजूद है या नहीं क्योंकि अंतराल पर ऊपर दिए गए प्लॉट ध्यान केंद्रित करते हैं।)ppp<0.05


झूठे आश्वासन?

उपर्युक्त सभी के आधार पर, मेरा निष्कर्ष यह है कि मुझे जैविक / मनोवैज्ञानिक साहित्य में संपूर्ण रूप से -value वितरण में -hacking का कोई मजबूत सबूत नहीं दिखता है । चयनात्मक रिपोर्टिंग, प्रकाशन पूर्वाग्रह का सबूत के बहुत सारे है, गोलाई -values नीचे करने के लिए और अन्य अजीब राउंडिंग प्रभाव है, लेकिन मैं सिर एट अल के निष्कर्ष से असहमत .: नीचे कोई संदिग्ध टक्कर है ।ppp0.05 0.050.050.05

उरी सिमोनसोहन का तर्क है कि यह "झूठे आश्वासन" है । ठीक है, वास्तव में वह इन पत्रों को संयुक्त राष्ट्र के आलोचनात्मक रूप से उद्धृत करता है लेकिन फिर टिप्पणी करता है कि 0.05 की तुलना में "अधिकांश पी-मान छोटे हैं"। फिर वह कहता है: "यह आश्वस्त है, लेकिन मिथ्या आश्वस्त है"। और यहाँ क्यों है:

यदि हम यह जानना चाहते हैं कि क्या शोधकर्ता अपने परिणामों को पी-हैक करते हैं, तो हमें उनके परिणामों से जुड़े पी-मूल्यों की जांच करने की आवश्यकता है, जिन्हें वे पहले स्थान पर पी-हैक करना चाहते हैं। नमूने, निष्पक्ष होने के लिए, केवल ब्याज की आबादी से टिप्पणियों को शामिल करना चाहिए।

अधिकांश कागजात में बताए गए अधिकांश पी-वैल्यू ब्याज के रणनीतिक व्यवहार के लिए अप्रासंगिक हैं। Covariates, जोड़तोड़ की जाँच, परीक्षण परीक्षण बातचीत में मुख्य प्रभाव, आदि जिनमें हम पी-हैकिंग को कम आंकते हैं और हम डेटा के औसत मूल्य को कम आंकते हैं। सभी पी-वैल्यू का विश्लेषण एक अलग सवाल पूछता है, एक कम समझदार। इसके बजाय "क्या शोधकर्ता पी-हैक करते हैं जो वे अध्ययन करते हैं?" हम पूछते हैं कि क्या "शोधकर्ताओं ने सब कुछ पी-हैक किया है?"

यह कुल समझ में आता है। को देखते हुए सभी सूचना -values रास्ता बहुत शोर है। उरी का कर्व पेपर ( सिमोनसोहन एट अल। 2013 ) अच्छी तरह से प्रदर्शित करता है कि कोई देख सकता है कि क्या कोई ध्यान से चयनित वैल्यू को देखता है। उन्होंने कुछ संदिग्ध कीवर्ड्स के आधार पर 20 मनोविज्ञान के पेपरों का चयन किया (अर्थात्, इन पेपरों के लेखकों ने एक कोवरिएट के लिए परीक्षण करने वाले परीक्षणों की रिपोर्ट की और यह रिपोर्ट नहीं की कि इसके लिए नियंत्रण के बिना क्या होता है) और फिर केवल अंतराल लिया जो मुख्य निष्कर्षों का परीक्षण कर रहे हैं। यहां बताया गया है कि वितरण कैसा दिखता है (बाएं):ppपी पीpp

Simonsohn

मजबूत बाएं तिरछा मजबूत फॉकिंग का सुझाव देता है ।p

निष्कर्ष

मैं कहूंगा कि हम चाहते हैं कि पता है कि चाहिए की एक बहुत कुछ हो सकता है -hacking ज्यादातर forking-पथ प्रकार है कि Gelman का वर्णन करता है, पर जा रहा; संभवतया इस हद तक कि प्रकाशित वैल्यू को वास्तव में अंकित मूल्य पर नहीं लिया जा सकता है और इसे पाठक द्वारा कुछ पर्याप्त अंश द्वारा "छूट" दिया जाना चाहिए। हालाँकि, यह रुख केवल नीचे के समग्र -values ​​वितरण में एक टक्कर की तुलना में बहुत अधिक सूक्ष्म प्रभाव पैदा करता है और वास्तव में इस तरह के कुंद विश्लेषण से पता नहीं लगाया जा सकता है।ppपी 0.05 p0.05


4
simply because the researches chose what test to perform/report after looking at the dataहाँ; और समस्या द्वैध है क्योंकि दोधारी है। जब डेटा के लिए एक बेहतर तरीका चुना जा रहा है - क्या यह उस विशिष्ट नमूने या उस आबादी की तकनीकी कॉल की एक बैठक से अधिक है? या - रिमिमग आउटलेर्स - क्या यह जनसंख्या को कम कर रहा है या इसे ठीक कर रहा है? कौन कहेगा, आखिरकार?
ttnphns

मैं जिस तरह के उत्तर की उम्मीद कर रहा था, वह शायद वर्तमान साहित्य का एक संक्षिप्त प्रतिनिधित्व था, कुछ संकेत यह था कि क्या हेड एट अल पेपर नवीनतम सोच का एक अच्छा सारांश है, आदि मैं इस उत्तर की बिल्कुल भी उम्मीद नहीं कर रहा था। लेकिन मुझे लगता है कि यह बहुत अच्छा है, और गेलमैन के विचार और व्यावहारिक अंतर्दृष्टि विशेष रूप से सहायक हैं। जब मैंने उस प्रश्न को लिखा था जो मेरे मन में @ttnphns के लिए समान था (शायद यह दिखाता है, मैंने "ओवरफिटिंग" शब्द को भी शामिल माना।)
सिल्वरफिश

फिर भी, सांख्यिकीय परीक्षण की मान्यताओं के लिए "कैसे विज्ञान काम करता है" एक सामान्य मैच के सामान्य और असाध्य असत्य से अलग है, मुझे आश्चर्य होता है कि क्या यह बोगीमैन "दुर्भावनापूर्ण पी-हैकर्स की अंधेरे कला" वास्तव में बाहर है, और यदि हां, तो यह कितनी दूर तक पहुंचता है। इसे प्रोत्साहित करने के लिए निश्चित रूप से मजबूत (गलत) प्रोत्साहन हैं।
सिल्वरफिश

2
आपने मुझे इस हेड एट अल के साथ उत्सुक किया। paper, @Silverfish, इसलिए मुझे यह स्वीकार करना चाहिए कि अभी, काम करने के बजाय, मैं हेड एट अल के परिणामों की आलोचना करने वाले कुछ पत्रों के माध्यम से ब्राउज़ कर रहा हूं और पहले ही अपना कच्चा डेटा डाउनलोड कर चुका हूं ... ओह माय।
अमीबा

2
+1। नवीनतम गेलमैन ब्लॉग लेख ( andrewgelman.com/2016/03/09/… ) बहुत सारे ग्राउंड को कवर करता है, और एक समूह द्वारा एक दिलचस्प हर्षोल्लास पर प्रकाश डाला गया है जो प्रतिकृति का प्रयास करता है और फिर मूल अध्ययन लेखकों द्वारा इसकी कड़ी आलोचना की गई: retractionwatch.com/ 2016/03/07 /…
वेन

22

फ़नल प्लॉट्स एक जबरदस्त सांख्यिकीय नवाचार रहा है जो मेटा विश्लेषण को उसके सिर पर बदल देता है। मूल रूप से, एक फ़नल प्लॉट एक ही प्लॉट पर नैदानिक ​​और सांख्यिकीय महत्व दर्शाता है। आदर्श रूप में, वे एक फ़नल आकार बनाएंगे। हालांकि, कई मेटा-विश्लेषणों ने फ़नल प्लॉट का उत्पादन किया है जो एक मजबूत बायोमॉडल आकार दिखाते हैं, जहां जांचकर्ता (या प्रकाशक) चुनिंदा परिणामों को रोक देते हैं जो अशक्त थे। इसका परिणाम यह है कि त्रिकोण व्यापक हो जाता है, क्योंकि छोटे, कम संचालित अध्ययनों ने सांख्यिकीय महत्व तक पहुंचने के लिए परिणामों को "प्रोत्साहित" करने के लिए अधिक कठोर तरीकों का इस्तेमाल किया। कोच्रन रिपोर्ट टीम के पास उनके बारे में यही कहना है

यदि पूर्वाग्रह है, उदाहरण के लिए क्योंकि सांख्यिकीय रूप से महत्वपूर्ण प्रभावों के बिना छोटे अध्ययन (चित्रा 10.4.a, पैनल ए में खुले सर्कल के रूप में दिखाए गए) अप्रकाशित रहते हैं, तो यह फ़नल प्लॉट के एक विषम कोने में एक गैप के साथ दिखाई देगा। ग्राफ (पैनल बी)। इस स्थिति में एक मेटा-विश्लेषण में गणना की गई प्रभाव हस्तक्षेप प्रभाव (उदाहरण 1997, विलार 1997) को नजरअंदाज करना होगा। जितना अधिक विषमता का उच्चारण किया जाता है, उतना ही अधिक संभावना है कि पूर्वाग्रह की मात्रा पर्याप्त होगी।

पहला कथानक पूर्वाग्रह के अभाव में एक सममित भूखंड को दर्शाता है। दूसरा रिपोर्टिंग पूर्वाग्रह की उपस्थिति में एक असममित भूखंड दिखाता है। तीसरा पूर्वाग्रह की उपस्थिति में एक विषमतावादी साजिश को दर्शाता है क्योंकि कुछ छोटे अध्ययन (खुले सर्कल) कम पद्धतिगत गुणवत्ता के हैं और इसलिए अतिरंजित हस्तक्षेप प्रभाव का अनुमान लगाते हैं।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

मुझे संदेह है कि अधिकांश लेखक उन तरीकों से अनजान हैं, जिनका उपयोग वे पी-हैक करने के लिए करते हैं। वे अपने द्वारा फिट किए गए मॉडल की समग्र संख्या पर नज़र नहीं रखते, अलग-अलग बहिष्करण मापदंड लागू करते हैं या हर बार अलग-अलग समायोजन चर के लिए चुनते हैं। हालांकि, अगर मुझे एक साधारण प्रक्रिया को पूरा करना था, तो मुझे कुल मॉडलों को फिट देखना अच्छा लगेगा। यह कहने के लिए नहीं है कि फिर से मॉडल करने के लिए वैध कारण हो सकते हैं, उदाहरण के लिए, हम सिर्फ एक अल्जाइमर विश्लेषण के माध्यम से भाग गए थे, न कि अपोइ को नमूने में एकत्र किया गया था। मेरे चेहरे पर अंडा, हम मॉडल फिर से चलाते हैं।


4
मुझे यह पसंद है कि आप "जांचकर्ताओं (या प्रकाशकों) पर जोर देते हैं जो चुनिंदा परिणामों को रोक देते हैं जो अशक्त थे"। यह देखते हुए कि किसी भी प्रकाशन के अशक्त को अस्वीकार करने में विफल रहता है , जांचकर्ताओं पर दोष अनिवार्य रूप से नहीं है।
क्लिफ एबी

2
मेरे प्रश्न का एक पहलू "पी-हैकिंग" और "प्रकाशन पूर्वाग्रह" के बीच का अंतर था - यह जवाब कुछ मायनों में दोनों को भ्रमित करता है। क्या आप इस बात की व्याख्या करने के लिए सही होंगे कि आप उस तरह से क्या कह रहे हैं, अर्थात "प्रकाशन पूर्वाग्रह संक्षेप में पी-हैकिंग का एक रूप है, लेकिन प्रकाशक द्वारा"?
सिल्वरफिश

1
@Silverfish प्रकाशन पूर्वाग्रह, पहले की टिप्पणी के अनुसार, लेखकों या प्रकाशकों द्वारा संचालित किया जा सकता है। लेकिन हां, यह निश्चित रूप से फैकिंग है। फ़नल प्लॉट्स को भले ही प्रकाशित शोध में लागू किया गया हो, लेकिन वे किसी भी सेटिंग में लागू होते हैं, जहाँ "वैज्ञानिक प्रतिकृति" में विसंगतियां दिखाई देने लगती हैं। कई केंद्रों या थोक विक्रेताओं पर ड्रग्स के लिए पुष्टिकृत परीक्षण, या व्यावसायिक नीतियों के कार्यान्वयन की कोई बात नहीं। जब भी आप प्रतिकृति के साथ काम कर रहे होते हैं, एक फ़नल प्लॉट गैप दिखा कर -hacking के कुछ सबूत प्रदान कर सकता है जहाँ अशक्त परिणाम गिरना चाहिए। पीpp
एडमो

2
हम्म। पहले मैं विरोध करना चाहता था और दावा करना चाहता था कि प्रकाशन पूर्वाग्रह पी-हैकिंग से अलग है (इसी तरह, मुझे लगता है, @Silverfish ने अपने क्यू को भी कैसे फंसाया), लेकिन तब मुझे एहसास हुआ कि मूल रूप से जितना सोचा गया था, उससे सीमा खींचना अधिक मुश्किल है। जेली-बीन्स-शैली की कई तुलनाएं करना और केवल महत्वपूर्ण लोगों की रिपोर्टिंग करना (पी-हैकिंग?) कई अध्ययनों को करने और केवल महत्वपूर्ण लोगों की रिपोर्टिंग (जो परिभाषा के आधार पर प्रकाशन पूर्वाग्रह है) से बहुत अलग नहीं है। फिर भी, जब तक वे पी <0.05 उपज नहीं देते, तब तक डेटा की मालिश करने के अर्थ में पी-हैकिंग मेरे लिए पर्याप्त रूप से अलग है।
अमीबा

2
@ यामोइबा की मुझे भी यही चिंता थी, लेकिन ओपी के सवाल को पढ़ने के बाद, मैंने महसूस किया कि इसे "चीजों के सॉसेज अंत" पर -hacking का परिणाम मिला। अधिकांश -hacking विधियाँ आमतौर पर रिपोर्टिंग से बच जाती हैं। इसलिए, सांख्यिकीविद क्या करते हैं, इसके बारे में हमें पता है कि हम मतभेदों को कैसे सुलझाते हैं? खैर, हमें निष्कर्षों को दोहराने और पुष्टि करने के लिए स्वतंत्र प्रयासों की आवश्यकता है। पीpp
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.