झूठी खोज दर और कई परीक्षण के साथ भ्रम (Colquhoun 2014 पर)


19

मैंने डेविड कोलक्हौं द्वारा इस महान पत्र को पढ़ा है: झूठी खोज दर की जांच और पी-मूल्यों (2014) की गलत व्याख्या । संक्षेप में, वह बताते हैं कि क्यों झूठी खोज दर (FDR) अधिक हो सकती है, भले ही हम α = 0.05 के साथ टाइप I त्रुटि के लिए नियंत्रित करते हैं ।30%α=0.05

हालांकि मैं अभी भी उलझन में हूं कि क्या होगा अगर मैं कई परीक्षण के मामले में एफडीआर नियंत्रण लागू करता हूं।

कहते हैं, मैंने कई चर में से प्रत्येक के लिए एक परीक्षण किया है, और Benjamini-Hochberg प्रक्रिया का उपयोग करके -values ​​की गणना की है । मुझे एक चर मिला है जो q = 0.049 के साथ महत्वपूर्ण है । मैं पूछ रहा हूं कि इस खोज के लिए एफडीआर क्या है?qq=0.049

क्या मैं सुरक्षित रूप से मान सकता हूं कि यदि मैं नियमित रूप से इस तरह का विश्लेषण करता हूं, तो एफडीआर नहीं , बल्कि 5 % से कम है , क्योंकि मैंने बेंजामिनी-होचबर्ग का उपयोग किया है? यह गलत लगता है, मैं कहूँगा कि क्ष को -value मेल खाती पी Colquhoun के कागज और अपने तर्क में -value यहाँ भी लागू होता है, तो यह है कि एक का उपयोग करके क्ष की -threshold 0.05 करने के लिए "अपने आप से कर मूर्ख" मैं जोखिम (के रूप में 30 % मामलों में Colquhoun इसे डालता है) । हालाँकि, मैंने इसे और अधिक औपचारिक रूप से समझाने की कोशिश की और मैं असफल रहा।30%5%qpq0.0530%


2
हे @ जैनचेन, मुझे आश्चर्य है कि आप इतने बड़े इनाम (250) की पेशकश क्यों करेंगे और फिर इसे पुरस्कृत करने और / या उत्तरों की जांच करने के लिए कभी वापस नहीं आएंगे! आशा है कि आप अच्छे हैं।
अमीबा का कहना है कि मोनिका

3
दो पांडुलिपियां ईंटों के एक टन की तरह मुझ पर नीचे आईं और मैं इसके बारे में पूरी तरह से भूल गया।
जनवरी

जवाबों:


15

ऐसा होता है कि संयोग से मैंने कुछ हफ़्ते पहले एक ही पेपर पढ़ा था। Colquhoun ने समस्या को प्रस्तुत करते समय धारा 4 में कई तुलनाओं (बेनजामिनी-होचबर्ग सहित) का उल्लेख किया है, लेकिन मुझे पता है कि वह इस मुद्दे को स्पष्ट नहीं करता है - इसलिए मैं आपके भ्रम को देखकर आश्चर्यचकित नहीं हूं।

एहसास करने के लिए महत्वपूर्ण बिंदु यह है कि Colquhoun किसी भी तुलनात्मक समायोजन के बिना स्थिति के बारे में बात कर रहा है। Colquhoun के पेपर को एक पाठक के दृष्टिकोण को अपनाने के रूप में समझ सकता है: वह अनिवार्य रूप से पूछता है कि वैज्ञानिक साहित्य को पढ़ने पर वह किस झूठी खोज दर (FDR) की उम्मीद कर सकता है, और इसका मतलब यह है कि अपेक्षित FDR जब कोई तुलनात्मक समायोजन नहीं किया गया था। एक अध्ययन में कई सांख्यिकीय परीक्षण चलाते समय, एक पेपर में कई तुलनाओं को ध्यान में रखा जा सकता है। लेकिन कोई भी कभी भी कागजों में कई तुलनाओं के लिए समायोजित नहीं करता है ।

यदि आप वास्तव में बेंजामिनी-होचबर्ग (बीएच) प्रक्रिया का पालन करके एफडीआर को नियंत्रित करते हैं, तो इसे नियंत्रित किया जाएगा। समस्या यह है कि प्रत्येक अध्ययन में अलग से BH प्रक्रिया चलाने से समग्र FDR नियंत्रण की गारंटी नहीं होती है।

क्या मैं सुरक्षित रूप से मान सकता हूं कि यदि मैं नियमित रूप से इस तरह का विश्लेषण करता हूं, तो एफडीआर नहीं , बल्कि 5 % से कम है , क्योंकि मैंने बेंजामिनी-होचबर्ग का उपयोग किया है?30%5%

नहीं। यदि आप प्रत्येक पेपर में बीएच प्रक्रिया का उपयोग करते हैं, लेकिन स्वतंत्र रूप से आपके प्रत्येक पेपर में, तो आप अनिवार्य रूप से अपने बीएच-एडजस्ट किए गए - रूल्स की सामान्य पी - वैल्यू के रूप में व्याख्या कर सकते हैं , और कोलक्वाउन का कहना है कि अभी भी लागू होता है।पीपी


सामान्य टिप्पणियाँ

अपेक्षित एफडीआर के बारे में Colquhoun के सवाल का जवाब देना मुश्किल है क्योंकि यह विभिन्न मान्यताओं पर निर्भर करता है। यदि उदाहरण के लिए सभी अशक्त परिकल्पनाएं सच हैं, तो एफडीआर (यानी सभी "महत्वपूर्ण" निष्कर्ष सांख्यिकीय फ़्लेक्स होंगे)। और अगर सभी नल वास्तव में झूठे हैं, तो एफडीआर शून्य होगा। तो एफडीआर सही नल के अनुपात पर निर्भर करता है, और यह कुछ ऐसा है जो एफडीआर का अनुमान लगाने के लिए बाहरी अनुमान या अनुमान लगाया गया है। Colquhoun 30 % संख्या के पक्ष में कुछ तर्क देता है , लेकिन यह अनुमान मान्यताओं के प्रति अत्यधिक संवेदनशील है।100%30%

मुझे लगता है कि कागज ज्यादातर उचित है, लेकिन मुझे यह नापसंद है कि यह कुछ दावों को बहुत ही बोल्ड तरीके से बोल्ड बनाता है। उदाहरण के लिए सार का पहला वाक्य है:

पी=0.0530%

यह बहुत दृढ़ता से तैयार किया गया है और वास्तव में भ्रामक हो सकता है।


दी, मैंने केवल कागज के माध्यम से जल्दी से स्किम्ड किया, लेकिन यह मुझे प्रतीत होता है कि वह अनिवार्य रूप से अच्छी तरह से ज्ञात दंभ को दोहरा रहा है कि बड़े नमूना आकार (जैसे आंकड़ा 1) में सहज प्रभाव खोजना आसान है। यह कहना नहीं है कि यह सार्थक नहीं है, बल्कि यह है कि मुझे लगता है कि लेखक द्वारा प्रदान की गई व्याख्या की तुलना में इसकी एक अलग (और कम साहसपूर्वक) व्याख्या होनी चाहिए।
रयान सीमन्स

1
मुझे यकीन नहीं है कि @RyanSimmons का कहना है कि मैं "अनिवार्य रूप से अच्छी तरह से ज्ञात अवधारणा को दोहरा रहा था कि बड़े नमूना आकारों में सहज प्रभाव ढूंढना आसान है"। यह बड़े नमूना आकार के साथ कुछ नहीं करना था! मैं वास्तव में एक स्पष्टीकरण का स्वागत करता हूं कि वह क्यों सोचता है कि पेपर में "एक अलग (और कम साहसपूर्वक बताई गई) व्याख्या होनी चाहिए"।
डेविड Colquhoun

"लेकिन कोई भी कभी भी कागजों में कई तुलनाओं के लिए समायोजित नहीं करता है। ऐसा करना बहुत असंभव होगा।" मैं familywise त्रुटि दर समायोजन से अधिक झूठी खोज दर समायोजन के फायदों में से एक था कि जबकि बाद की एक परिभाषा की आवश्यकता होती है सोचा परिवार , पूर्व है स्केलेबल तुलना की एक मनमाना संख्या के पार?
एलेक्सिस

@ एलेक्सिस, मैंने विकिपीडिया को देखा और यह कहता है कि एफडीआर नियंत्रण "स्केलेबल" है, लेकिन मुझे नहीं पता कि इसका वास्तव में क्या मतलब है (मैं विशेषज्ञ नहीं हूं)। हालांकि, यह देखना आसान है कि यदि प्रत्येक पेपर में केवल एक परीक्षण किया जाता है, तो बेंजामिनी-होचबर्ग प्रक्रिया बिल्कुल कुछ भी नहीं करती है: यह अस्वीकार करता है यदिपीαऔर अन्यथा स्वीकार करता है। कई पत्रों में इसे दोहराना किसी भी एफडीआर नियंत्रण का उपयोग नहीं करने के बराबर है और निश्चित रूप से पहले सभी को इकट्ठा करने के बराबर नहीं हैपीकागजात भर में परिणाम, और फिर Benjamini-Hochberg प्रक्रिया को लागू करना।
अमीबा का कहना है कि मोनिका

ठीक है, क्या आप का वर्णन निश्चित रूप से है नहीं एक बहु तुलना प्रक्रिया। हालाँकि, FDR- आधारित समायोजन विधियों का प्रदर्शन, 5 परीक्षण कहते हैं, और फिर 10 के उस सेट में 20 और जोड़ते हैं और उसी विधि को फिर से FDR के तहत अस्वीकृति संभावनाओं को संरक्षित करते हैं, लेकिन ये अस्वीकृति संभावनाएँ FWER के तहत बदल जाती हैं। डन का बोनफेरोनी समायोजन एक नाटकीय उदाहरण प्रदान करता है।
एलेक्सिस

12

Benjamini & Hochberg झूठी खोज दर को उसी तरह से परिभाषित करते हैं जैसे मैं करता हूं, सकारात्मक परीक्षणों के अंश के रूप में जो झूठी सकारात्मकताएं हैं। इसलिए यदि आप कई तुलनाओं के लिए उनकी प्रक्रिया का उपयोग करते हैं तो आप एफडीआर को ठीक से नियंत्रित करते हैं। हालाँकि, यह ध्यान देने योग्य है, कि BH विधि में काफी भिन्नताएँ हैं। बर्कले में बेंजामिनी की संगोष्ठियाँ यूट्यूब पर हैं, और देखने लायक हैं:

मुझे यकीन नहीं है कि @amoeba का कहना है कि "यह बहुत दृढ़ता से तैयार किया गया है और वास्तव में भ्रामक हो सकता है"। मुझे यह जानने में दिलचस्पी होगी कि वह ऐसा क्यों सोचता है। सबसे प्रेरक तर्क सिम्युलेटेड टी परीक्षणों (खंड 6) से आता है। यह लगभग हर किसी के व्यवहार में होता है और यह दर्शाता है कि यदि आप पी को 0.047 के करीब देखते हैं, और दावा किया है कि आपने एक खोज की है, तो आप कम से कम 26% गलत होंगे। क्या गलत हो सकता हैं?

बेशक, मुझे इसे न्यूनतम के रूप में वर्णित नहीं करना चाहिए। अगर आपको लगता है कि आपको वहाँ 50% संभावना है कि वहाँ एक वास्तविक प्रभाव होने की संभावना है। बेशक, यदि आप मानते हैं कि आपकी अधिकांश परिकल्पनाएं पहले से सही हैं, तो आप 26% से कम एफडीआर प्राप्त कर सकते हैं, लेकिन क्या आप उस उल्लसितता की कल्पना कर सकते हैं जो इस दावे का अभिवादन करेगी कि आपने धारणा के आधार पर खोज की है आप 90% पहले से निश्चित थे कि आपका निष्कर्ष सही होगा। 26% न्यूनतम एफडीआर है जो 0.5 से अधिक किसी भी पूर्व संभाव्यता को मानने के लिए अनुमान का उचित आधार नहीं है।

यह देखते हुए कि कूबड़ अक्सर परीक्षण के दौरान खड़े नहीं होते हैं, यह अच्छी तरह से हो सकता है कि किसी विशेष परिकल्पना के केवल 10% होने की संभावना है, और उस स्थिति में FDR 76% विनाशकारी होगा।

यह सच है कि यह सब शून्य परिकल्पना पर आकस्मिक है कि शून्य अंतर (तथाकथित बिंदु शून्य) है। अन्य विकल्प अलग-अलग परिणाम दे सकते हैं। लेकिन बिंदु अशक्त वह है जो लगभग सभी वास्तविक जीवन में उपयोग करते हैं (हालांकि इसके बारे में पता नहीं हो सकता है)। इसके अलावा बिंदु अशक्त मुझे लगता है कि पूरी तरह से उपयोग करने के लिए उपयुक्त चीज है। कभी-कभी इस बात पर आपत्ति की जाती है कि सच्चे मतभेद कभी भी शून्य नहीं होते हैं। मैं असहमत हूं। हम यह बताना चाहते हैं कि क्या हमारे परिणाम उस मामले से अलग नहीं हैं जहां दोनों समूहों को समान उपचार दिया जाता है, इसलिए सही अंतर बिल्कुल शून्य है। यदि हम तय करते हैं कि डेटा उस दृश्य के साथ संगत नहीं है, तो हम प्रभाव के आकार का अनुमान लगाते हैं। और उस बिंदु पर हम अलग-अलग निर्णय लेते हैं कि क्या प्रभाव, हालांकि वास्तविक है, व्यवहार में महत्वपूर्ण होने के लिए पर्याप्त बड़ा है।डेबोरा मेयो का ब्लॉग


@amoeba आप प्रतिक्रिया के लिए धन्यवाद।

मेयो के ब्लॉग शो पर चर्चा ज्यादातर यह है कि मेयो मेरे साथ सहमत नहीं है, हालांकि उसने स्पष्ट नहीं किया है कि क्यों, कम से कम मेरे लिए)। स्टीफन सेन् ने सही ढंग से बताया कि यदि आप एक अलग पूर्व वितरण को स्थगित करते हैं तो आपको एक अलग उत्तर मिल सकता है। मुझे यह केवल व्यक्तिपरक बायेसियन के लिए दिलचस्प लगता है।

यह निश्चित रूप से हर रोज अभ्यास के लिए अप्रासंगिक है जो हमेशा एक बिंदु अशक्त मानता है। और जैसा कि मैंने समझाया, यह मुझे करने के लिए एक पूरी तरह से समझदार चीज है।

कई पेशेवर सांख्यिकीविदों का निष्कर्ष मेरे जैसा ही है। सेलके और बर्जर, और वैलेन जॉनसन (मेरे पेपर में देखें) की कोशिश करें। मेरे दावों के बारे में बहुत विवादास्पद (या बहुत मूल) कुछ भी नहीं है।

0.5 से पहले के बारे में आपका अन्य बिंदु, मुझे बिल्कुल भी अनुमान नहीं लगता है। जैसा कि मैंने ऊपर बताया, 0.5 woold से ऊपर की कोई भी चीज़ व्यवहार में अस्वीकार्य है। और 0.5 से नीचे की कोई भी चीज़ झूठी खोज की दर को और भी अधिक बना देती है (उदाहरण के लिए यदि पूर्व 0.1 है तो 76%)। इसलिए यह कहना पूरी तरह से उचित है कि 26% न्यूनतम झूठी खोज दर है जिसे आप उम्मीद कर सकते हैं कि यदि आप एक ही प्रयोग में P = 0.047 का निरीक्षण करते हैं।


मैं इस प्रश्न के बारे में अधिक सोच रहा हूं। एफडीआर की मेरी परिभाषा बेंजामिन के सकारात्मक परीक्षणों के अंश के समान है जो झूठे हैं। लेकिन यह एक बहुत अलग समस्या पर लागू होता है, एक परीक्षण की व्याख्या। अगर मैं एक अलग शब्द चुनता, तो बेहतर होता।

एकल परीक्षण के मामले में, B & H, P मान को अपरिवर्तित छोड़ देता है, इसलिए यह इस अर्थ में गलत खोज दर के बारे में कुछ नहीं कहता है कि मैं इस शब्द का उपयोग करता हूं।


बेशक आप सही हैं। बेंजामिनी और होचबर्ग, और अन्य लोग जो कई तुलनाओं पर काम करते हैं, उनका उद्देश्य केवल टाइप 1 त्रुटि दर को सही करना है। इसलिए वे "सही" पी मान के साथ समाप्त होते हैं। यह किसी भी अन्य पी मान के समान समस्याओं के अधीन है। अपने नवीनतम पेपर में, मैंने इस गलतफहमी से बचने के प्रयास में एफडीआर से नाम बदलकर झूठे सकारात्मक जोखिम (एफपीआर) कर दिया।

हमने कुछ गणना करने के लिए एक वेब ऐप भी लिखा है (यह देखने के बाद कि कुछ लोग हमारे द्वारा प्रदान की जाने वाली आर स्क्रिप्ट डाउनलोड करते हैं)। यह https://davidcolquhoun.shinyapps.io/3-calcs-final/ पर, itare स्‍वागत के बारे में सभी राय (कृपया नोट टैब पहले पढ़ें)।

PS वेब कैलकुलेटर में अब http://fpr-calc.ucl.ac.uk/ Shiny.io पर एक नया (स्थायी, मुझे आशा है) उपयोग करना आसान है, लेकिन बहुत महंगा है अगर कोई वास्तव में ऐप का उपयोग करता है :-(


मैं इस चर्चा में लौट आया हूं, अब जब विषय पर मेरा दूसरा पेपर रॉयल सोसाइटी ओपन साइंस में प्रदर्शित होने वाला है। यह https://www.biorxiv.org/content/early/2017/08/07/144337 पर है

मुझे एहसास है कि मैंने पहले पेपर में जो सबसे बड़ी गलती की थी, वह "झूठी खोज दर (FDR)" शब्द का उपयोग करना था। नए पेपर में मैं यह स्पष्ट करता हूं कि मैं कई तुलनात्मक समस्याओं के बारे में कुछ नहीं कह रहा हूं। मैं केवल एक निष्पक्ष परीक्षण में देखे गए पी मान की व्याख्या करने के तरीके से संबंधित हूं।

नवीनतम संस्करण में, मैं इस संभावना को संदर्भित करता हूं कि भ्रम को कम करने की उम्मीद में एफडीआर के बजाय झूठी सकारात्मक जोखिम (एफपीआर) के रूप में परिणाम। मैं रिवर्स बायेसियन दृष्टिकोण की भी वकालत करता हूं - 5% का कहना है कि FPR सुनिश्चित करने के लिए आवश्यक पूर्व संभावना की जांच करें। यदि आप P = 0.05 का निरीक्षण करते हैं, तो यह 0.87 पर आता है। दूसरे शब्दों में, आपको लगभग (87%) यह सुनिश्चित करना होगा कि 5% की FPR प्राप्त करने के लिए प्रयोग करने से पहले एक वास्तविक प्रभाव था (जो कि ज्यादातर लोग अभी भी मानते हैं, गलती से, पी = 0.05 का मतलब है)।


प्रिय डेविड, में शामिल होने के लिए CrossValidated और धन्यवाद का स्वागत करते हैं! ऐसा लगता है कि हम मूल @ जनवरी के प्रश्न के बारे में सहमति में हैं: एफडीआर को केवल एक समग्र बीएच प्रक्रिया द्वारा नियंत्रित किया जा सकता है; यदि BH प्रत्येक पेपर में अलग से लागू होता है, तो आपके तर्क अभी भी लागू होते हैं। यदि हां, तो यह मूल प्रश्न को सुलझाता है। आपके "बहुत मजबूत" योगों के बारे में मेरी टिप्पणी के बारे में: मेयो के ब्लॉग पर 147 टिप्पणियों को पढ़ने के बाद, मैं एक और चर्चा शुरू करने में संकोच कर रहा हूं। जैसा कि मैंने लिखा है, मैं ज्यादातर आपके पेपर से सहमत हूं, और मेरी आपत्तियां केवल कुछ योगों के बारे में थीं। [cont।]
अमीबा का कहना है कि मोनिका

1
[...] अमूर्त में पहला वाक्य "बहुत मजबूत" है जो आपके द्वारा यहां सूचीबद्ध कारणों के लिए है: जैसे कि यह बिंदु शून्य मानता है और यह 0.5 पूर्व मान लेता है, लेकिन लगता है जैसे यह कुछ भी नहीं मानता है (लेकिन मैं समझता हूं कि आप उकसाने की कोशिश की गई)। मेयो के ब्लॉग पर विशाल चर्चा से पता चलता है कि कई लोग इस बात से सहमत नहीं हैं कि ये धारणाएँ वास्तविक वैज्ञानिक अभ्यास के लिए उचित हैं। मेरी अपनी आपत्तियां भी हैं, लेकिन मैं आपसे सहमत हूं कि ये धारणाएं कुछ वैज्ञानिक क्षेत्रों का सटीक वर्णन कर सकती हैं। और यदि हां, तो इन क्षेत्रों में एक बड़ी समस्या है, हाँ।
अमीबा का कहना है कि मोनिका

2

भ्रम का एक बड़ा हिस्सा यह है कि, यहाँ अपनी टिप्पणियों के बावजूद, Colquhoun FDR को उसी तरह परिभाषित नहीं करता है जैसे कि बेंजामिनी-होचबर्ग करते हैं। यह दुर्भाग्यपूर्ण है कि Colquhoun ने यह सुनिश्चित करने के लिए पहली जाँच किए बिना एक शब्द गढ़ने का प्रयास किया है कि यह शब्द पहले से ही एक अच्छी तरह से स्थापित, अलग परिभाषा नहीं है। मामलों को बदतर बनाने के लिए, Colquhoun ने एफडीआर को ठीक उसी तरह से परिभाषित किया जिस तरह से पारंपरिक एफडीआर को अक्सर गलत समझा जाता है।

यहां अपने जवाब में, Colquhoun FDR को "सकारात्मक परीक्षणों का अंश जो गलत है," के रूप में परिभाषित करता है। यह बेंजामिन-होचबर्ग एफडीपी के रूप में परिभाषित करता है (झूठी खोज अनुपात, झूठी खोज के साथ भ्रमित नहीं होना) के समान है। बेंजामिनी-होचबर्ग एफडीआर को एफडीपी के अनुमानित मूल्य के रूप में परिभाषित करते हैं, एक विशेष शर्त के साथ कि एफडीपी को 0 माना जाता है जब कोई सकारात्मक परीक्षण नहीं होता है (एक स्टिपुलेशन जो एफडीआर को एफडब्ल्यूआर के बराबर बनाने के लिए होता है जब सभी नल सत्य होते हैं, और शून्य द्वारा विभाजन के कारण अपरिहार्य मूल्यों से बचा जाता है)।

भ्रम से बचने के लिए, मैं सुझाव देता हूं कि आप Colquhoun कागज में दिए गए विवरणों के बारे में चिंता न करें और इसके बजाय केवल बड़े-चित्र बिंदु (जो कि अन्य लोगों ने भी बनाए हैं) को ध्यान में रखते हुए कि अल्फा स्तर सीधे महत्वपूर्ण परीक्षणों के अनुपात के अनुरूप नहीं है, टाइप I त्रुटियां हैं (चाहे हम किसी एकल अध्ययन में महत्वपूर्ण परीक्षणों के बारे में बात कर रहे हों या संयुक्त रूप से कई अध्ययनों में)। यह अनुपात न केवल अल्फा पर निर्भर करता है, बल्कि शक्ति पर और परीक्षण किए गए अशक्त परिकल्पनाओं के अनुपात पर भी निर्भर करता है जो सत्य हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.