क्या अधकचरे अध्ययनों से झूठी सकारात्मकता की संभावना बढ़ गई है?


23

यह प्रश्न यहाँ और यहाँ से पहले पूछा गया है, लेकिन मुझे नहीं लगता कि उत्तर सीधे प्रश्न को संबोधित करते हैं।

क्या अधकचरे अध्ययनों से झूठी सकारात्मकता की संभावना बढ़ गई है? कुछ समाचार लेख इस जोर देते हैं। उदाहरण के लिए :

कम सांख्यिकीय शक्ति बुरी खबर है। कम अध्ययन में वास्तविक प्रभावों को याद रखने की अधिक संभावना होती है, और एक समूह के रूप में वे झूठी सकारात्मक के एक उच्च अनुपात को शामिल करने की अधिक संभावना रखते हैं - अर्थात, प्रभाव जो सांख्यिकीय महत्व तक पहुंचते हैं, भले ही वे वास्तविक न हों।

जैसा कि मैंने इसे समझा, परीक्षण की शक्ति को बढ़ाया जा सकता है:

  • नमूना आकार में वृद्धि
  • एक बड़ा प्रभाव आकार होने
  • महत्व स्तर बढ़ रहा है

यह मानते हुए कि हम महत्व स्तर को बदलना नहीं चाहते हैं, मेरा मानना ​​है कि ऊपर का उद्धरण नमूना आकार को बदलने के लिए संदर्भित करता है। हालाँकि, मैं यह नहीं देखता कि नमूने को कम करने से झूठी सकारात्मकता की संख्या कैसे बढ़नी चाहिए। इसे सीधे शब्दों में कहें, तो अध्ययन की शक्ति को कम करने से झूठी नकारात्मक की संभावना बढ़ जाती है, जो सवाल का जवाब देता है:

P(failure to reject H0|H0 is false)

इसके विपरीत, गलत सकारात्मक सवाल का जवाब देते हैं:

P(reject H0|H0 is true)

दोनों अलग सवाल हैं क्योंकि सशर्त अलग हैं। पावर झूठी नकारात्मक से संबंधित (विपरीत) है लेकिन झूठी सकारात्मक के लिए नहीं। क्या मैं कुछ भूल रहा हूँ?


4
यह झूठी सकारात्मक दर नहीं है जो सांख्यिकीय शक्ति पर निर्भर करती है, लेकिन "झूठी खोज दर": P(H0is true|rejectH0)
Jake Westfall

2
हाँ, यह वायर्ड लेख में कथन की सही व्याख्या प्रतीत होती है।
रॉबर्ट स्मिथ

जवाबों:


30

आप सही हैं कि नमूना आकार शक्ति को प्रभावित करता है (यानी 1 प्रकार II त्रुटि), लेकिन टाइप I त्रुटि नहीं। यह एक आम गलतफहमी है कि जब नमूना आकार छोटा होता है तो पी-मान कम (सही ढंग से व्याख्या किया गया) कम विश्वसनीय या मान्य होता है - फ्रिस्टन 2012 का बहुत ही मनोरंजक लेख उस पर एक मज़ेदार टिप्पणी है [1]।

कहा जा रहा है कि, अधकचरे अध्ययनों के मुद्दे वास्तविक हैं, और बोली काफी हद तक सही है, मैं कहूंगा कि इसके शब्दों में केवल थोड़ा सा प्रभाव है।

अधकचरे अध्ययनों के साथ मूल समस्या यह है कि, हालांकि परिकल्पना परीक्षणों में झूठी सकारात्मक (टाइप I त्रुटि) की दर तय हो गई है, लेकिन वास्तविक सकारात्मक (शक्ति) की दर कम हो जाती है। इसलिए, एक सकारात्मक (= महत्वपूर्ण) परिणाम एक कम अध्ययन में एक सच्चे सकारात्मक होने की संभावना कम है। यह विचार झूठी खोज दर [2] में व्यक्त किया गया है, यह भी देखें [3]। ऐसा लगता है कि बोली किस ओर इशारा करती है।

एक अतिरिक्त मुद्दा अक्सर नामांकित अध्ययनों के बारे में है कि वे अधिक प्रभाव वाले आकार का नेतृत्व करते हैं। कारण यह है कि ए) कम शक्ति के साथ, सच्चे प्रभावों के बारे में आपके अनुमान उनके वास्तविक मूल्य के आसपास अधिक चर (स्टोकेस्टिक) बन जाएंगे, और बी) केवल उन प्रभावों में से सबसे मजबूत महत्व फिल्टर को पारित करेगा जब बिजली कम होती है। हालांकि यह जोड़ना चाहिए कि यह एक रिपोर्टिंग समस्या है जिसे आसानी से चर्चा करके और सभी को सूचित करके और न केवल महत्वपूर्ण प्रभावों के द्वारा तय किया जा सकता है।

अंत में, अधकचरे अध्ययनों के साथ एक महत्वपूर्ण व्यावहारिक मुद्दा यह है कि कम शक्ति सांख्यिकीय मुद्दों (जैसे अनुमानकर्ताओं के पूर्वाग्रह) को बढ़ाती है और साथ ही चर और इसी तरह की पी-हैकिंग रणनीति के साथ खेलने के लिए प्रलोभन देती है। जब शक्ति कम होती है, तो इन "स्वतंत्रता की शोधक डिग्री" का उपयोग करना सबसे अधिक प्रभावी होता है, और THIS सभी के बाद टाइप I त्रुटि को बढ़ा सकता है, उदाहरण के लिए, [4]।

इन सभी कारणों से, मैं वास्तव में एक अधकचरे अध्ययन के बारे में संदेह करूँगा।

[१] फ्रिस्टन, के। (२०१२) गैर-सांख्यिकीय समीक्षकों के लिए दस विडंबनापूर्ण नियम। न्यूरोइमेज, 61, 1300-1310।

[२] https://en.wikipedia.org/wiki/False_discovery_rate

[३] बटन, केएस; इयोनिडिस, जेपीए; मोकोरिज़, सी।; नोज़क, बीए; चकमक पत्थर, जे।; रॉबिन्सन, ईएसजे और मुनाफो, एमआर (2013) बिजली की विफलता: क्यों छोटे नमूने का आकार तंत्रिका विज्ञान की विश्वसनीयता को कम करता है। नेट। रेव। न्यूरोसि।, 14, 365-376

[४] सीमन्स, जेपी; नेल्सन, एलडी और सिमोनसोहन, यू। (2011) झूठी सकारात्मक मनोविज्ञान: डेटा संग्रह और विश्लेषण में अज्ञात लचीलापन महत्वपूर्ण के रूप में कुछ भी पेश करने की अनुमति देता है। साइकोल विज्ञान।, 22, 1359-1366।


धन्यवाद। बहुत बढ़िया संदर्भ। पूर्णता के लिए, [1] यहां पाया जा सकता है और [३] यहां उपलब्ध है । जब आप झूठी खोज दर के बारे में बात करते हैं, तो क्या आप सुनिश्चित हैं कि सही अवधारणा है? [3] के आधार पर, शायद आपका मतलब सकारात्मक भविष्य कहनेवाला मूल्य (पीपीवी) है जिसमें कम अध्ययन में पीपीवी कम होता है (यानी, सकारात्मक सकारात्मक उतने अधिक बार नहीं होते हैं जितना उन्हें उच्च शक्ति वाले अध्ययन में होना चाहिए) यह गलत खोज दर जैसा लगता है। पीपीवी के पूरक हैं।
रॉबर्ट स्मिथ

जिस तरह से मैं इसे समझता हूं, ये अवधारणाएं समान हैं, पीपीवी = 1-एफडीआर। मैं एफडीआर का उपयोग पसंद करता हूं क्योंकि मुझे शब्द सहज रूप से बेहतर समझ में आता है।
फ्लोरियन हार्टिग


2
ताल यारकोनी यहां फ्रिस्टन लेख के बारे में सभी बातों को गलत बताते हैं
जोना

1
@ जोना - मुझे लगता है कि ताल यारकोनी ने अपने ब्लॉग पोस्ट में कुछ अच्छे बिंदु उठाए हैं। मुझे लगता है कि 1-वाक्य का सारांश "कम बिजली एक समस्या है", जो कि ठीक ऊपर मैं कहता हूं। मुझे अभी भी समीक्षक टिप्पणियों की फिस्टन की कैरिकेचर मजाकिया लगती है, क्योंकि ऐसा होता है कि समीक्षक एक नमूना तर्क के बिना "नमूना का आकार बहुत कम पाते हैं" जिसमें गणना की गई शक्ति शामिल होती है।
फ्लोरियन हार्टिग

6

आप इसे कैसे देखते हैं इसके आधार पर, कम शक्ति दिए गए परिदृश्यों में झूठी सकारात्मक दरों को बढ़ा सकती है।

निम्नलिखित पर विचार करें: एक शोधकर्ता एक उपचार का परीक्षण करता है। यदि परीक्षण महत्वहीन के रूप में वापस आता है, तो वे इसे छोड़ देते हैं और अगले उपचार पर चले जाते हैं। यदि परीक्षण महत्वपूर्ण है, तो वे इसे प्रकाशित करते हैं। आइए यह भी विचार करें कि शोधकर्ता कुछ उपचारों का परीक्षण करेंगे जो काम करते हैं और कुछ ऐसा नहीं है। यदि शोधकर्ता के पास उच्च शक्ति है (निश्चित रूप से उस मामले का संदर्भ देते हुए जब वे एक उपचार का परीक्षण कर रहे हैं जो काम करता है), तो वे एक प्रभावी उपचार का परीक्षण करने के बाद एक बार रुकने की संभावना रखते हैं। दूसरी ओर, कम शक्ति के साथ, वे सही उपचार प्रभाव को याद करने और अन्य उपचारों पर आगे बढ़ने की संभावना रखते हैं। वे जितना अधिक अशक्त उपचार करते हैं, उतनी ही अधिक संभावना होती है कि वे टाइप I त्रुटि करते हैं (यह शोधकर्ता कई तुलनाओं के लिए जिम्मेदार नहीं है)। कम शक्ति के मामले में, उन्हें कई और अशक्त उपचारों का परीक्षण करने की उम्मीद है,

आप कह सकते हैं "ठीक है, यह सिर्फ एक शोधकर्ता है जो कई तुलनाओं का दुरुपयोग कर रहा है!"। खैर, यह सच हो सकता है, लेकिन यह भी है कि इन दिनों बहुत सारे शोध कैसे किए जाते हैं। ठीक इन कारणों के कारण, मुझे व्यक्तिगत रूप से प्रकाशित काम पर बहुत कम विश्वास है जब तक कि इसका एक बड़ा नमूना आकार ऐसा न हो कि शोधकर्ता एक ही प्रयोग को बड़ी संख्या में दोहरा नहीं सके।


1
धन्यवाद। यहां तक ​​कि कई तुलनाओं (उचित सुधारों के बिना) के मामले की अनदेखी करते हुए, मुझे लगता है कि आप पीपीवी के एक और उदाहरण का वर्णन कर रहे हैं जैसा कि यहां वर्णित है । मैं पैराग्राफ पेस्ट नहीं कर सकता लेकिन यह ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
रॉबर्ट स्मिथ

1
आह हाँ, यह बहुत बारीकी से वर्णन करता है कि मैं क्या जिक्र कर रहा था। सबसे छोटा अंतर यह है कि मैं कह रहा हूं "किसी दिए गए प्रयोगात्मक प्रक्रिया में , एक सच्चे प्रभाव के प्रत्येक परीक्षण में व्यक्तिगत कम शक्ति होने से हमारी संपूर्ण प्रयोगात्मक प्रक्रिया में एक प्रकार की त्रुटि का उपयोग करने की संभावना बढ़ जाती है "। यह निश्चित रूप से, प्रत्येक सांख्यिकीय परीक्षण में I त्रुटि दर के प्रकार को बढ़ाने से अलग है। इसके अलावा, यह केवल पीपीवी से अलग इंद्रियों के सबसे तकनीकी में है। लेकिन यह एक ही तरीका है कि मीडिया स्टेटमेंट "लो पावर बढ़ता है टाइप I एरर्स" समझ में आता है (और मुझे लगता है कि यह बहुत मायने रखता है)।
क्लिफ एबी

4

निम्न शक्ति टाइप -1 त्रुटि दर को प्रभावित नहीं कर सकती है, लेकिन यह प्रकाशित परिणामों के अनुपात को टाइप -1 त्रुटियों को प्रभावित कर सकती है।

कारण यह है कि कम शक्ति H0 (टाइप -2 त्रुटि) की सही अस्वीकृति की संभावना को कम करती है, लेकिन H0 (टाइप -1 त्रुटि) की गलत अस्वीकृति की संभावना नहीं है।

एक दूसरे के लिए मान लें कि दो साहित्य हैं ... एक बहुत कम शक्ति के साथ आयोजित किया गया - शून्य के पास - और दूसरा पर्याप्त शक्ति के साथ आयोजित किया गया। दोनों साहित्य में, आप मान सकते हैं कि जब H0 गलत है, तब भी आपको कुछ समय के लिए झूठी सकारात्मकता मिलेगी (जैसे, अल्फा = .05 के लिए 5%)। शोधकर्ताओं ने माना कि उनकी परिकल्पना हमेशा सही नहीं होती है, हम मान सकते हैं कि दोनों साहित्यकारों को समान संख्या में टाइप -1 त्रुटियां, अच्छी शक्ति या नहीं होनी चाहिए। ऐसा इसलिए है क्योंकि टाइप -1 त्रुटियों की दर शक्ति द्वारा प्रभावित नहीं होती है, जैसा कि अन्य ने कहा है।

हालाँकि, LOW पावर वाले साहित्य में, आपको टाइप -2 की बहुत सारी त्रुटियाँ भी होंगी। दूसरे शब्दों में, कम-शक्ति वाले साहित्य को H0 के सही अस्वीकार को टाइप करना चाहिए, जिससे टाइप -1 की त्रुटियां साहित्य का एक बड़ा हिस्सा बन जाती हैं। उच्च-शक्ति वाले साहित्य में, आपको H0 के सही और गलत अस्वीकार का मिश्रण होना चाहिए।

तो, क्या कम बिजली टाइप -1 त्रुटियों को बढ़ाती है? हालांकि, यह सही प्रभावों को खोजने के लिए कठिन बनाता है, टाइप -1 त्रुटियों को प्रकाशित निष्कर्षों का एक बड़ा अनुपात बनाता है।


1
धन्यवाद। PPV के बारे में क्या? में कागज फ्लोरियन हार्टिग द्वारा संदर्भित, वहाँ का दावा है कि एक प्रकार मैं त्रुटि, कम बिजली, पीपीवी कम दिया जाता है। यदि पीपीवी कम है, जिसका अर्थ है कि सच्ची दावा खोजों की संख्या कम है, तो झूठी दावा खोजों (झूठी सकारात्मक) की संख्या में वृद्धि होनी चाहिए।
रॉबर्ट स्मिथ

0

दूसरों के जवाब के अलावा, एक अध्ययन आमतौर पर जब आकार का आकार छोटा होता है, तो कम आंका जाता है। कई परीक्षण हैं जो केवल asymptotically मान्य हैं, और छोटे n के लिए बहुत आशावादी या रूढ़िवादी हैं।

अन्य परीक्षण केवल छोटे नमूना आकारों के लिए मान्य होते हैं यदि कुछ शर्तें पूरी होती हैं, लेकिन बड़े नमूना आकार (जैसे टी-टेस्ट) के साथ और अधिक मजबूत हो जाते हैं।

इन दोनों मामलों में छोटे नमूने का आकार और बिना किसी अनुमान के एक बढ़ी हुई टाइप I त्रुटि दर हो सकती है। ये दोनों स्थितियां अक्सर पर्याप्त होती हैं कि मैं आपके प्रश्न का वास्तविक उत्तर मानता हूं: सिद्धांत रूप में नहीं बल्कि व्यवहार में।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.