बार-बार होने वाली परिकल्पना परीक्षण पर्याप्त बड़े नमूनों के साथ अशक्त परिकल्पना को खारिज करने के पक्षपाती क्यों हो जाते हैं?


46

जब मैं इस मार्ग पर ठोकर खाई तो मैं पूरी तरह से असंबंधित समस्या के लिए बेयस कारक पर इस लेख को पढ़ रहा था

बेयस कारकों के साथ परिकल्पना परीक्षण लगातार परिकल्पना परीक्षण की तुलना में अधिक मजबूत है, क्योंकि बायेसियन रूप मॉडल चयन पूर्वाग्रह से बचता है, अशक्त परिकल्पना के पक्ष में साक्ष्य का मूल्यांकन करता है, इसमें मॉडल अनिश्चितता भी शामिल है, और गैर-नेस्टेड मॉडल की तुलना करने की अनुमति देता है (हालांकि मॉडल जरूर होना चाहिए) एक ही आश्रित चर है)। इसके अलावा, लगातार महत्व परीक्षण पर्याप्त रूप से बड़े नमूना आकार के साथ अशक्त परिकल्पना को खारिज करने के पक्ष में पक्षपाती हो जाते हैं। [महत्व दिया]

मैंने इस दावे को न्यूरोइमेज में कार्ल फ्रिस्टन के 2012 के पेपर से पहले देखा है , जहां वह इसे शास्त्रीय अनुमान की गिरावट कहते हैं

मुझे यह समझने में थोड़ी परेशानी हुई कि यह सच क्यों होना चाहिए। विशेष रूप से, मैं सोच रहा हूँ:

  1. ऐसा क्यों होता है
  2. कैसे इसके खिलाफ की रक्षा करने के लिए
  3. इसे विफल करते हुए, इसका पता कैसे लगाया जाए

7
यह कुछ हद तक विवादास्पद है क्योंकि यह अशक्त है जब अशक्त है, बिल्कुल सच है, लेकिन चूंकि ऐसा बहुत कम होता है (सभी प्रकार की जटिलताएं जैसे कि गंभीर सहसंबंधों के कारण), यह संभवतः सबसे व्यावहारिक अनुप्रयोगों का सच है। हाइपोथेटिक रूप से कहें तो, नमूना की पर्याप्त संख्या में अनियंत्रित मध्यस्थों की एक समान संख्या के बावजूद लंबे समय तक मध्यस्थों की सैकड़ों श्रृंखलाओं के कारण , सबसे कमजोर सहसंबंधों (जैसे, r = .001) के सबसे कमजोर का पता लगा सकता है। यकीनन, यह रिश्ता वास्तव में हालांकि मौजूद है, इसलिए क्या यह वास्तव में "पूर्वाग्रह" है, अभी भी कुछ हद तक बहस योग्य IMO है ...
निक स्टानर

@NickStauner, आह जो वास्तव में बहुत मायने रखता है! सहज स्पष्टीकरण के लिए धन्यवाद!
blz

3
ताल यारकोनी ने फ्रिस्टन के लेख की एक बहुत ही ज्ञानवर्धक आलोचना लिखी: talyarkoni.org/blog/2012/04/25/…
jona

@ जोना, लगता है जैसे मैं यहाँ पूरी भीड़ में भाग रहा हूँ =) संदर्भ के लिए धन्यवाद, यह वास्तव में अच्छा पढ़ने के लिए लगता है!
ब्लेज़

8
मान्यताओं को देखते हुए, यह कथन कड़ाई से गलत लगता है क्योंकि यह खड़ा है, लेकिन यह एक वास्तविक मुद्दे पर हो रहा है (पर्याप्त रूप से बड़े नमूनों के साथ, एक एनएचएसटी एक झूठे अशक्त को अस्वीकार करने के लिए लगभग निश्चित हो जाएगा, चाहे कितना भी छोटा प्रभाव हो) । जब लोगों को पता चलता है कि समस्या है, तो यह आमतौर पर इंगित करता है कि परिकल्पना परीक्षण वह नहीं है जिसकी उन्हें आवश्यकता है। इसी मूल मुद्दे (हालांकि परिकल्पना परीक्षणों के बजाय CI के संदर्भ में फंसाया गया) इस उत्तर
Glen_b

जवाबों:


44

प्रश्न 1 का उत्तर: ऐसा इसलिए होता है क्योंकि अंतर के लिए लगातार परीक्षणों में नमूना आकार बढ़ने के कारण -value बहुत छोटा हो जाता है (यानी बिना किसी अंतर के शून्य परिकल्पना के साथ परीक्षण / समानता का कोई रूप) जब एक वास्तविक अंतर शून्य के बराबर होता है । मनमाने ढंग से शून्य के करीब होने के विपरीत, यथार्थवादी नहीं है (ओपी के लिए निक स्टैनर की टिप्पणी देखें)। क्योंकि frequentist परीक्षण आँकड़ों की त्रुटि आम तौर पर नतीजा यह है कि के साथ, नमूना आकार के साथ कम हो जाती है -value मनमाने ढंग से छोटे हो जाता है सभी मतभेदों को एक बड़ा पर्याप्त नमूना आकार के साथ एक मनमाना स्तर के लिए महत्वपूर्ण हैं । कॉस्मा शालिज़ी ने इस बारे में निडरता से लिखा हैpp

प्रश्न 2 का उत्तर: एक बार-बार होने वाली परिकल्पना परीक्षण ढांचे के भीतर, अंतर का पता लगाने के बारे में पूरी तरह से अनुमान न लगाकर कोई भी इससे बचाव कर सकता है । उदाहरण के लिए, एक कर सकते हैं गठबंधन के बारे में अनुमान अंतर और तुल्यता पर इतना है कि एक पक्ष नहीं है (या conflating!) सबूत के बोझ प्रभाव का सबूत बनाम प्रभाव के अभाव के सबूत । एक प्रभाव के अभाव के साक्ष्य उदाहरण के लिए आते हैं:

  1. तुल्यता के लिए दो एकतरफा परीक्षण (TOST),
  2. तुल्यता के लिए समान रूप से सबसे शक्तिशाली परीक्षण , और
  3. समतुल्यता के लिए विश्वास अंतराल दृष्टिकोण (यानी यदि टेस्ट स्टैटिस्टिक्स के % सीआई तुल्यता / प्रासंगिकता की एक पूर्व- निर्धारित सीमा के भीतर है , तो कोई महत्व के स्तर पर समानता का निष्कर्ष निकालता है)।12αα

ये सभी दृष्टिकोण क्या हैं, इस बारे में एक प्राथमिक निर्णय है कि क्या प्रभाव आकार एक प्रासंगिक अंतर बनाता है और एक शून्य परिकल्पना कम से कम एक अंतर के संदर्भ में फंसाया जाता है जो कि प्रासंगिक माना जाता है।

अंतर के लिए परीक्षणों से संयुक्त निष्कर्ष और तुल्यता के लिए परीक्षण इस प्रकार आपके द्वारा वर्णन किए गए पूर्वाग्रह से बचाता है जब नमूना आकार इस तरह से बड़े होते हैं (अंतर के लिए संयुक्त परीक्षणों से उत्पन्न चार संभावनाएं दिखाते हुए दो-दो-तालिका तालिका - पॉज़िटिविस्ट नल परिकल्पना, एच -और तुल्यता-नकारात्मकवादी शून्य परिकल्पना, H :0+0

अंतर के लिए संयुक्त परीक्षणों से चार संभावनाएं और तुल्यता के लिए परीक्षण

सूचना ऊपरी बाएँ वृत्त का चतुर्थ भाग: एक जबर्दस्ती परीक्षण एक जहाँ है हाँ आप कोई फर्क नहीं की शून्य परिकल्पना को अस्वीकार, लेकिन आप भी प्रासंगिक अंतर का शून्य परिकल्पना को अस्वीकार, तो हाँ वहाँ एक अंतर है, लेकिन आपके पास एक प्रायोरी फैसला आप के बारे में परवाह नहीं है यह इसलिए क्योंकि यह बहुत छोटा है।

प्रश्न 3 का उत्तर: 2 का उत्तर देखें।


2
इस तरह के उत्तर मैं यहाँ आते रहते हैं। धन्यवाद!
21

2
इन संयुक्त परीक्षणों को "प्रासंगिकता परीक्षण" कहा जाता है और फिर भी केवल बहुत कम अध्ययन किया जाता है। हालाँकि, एक (रूढ़िवादी) प्रासंगिकता निर्णय पाया जा सकता है यदि कोई अशक्त परिकल्पना को खारिज कर देता है यदि सामान्य 1-1 कॉन्फिडेंस अंतराल प्रासंगिक क्षेत्र से अलग है। तो, @Alexis, प्रासंगिकता परीक्षण के मामले में, आप ले , तुल्यता परीक्षण के मामले में, आप ले । 1αα2α
होर्स्ट ग्रुनबसच

प्रश्न 1 के उत्तर का पूरक करने के लिए, कॉस्मो शालिज़ी से एक प्रासंगिक ब्लॉग पोस्ट

2
मुझे थोड़ा आश्चर्य है कि हर कोई इस सवाल को इतना उपयोगी पाता है, हालांकि "प्रश्न 1 का उत्तर" वास्तव में माइकल ल्यू - एलेक्सिस द्वारा उचित रूप से उत्तर दिया गया है, क्योंकि यह लगभग स्पष्ट है कि यह ऊपर रहेगा, शायद आप अपना उत्तर सही कर सकें। कहने का मतलब है कि, गणितीय रूप से, परिकल्पना परीक्षण वास्तव में बड़े नमूने के आकार के अनुसार नहीं है, पूर्वाग्रह की सामान्य परिभाषा के अनुसार (वास्तव में, छोटे नमूने का आकार एक समस्या हो सकती है)!
फ्लोरियन हार्टिग

3
मैं समस्या को समझता हूं, और मैं मूल्यांकन से सहमत हूं - जब एक हाइपोथिसिस परीक्षण करना अनइंफॉर्मेटिव या भ्रामक है! H0 पहली जगह में असीम रूप से संभव है, और आपके पास 1 के करीब पावर है। लेकिन यह टेस्ट को पक्षपाती नहीं बनाता है। जब तक आपकी पूर्वाग्रह की परिभाषा यह नहीं है कि एक विधि एक प्रश्न का सही परिणाम देती है, जो आपको लगता है कि नहीं पूछा जाना चाहिए।
फ्लोरियन हार्टिग

21

बड़े नमूनों के साथ बार-बार होने वाले परीक्षण अशक्त परिकल्पना को अस्वीकार करने की दिशा में पूर्वाग्रह का प्रदर्शन नहीं करते हैं यदि अशक्त परिकल्पना सत्य है। यदि परीक्षण की धारणाएं मान्य हैं और अशक्त परिकल्पना सत्य है, तो एक बड़े नमूने का अधिक जोखिम नहीं है, जो एक छोटे नमूने की तुलना में शून्य परिकल्पना की अस्वीकृति के लिए अग्रणी है। यदि अशक्त सत्य नहीं है, तो हम निश्चित रूप से इसे अस्वीकार करने की कृपा करेंगे, इसलिए यह तथ्य कि एक बड़ा नमूना अधिक बार झूठे अशक्त को अस्वीकार कर देगा, क्योंकि एक छोटा सा नमूना 'पूर्वाग्रह' नहीं बल्कि उचित व्यवहार है।

Fear अति प्रबल प्रयोगों ’का डर यह मानने पर आधारित है कि जब यह लगभग सत्य है तो अशक्त परिकल्पना को अस्वीकार करना अच्छी बात नहीं है। लेकिन अगर यह केवल लगभग सच है तो यह वास्तव में गलत है! दूर को अस्वीकार करें, लेकिन देखा गया प्रभाव (और स्पष्ट रूप से रिपोर्ट) नोटिस करने में विफल नहीं है। यह तुच्छ रूप से छोटा हो सकता है और इसलिए गंभीर विचार के योग्य नहीं है, लेकिन इस मुद्दे पर एक निर्णय परिकल्पना परीक्षण के बाहर की जानकारी पर विचार करने के बाद किया जाना चाहिए।


2
विश्वास है कि बार-बार होने वाले परीक्षण अशक्त परिकल्पना को खारिज करने के पक्षपाती नहीं हैं क्योंकि नमूना आकार बढ़ता है यह मानने पर आधारित है कि सार्थक और निश्चित रूप से से अलग है । 00+really frickin' tiny
एलेक्सिस

6
@ एलेक्सिस दूसरा पैराग्राफ फिर से पढ़ें। मैं इस बात से पूरी तरह सहमत हूं कि वास्तव में फ्रिकिन का छोटा होना बहुत महत्वपूर्ण नहीं है, लेकिन यह तार्किक रूप से शून्य भी नहीं है।
माइकल ल्यू

6
एक टिप्पणी के लिए खेद है जो जनता के लिए बेकार है, लेकिन @MichaelLew, मुझे वास्तव में आपका उत्तर पसंद आया। पहला वाक्य काफी महत्वपूर्ण है और मुझे नहीं लगता कि यह एलेक्सिस के जवाब में कुशलतापूर्वक स्पष्ट किया गया था (जो कि निश्चित रूप से अच्छा भी है)।
रिचर्ड हार्डी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.