Bonferroni समायोजन में क्या गलत है?


23

मैंने निम्नलिखित पत्र पढ़ा: Perneger (1998) Bonferroni समायोजन में क्या गलत है

लेखक ने यह कहकर संक्षेप में कहा कि बोनफेरोनी समायोजन में जैव चिकित्सा अनुसंधान में सबसे अच्छा, सीमित अनुप्रयोग हैं और विशिष्ट परिकल्पना के बारे में साक्ष्य का आकलन करते समय इसका उपयोग नहीं किया जाना चाहिए:

सारांश बिंदु:

  • अध्ययन डेटा पर किए गए परीक्षणों की संख्या के लिए सांख्यिकीय महत्व को समायोजित करना - बोन्फ्रोनोइ विधि - इसके बारे में अधिक समस्याएं पैदा करता है
  • बोनफर्रोनी विधि सामान्य अशक्त परिकल्पना से संबंधित है (कि सभी अशक्त परिकल्पना एक साथ सत्य हैं), जो शायद ही कभी शोधकर्ताओं के लिए रुचि या उपयोग है
  • मुख्य कमजोरी यह है कि एक खोज की व्याख्या प्रदर्शन किए गए अन्य परीक्षणों की संख्या पर निर्भर करती है
  • टाइप II त्रुटियों की संभावना भी बढ़ जाती है, जिससे कि वास्तव में महत्वपूर्ण अंतर गैर-महत्वपूर्ण माना जाता है
  • बस यह बताते हुए कि महत्व के परीक्षण क्या किए गए हैं, और क्यों, आमतौर पर कई तुलनाओं से निपटने का सबसे अच्छा तरीका है

मेरे पास निम्नलिखित डेटा सेट है और मैं कई परीक्षण सुधार करना चाहता हूं लेकिन मैं इस मामले में सबसे अच्छी विधि के लिए निर्णय लेने में असमर्थ हूं।

यहाँ छवि विवरण दर्ज करें

मैं जानना चाहता हूं कि क्या उन सभी डेटा सेटों के लिए इस तरह का सुधार करना लाजिमी है जिनमें साधनों की सूची है और इस मामले में सुधार के लिए सबसे अच्छा तरीका क्या है?


वास्तव में 'मीन ए', 'मीन बी' क्या है ...?

3
तक नहीं अनेक तुलनाओं को सही आप irreproducible परिणाम का जोखिम हो सकता। चिकित्सा और मनोविज्ञान सहित कई क्षेत्रों ने हाल ही में पता लगाया है कि वास्तव में क्या हुआ है: बहुत कुछ जो वे जानते हैं कि "बिना अनपेक्षित पी-वैल्यू के आधार पर" पता चलता है, बस ऐसा नहीं होता है। निंदक के अर्थ के बिना, ऐसा लगता है कि पसंद स्पष्ट है: शोधकर्ता को प्रकाशित करने के लिए एक पी-मूल्य मानदंड को पूरा करने की आवश्यकता नहीं है; ज्ञान चाहते हैं, जो संदेह है।
whuber

@ जब भी लेकिन यह अभी भी प्रतिलिपि प्रस्तुत करने योग्य माना जा सकता है जब पी-मूल्यों के लिए सही करने के लिए कई अलग-अलग तरीके उपलब्ध हैं? अपने जवाब में मार्टिनो भी कम रूढ़िवादी या अधिक शक्तिशाली तरीकों के बीच चयन करने के लिए दिशानिर्देश देता है।
नक्स

@ नाक्स रेप्रोड्यूसबिलिटी केवल सांख्यिकीय प्रक्रिया से ही जुड़ी हुई है: यह संदर्भित करता है कि क्या तुलनात्मक परिणाम प्राप्त होंगे या नहीं, जब शोध स्वतंत्र रूप से दूसरों द्वारा किया जाता है (और संभवतः दोहराने के ऐसे प्रयासों में , एक एकल परिकल्पना अग्रिम में व्यक्त की जाएगी) उस परिकल्पना के लिए उपयुक्त एक सांख्यिकीय प्रक्रिया का उपयोग किया जाएगा)। यदि मूल प्रक्रिया सही पी-मूल्य का उत्पादन नहीं करती है, तो जब कई स्वतंत्र अध्ययनों के लिए कई बार उपयोग किया जाता है तो यह औसतन अपने उपयोगकर्ताओं की तुलना में अधिक अपरिवर्तनीय निर्धारण करता है जो इरादा या अपेक्षा करता है।
whuber

जवाबों:


23

बोन्फ्रोनी सुधार के साथ क्या गलत है, दूसरों द्वारा उल्लिखित रूढ़िवाद के अलावा सभी बहुलता सुधारों के साथ क्या गलत है। वे बुनियादी सांख्यिकीय सिद्धांतों से पालन नहीं करते हैं और मनमाना हैं; लगातार दुनिया में बहुलता समस्या का कोई अनूठा समाधान नहीं है। दूसरे, बहुलता समायोजन अंतर्निहित दर्शन पर आधारित है कि एक कथन की सत्यता निर्भर करती है, जिस पर अन्य परिकल्पनाओं का मनोरंजन किया जाता है। यह एक बायेसियन सेटअप के बराबर है, जहां ब्याज के एक पैरामीटर के लिए पूर्व वितरण को अधिक रूढ़िवादी रखा जाता है क्योंकि अन्य मापदंडों पर विचार किया जाता है। यह सुसंगत प्रतीत नहीं होता है। कोई कह सकता है कि यह दृष्टिकोण शोधकर्ताओं द्वारा झूठे सकारात्मक प्रयोगों के इतिहास से "जला दिया" गया है और अब वे अपने दुष्कर्मों के लिए बनाना चाहते हैं।

थोड़ा विस्तार करने के लिए, निम्नलिखित स्थिति पर विचार करें। एक ऑन्कोलॉजी शोधकर्ता ने एक निश्चित वर्ग के कीमोथैरेपी की प्रभावकारिता का अध्ययन किया है। उसके यादृच्छिक परीक्षण के सभी पिछले 20 ने सांख्यिकीय रूप से महत्वहीन प्रभाव डाला है। अब वह उसी कक्षा में एक नई कीमोथेरेपी का परीक्षण कर रहा है। उत्तरजीविता लाभ पी = 0.04 के साथ महत्वपूर्ण हैP=0.04। एक सहकर्मी बताते हैं कि एक दूसरे समापन बिंदु का अध्ययन किया गया था (ट्यूमर संकोचन) और यह कि एक जीवित रहने के परिणाम के लिए गुणक समायोजन को लागू किया जाना चाहिए, जिससे एक जीवित अस्तित्व का लाभ मिल सके। यह कैसे है कि सहकर्मी ने दूसरे समापन बिंदु पर जोर दिया, लेकिन एक प्रभावी दवा खोजने के लिए पिछले 20 असफल प्रयासों के लिए समायोजन के बारे में कम परवाह नहीं कर सकता है? और यदि आप बेयसियन नहीं थे, तो आप पिछले 20 अध्ययनों के बारे में पूर्व जानकारी कैसे लेंगे? क्या होगा अगर कोई दूसरा समापन बिंदु नहीं था। क्या सहकर्मी यह विश्वास करेंगे कि पिछले सभी ज्ञान को अनदेखा करते हुए एक जीवित लाभ का प्रदर्शन किया गया था?


2
'दोहराने योग्य' के संदर्भ पर स्पष्ट नहीं। यदि कोई एकल परीक्षण है, जिसमें कोई गुणन समायोजन की आवश्यकता नहीं है, तो मौका है कि साथ दोहराया जाने वाला परिणाम अधिक नहीं है। P=0.04
फ्रैंक हरेल

2
@MJA का जवाब देने के लिए मुझे लगता है कि दो पसंदीदा दृष्टिकोण हैं: (1) बायेसियन या (2) होना चाहिए परिकल्पना को प्राथमिकता दें और परिणामों को प्राथमिकता क्रम में रिपोर्ट करें।
फ्रैंक हरेल

3
इस बारे में कुछ भी स्पष्ट नहीं है और न ही यह किसी भी तरह से सटीक है। बोनफेरोनी की असमानता केवल त्रुटि की संभावना के लिए एक ऊपरी बाध्यता है । 5 मानकों पर समान रूप से क्यों खर्च करें ? स्वीकृति क्षेत्र के लिए आयताकार एक के बजाय एक दीर्घवृत्ताभ क्षेत्र क्यों नहीं बनाया जाता है? क्यों नहीं Scheffe या Tukey की विधि का उपयोग करें? एक साधारण समग्र एनोवा-प्रकार परीक्षण का उपयोग क्यों नहीं करें? आप नहीं करते वांछित लक्ष्य को हासिल α एक का उपयोग करके में समानता। αα
फ्रैंक हरेल

2
आप दो त्रुटि दरों को बराबर कर रहे हैं। अशक्त के तहत, Bonferroni वास्तव में प्रति परिवार त्रुटियों की संख्या को बनाए रखता है। यह प्रति परिवार "कम से कम एक" त्रुटि की संभावना (जो सहसंबंध पर निर्भर करता है) पर एक UPPER BOUND देता है। 5 परीक्षणों पर समान रूप से अल्फा खर्च करना पूरी तरह से तार्किक है, क्योंकि परीक्षणों को अलग तरीके से प्राथमिकता देने का कोई विशेष कारण नहीं है। एक और संदर्भ को देखते हुए, अन्यथा करने के लिए राजसी कारण हैं। आपको यह प्रतीत होता है कि यह गणितीय रूप से ध्वनि विधि का उपयोग करने के लिए "अप्रत्याशित" है, क्योंकि वैकल्पिक विधियाँ अन्य संदर्भों, लक्ष्यों और मान्यताओं को देखते हुए मौजूद हैं।
Bonferroni

2
@FrankHarrell आपके अन्य प्रश्न केवल मेरी बात को दर्शाने के लिए काम करते हैं। बहुविधता के अभाव में अक्सर परीक्षण सांख्यिकीय, परीक्षण प्रक्रिया आदि के कई विकल्प होते हैं। इस पद्धति को उस अर्थ में "मनमाना" नहीं बनाते हैं जो आप पर निर्भर करते हैं। यदि कोई सर्वग्राही परीक्षण में रुचि रखता है, तो सभी तरीकों से आचरण करें। यदि कोई केवल अविभाजित परीक्षणों में रुचि रखता है, तो सभी तरीकों से अविभाज्य परीक्षणों का संचालन करें। क्या आप गंभीरता से यह सुझाव दे रहे हैं कि परीक्षण का चयन करने के लिए "मनमाना" है जो उस प्रश्न को संबोधित करता है जिसे आप किसी अन्य प्रश्न के बजाय रुचि रखते हैं?
बोनफेरोनी

12

उन्होंने यह कहते हुए संक्षेप में कहा कि बोनफेरोनी समायोजन में जैव चिकित्सा अनुसंधान में सबसे अच्छा, सीमित अनुप्रयोग हैं और विशिष्ट परिकल्पना के बारे में साक्ष्य का आकलन करते समय इसका उपयोग नहीं किया जाना चाहिए।

बोन्फेरोनी सुधार सबसे सरल और सबसे अधिक रूढ़िवादी कई तुलना तकनीकों में से एक है। यह सबसे पुराना भी है और समय के साथ इसमें सुधार हुआ है। यह कहना उचित है कि बोन्फेरोनी समायोजन में लगभग सभी स्थितियों में सीमित अनुप्रयोग है। लगभग निश्चित रूप से एक बेहतर दृष्टिकोण है। यह कहना है, आपको कई तुलनाओं के लिए सही करने की आवश्यकता होगी लेकिन आप ऐसी विधि चुन सकते हैं जो कम रूढ़िवादी और अधिक शक्तिशाली हो।

कम रूढ़िवादी

कई तुलना पद्धतियां परीक्षणों के एक परिवार में कम से कम एक झूठी सकारात्मक होने से बचाती हैं। यदि आप स्तर पर एक परीक्षण करते हैं तो आप झूठे सकारात्मक होने की 5% संभावना की अनुमति दे रहे हैं। दूसरे शब्दों में, आप गलत तरीके से अपनी अशक्त परिकल्पना को अस्वीकार करते हैं। यदि आप α = 0.05 स्तर पर 10 परीक्षण करते हैं तो यह 1 से बढ़ जाता है - ( 1 - 0.05 ) 10 = ~ 40% झूठी सकारात्मक होने की संभावनाαα=0.051(10.05)10

Bonferroni विधि के साथ आप एक का उपयोग पैमाने के निम्नतम अंत (यानी कम से α = α / n ) की अपने परिवार की रक्षा करने के लिए n पर परीक्षण α स्तर। दूसरे शब्दों में, यह सबसे रूढ़िवादी है। अब, आप बोनफ्रोनी द्वारा निर्धारित निचली सीमा से ऊपर α बी बढ़ा सकते हैं (यानी अपने परीक्षण को कम रूढ़िवादी बना सकते हैं) और अभी भी α स्तर पर अपने परिवार के परीक्षणों की रक्षा करें । ऐसा करने के कई तरीके हैं, उदाहरण के लिए होल्म-बोनफेरोनि विधि या बेहतर अभी भी झूठी डिस्कवरी दरαbαb=α/nnααbα

अधिक शक्तिशाली

संदर्भित कागज में एक अच्छा बिंदु यह है कि टाइप II त्रुटियों की संभावना भी बढ़ जाती है ताकि वास्तव में महत्वपूर्ण अंतर गैर-महत्वपूर्ण समझे जाएं।

यह बहुत महत्वपूर्ण है। एक शक्तिशाली परीक्षण वह है जो महत्वपूर्ण परिणाम पाता है यदि वे मौजूद हैं। बोन्फ्रोनी सुधार का उपयोग करके आप एक कम शक्तिशाली परीक्षण के साथ समाप्त होते हैं। जैसा कि बोन्फ्रॉनी रूढ़िवादी है, शक्ति काफी कम होने की संभावना है। फिर से, वैकल्पिक तरीकों में से एक जैसे फाल्स डिस्कवरी रेट, परीक्षण की शक्ति को बढ़ाएगा। दूसरे शब्दों में, आप न केवल झूठी सकारात्मकता से रक्षा करते हैं, आप सही मायने में महत्वपूर्ण परिणाम खोजने की अपनी क्षमता में भी सुधार करते हैं।

तो हाँ, आपको कुछ सुधार तकनीक लागू करनी चाहिए जब आपके पास कई तुलनाएं हों। और हाँ, बोन्फेरोनी को शायद कम रूढ़िवादी और अधिक शक्तिशाली विधि के पक्ष में टाला जाना चाहिए


कई विकल्प हैं - उदाहरण के लिए होल्म बोन्फरोनी सरल और समझने में आसान है। इसे क्यों नहीं जाने दे। मान लीजिए कि आप एप्लिकेशन जीन एक्सप्रेशन या प्रोटीन एक्सप्रेशन में हैं, जहाँ आप एक प्रयोग में संभवतः हजारों वेरिएबल्स का परीक्षण कर रहे हैं, तो आप एफडीआर का उपयोग आमतौर पर करते हैं।
मार्टिनो

दस परीक्षणों में झूठे सकारात्मक के 40% संभावना की गणना करने की आपकी विधि का परीक्षण आपके परीक्षणों में स्वतंत्र घटनाओं के आधार पर किया गया है, लेकिन वास्तविक आंकड़ों के साथ ऐसा होने की संभावना नहीं है। मुझे लगता है कि कम से कम टिप्पणी के योग्य है।
सिल्वरफिश

मुझे यह भी चिंता है कि यह उत्तर गलत खोज दर के लिए उन लोगों के साथ परिवार की त्रुटि दर को संरक्षित करने के तरीकों को भ्रमित करता है। इन दोनों बातों पर चर्चा करना बुरा नहीं है, लेकिन जब से वे अलग-अलग काम करते हैं, मुझे नहीं लगता कि उन्हें समकक्ष के रूप में प्रस्तुत किया जाना चाहिए
सिल्वरफ़िश

लेकिन अगर मैं अच्छी तरह से समझता हूं, तो एफडीआर (झूठी खोज दरें) एक पूर्व निर्धारित स्तर पर टाइप I त्रुटि नियंत्रण की गारंटी नहीं देता है? (इस सवाल का मेरा जवाब भी देखें)

लेकिन एक लेख में सभी कच्चे पी-मूल्यों की रिपोर्ट करने के लिए यह अधिक पारदर्शी और उपयोगी नहीं है, ताकि पाठक अपनी वैधता से खुद का न्याय कर सकें या उन समायोजन विधियों में से कौन सा उपयोग करना चाहते हैं?
नक्स

5

थॉमस पर्नेगर एक सांख्यिकीविद् नहीं हैं और उनका पेपर गलतियों से भरा है। इसलिए मैं इसे बहुत गंभीरता से नहीं लेता। यह वास्तव में दूसरों द्वारा भारी आलोचना की गई है। उदाहरण के लिए, आइकिन ने कहा कि पर्नेगर के पेपर में "लगभग पूरी तरह से त्रुटियां हैं": एइकिन, "कई परीक्षण के समायोजन के लिए अन्य विधि मौजूद है", बीएमजे। 1999 9 जनवरी; 318 (7176): 127।

इसके अलावा, मूल प्रश्न में कोई भी पी-वैल्यू <.05 वैसे भी नहीं हैं, यहां तक ​​कि बहुलता समायोजन के बिना भी। तो यह शायद कोई फर्क नहीं पड़ता कि क्या समायोजन (यदि कोई हो) का उपयोग किया जाता है।


4
लिंक के लिए धन्यवाद! मैंने एक फुलर संदर्भ जोड़ा है। यह एक उत्तर की तुलना में अभी भी एक टिप्पणी का अधिक है और मुझे यकीन है कि आपको जोड़ने के लिए ब्याज की कुछ चीज है, या कम से कम एक संक्षिप्त सारांश जो कि आइकेन कहता है। उस से संबंधित: कहने के लिए कि Perneger में कोई विशेषज्ञता नहीं है आँकड़े (किसी भी उचित मानक द्वारा), मिलनसार या उपयोगी नहीं है - क्या आप कथन को हटाने पर विचार करेंगे?
Scortchi - को पुनः स्थापित मोनिका

@Scortchi मैंने बदल दिया है "सांख्यिकी में कोई विशेषज्ञता नहीं है" के लिए "एक सांख्यिकीविद् नहीं है।" संयोग से, मैं असहमत हूं कि विशेषज्ञ की राय को गैर-विशेषज्ञ राय से अलग करना उपयोगी नहीं है।
बोनफरोनी

2
जहाँ तक मैं बता सकता हूँ, Perneger के पास आँकड़ों की कोई डिग्री नहीं है और उन्होंने कभी किसी सांख्यिकीय पत्रिका में एक पेपर प्रकाशित नहीं किया है। प्रश्न में उद्धृत पेपर बीएमजे में एक राय का लेख है जिसे पूरी तरह से गलत होने के लिए बुलाया गया है। तो क्या Perneger की कथित विशेषज्ञता निर्विवाद है "किसी भी उचित मानक से परे?" "मिलनसार" होने के नाते सच्चाई के रास्ते में नहीं आना चाहिए।
Bonferroni

3
जहां तक मैं बता सकता हूं कि वह विश्वविद्यालय के एक अस्पताल में एक प्रोफेसर के साथ बायोस्टैटिस्टिक्स और पीएचडी इन एपिडेमियोलॉजी में हैं, जो मेडिकल स्टेटिस्टिक्स में व्याख्यान देते हैं और मेडिकल पत्रिकाओं में नैदानिक ​​परीक्षणों और अवलोकन संबंधी अध्ययनों के विश्लेषण प्रकाशित करते हैं। यदि आप उस "कोई सांख्यिकीय विशेषज्ञता" से कटौती करते हैं, तो मुझे लगता है कि आपके मानक के बजाय आप अपने पाठकों से अनुमान लगाने की अपेक्षा अधिक कर सकते हैं। (जो है कि मुझे इसके बजाय मानक अनुचित था कहना चाहिए था।) वैसे भी, इसे संपादित करने के लिए धन्यवाद!
Scortchi - को पुनः स्थापित मोनिका

5

हो सकता है कि यह अच्छा हो कि बोन्फ्रोन की तरह कई परीक्षण सुधारों के पीछे '' तर्क '' को समझा जाए। अगर वह स्पष्ट है तो आप खुद को आंक सकेंगे कि आपको उन्हें लागू करना चाहिए या नहीं।

एक परिकल्पना परीक्षण में कोई वास्तविक दुनिया के बारे में कुछ ज्ञात या ग्रहण किए गए तथ्यों के लिए सबूत खोजने की कोशिश करता है। यह गणित में '' विरोधाभास द्वारा प्रमाण '' के समान है, यदि कोई यह साबित करना चाहता है कि उदाहरण के लिए एक पैरामीटर गैर-शून्य है, तो कोई मान लेगा कि विपरीत सत्य है, अर्थात कोई मानता है कि H 0 : μ = 0 और कोई उस चीज़ को खोजने की कोशिश करता है जो उस धारणा के तहत असंभव है। आंकड़ों में चीजें बहुत कम असंभव हैं, लेकिन वे बहुत ही असंभव हो सकती हैं। μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

गलत प्रमाण विज्ञान में एक बुरी बात है क्योंकि हमारा मानना ​​है कि दुनिया के बारे में सच्चा ज्ञान प्राप्त किया है, लेकिन वास्तव में हम नमूने के साथ बुरा हो सकता है। इस प्रकार की त्रुटियों को फलस्वरूप नियंत्रित किया जाना चाहिए। इसलिए किसी को इस तरह के साक्ष्य की संभावना पर एक ऊपरी सीमा डालनी चाहिए, या किसी को I त्रुटि के प्रकार को नियंत्रित करना चाहिए। यह अग्रिम में एक स्वीकार्य महत्व स्तर तय करके किया जाता है।

5%H05%H0H1H1

H0:μ1=0&μ2=0 versus H1:μ10|μ20 and that we use a signficance level α=0.05.

One possibility to do this is to split this hypothesis test and to test H0(1):μ1=0 versus H0(1):μ10 and to test H1(2):μ2=0 versus H1(2):μ20 both at the significance level α=0.05.

To do both tests we draw one sample , so we use one and the same sample to do both of these tests. I may have bad luck with that one sample and erroneously reject H0(1) but with that same sample I may also have bad luck with the sample for the second test and erroneously reject H0(1)

Therefore, the chance that at least one of the two is an erroneous rejection is 1 minus the probability that both are not rejected, i.e. 1(10.05)2=0.0975, where it was assumed that both tests are independent. In other words, the type I error has ''inflated'' to 0.0975 which is almost double α.

The important fact here is that the two tests are based on one and the sampe sample !

Note that we have assumed independence. If you can not assume independence then you can show, using the Bonferroni inequality$ that the type I error can inflate up to 0.1.

Note that Bonferroni is conservative and that Holm's stepwise procedure holds under the same assumptions as for Bonferroni, but Holm's procedure has more power.

When the variables are discrete it's better to use test statistics based on the minimum p-value and if you are ready to abandon type I error control when doing a massive number of tests then False Discovery Rate procedures may be more powerful.

EDIT :

If e.g. (see the example in the answer by @Frank Harrell)

H0(1):μ1=0 versus H1(1):μ10 is the a test for the effect of a chemotherapy and

H0(2):μ1=0 versus H1(2):μ20 is the test for the effect on tumor shrinkage,

then, in order to control the type I error at 5% for the hypothesis H0(12):μ1=0&μ2=0 versus H1(12):μ10|μ20 (i.e. the test that at least one of them has an effect) can be carried out by testing (on the same sample)

H0(1) versus H1(1) at the 2.5% level and also H0(2) versus H1(2) at the 2.5% level.


2
I think this question benefits from an answer like this but I suggest tightening the wording of "So if we fix our significance level at 5% then we are saying that we are ready to accept to find false evidence (because of bad luck with the sample) with a chance of 5%"... That is only the probability of error if the null is actually true, and that's worth saying. (Is "false evidence" a common term? I'm more used to seeing "false positive".)
Silverfish

@Silverfish; I re-phresed it a bit, do you think it is better like this ?

1
I think that's better - "statistically proven" would probably benefit from rephrasing too, I know this is how many people interpret p<0.05 or whatever but of course it isn't really a proof!
Silverfish

@Silverfish: I fully agree that is not a ''proof'' but I used the term for didactial reasons, because I started by the analogy to proof by contradiction. I will add such a clarification at the begining

Your Edit is confusing. "The effect of chemotherapy" in Frank's example is measured via two measures: survival rate and tumor shrinkage. Both can be influenced by chemo. The hypothesis is obviously that chemo works. But "works" can be quantified in two different ways. That's the vagueness aspect I've been talking about in your new thread.
amoeba says Reinstate Monica

4

A nice discussion of Bonferroni correction and effect size http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Also, Dunn-Sidak correction and Fisher's combined probabilities approach are worth considering as alternatives. Regardless of the approach, it is worth reporting both adjusted and raw p-values plus effect size, so that the reader can have the freedom of interpreting them.


The advice to present both raw and adjusted p-values has always seemed sensible to me but is it generally considered the norm, or even acceptable?
Silverfish

3

For one, it's extremely conservative. The Holm-Bonferroni method accomplishes what the Bonferonni method accomplishes (controlling the Family Wise Error Rate) while also being uniformly more powerful.


Is that mean that I need to use this method to correct my results or I should accept the results depending on my hypothesis.
goro

I dont know what you mean by "I should accept the results depending on my hypothesis" but yes you should apply some sort of multiple testing correction because otherwise you are highly inflating type 1 error.
TrynnaDoStat

What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?
goro

1
Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.
TrynnaDoStat

3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.


3
These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).
Matt Krause

@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.