यह स्पष्ट रूप से व्यवहार में ऐसा करने के लिए एक निरपेक्ष बुरा सपना है, लेकिन लगता है कि यह किया जा सकता है हैं: हम एक सांख्यिकीय सुल्तान की नियुक्ति और हर कोई एक परिकल्पना परीक्षण चल रहा है उनके कच्चे रिपोर्ट इस तानाशाह को -values। वह कुछ प्रकार के वैश्विक (शाब्दिक) कई तुलना सुधार करता है और सही संस्करणों के साथ उत्तर देता है।p
क्या यह विज्ञान और तर्क के सुनहरे युग में प्रवेश करेगा? नहीं, शायद नहीं।
आइए एक जोड़ी परिकल्पना पर विचार करके शुरू करें, जैसे कि एक
टेस्ट में। हम दो समूहों की कुछ संपत्ति को मापते हैं और उस संपत्ति के बारे में दो परिकल्पनाओं के बीच अंतर करना चाहते हैं:
एच 0 : समूहों का एक ही मतलब है। एच ए : समूहों के अलग-अलग साधन हैं।
परिमित नमूने में,
H 0 वास्तव में सत्य होने पर भी साधन बिल्कुल समान होने की संभावना नहीं है: माप त्रुटि और परिवर्तनशीलता के अन्य स्रोत व्यक्तिगत मूल्यों को चारों ओर धकेल सकते हैं। हालाँकि,
H 0tH0:HA: The groups have the same mean. The groups have different means.
H0H0परिकल्पना कुछ अर्थों में "उबाऊ" है, और शोधकर्ता आमतौर पर "झूठी सकारात्मक" स्थिति से बचने के लिए चिंतित होते हैं, जिसमें वे उन समूहों के बीच अंतर का दावा करते हैं जहां कोई भी वास्तव में मौजूद नहीं है। इसलिए, हम केवल परिणामों को "महत्वपूर्ण" कहते हैं, यदि वे अशक्त परिकल्पना के तहत असंभव प्रतीत होते हैं, और, सम्मेलन द्वारा, कि 5% पर अनौपचारिकता सीमा निर्धारित की जाती है।
यह एकल परीक्षण पर लागू होता है। अब मान लें कि आप कई परीक्षण चलाने का निर्णय लेते हैं और हर एक के लिए को गलती से स्वीकार करने का 5% मौका स्वीकार करने के लिए तैयार हैं । पर्याप्त परीक्षणों के साथ, आप इसलिए लगभग निश्चित रूप से त्रुटियां करना शुरू कर देंगे, और उनमें से बहुत सारे।H0
विभिन्न बहुविकल्पी दृष्टिकोण का उद्देश्य आपको एक नाममात्र त्रुटि दर पर वापस लाने में मदद करना है जिसे आपने पहले ही व्यक्तिगत परीक्षणों के लिए सहन करने के लिए चुना है। वे थोड़ा अलग तरीकों से ऐसा करते हैं। बोनफेरोनि , सिडक और होल्म प्रक्रियाओं की तरह परिवार-वार त्रुटि दर को नियंत्रित करने वाले तरीके , कहते हैं, "आप एक एकल परीक्षण पर त्रुटि बनाने का 5% मौका चाहते थे, इसलिए हम यह सुनिश्चित करेंगे कि आप 5 से अधिक नहीं हैं। आपके सभी परीक्षणों में कोई भी त्रुटि करने का% मौका। " झूठी डिस्कवरी दर को नियंत्रित करने वाले तरीकेइसके बजाय "आप स्पष्ट रूप से एक परीक्षण के साथ 5% तक गलत होने के साथ ठीक हैं, इसलिए हम यह सुनिश्चित करेंगे कि आपके 'कॉल' का 5% से अधिक गलत नहीं है जब कई परीक्षण कर रहे हैं"। (फर्क देखें?)
अब, मान लीजिए कि आपने कभी-कभी
सभी परिकल्पना परीक्षणों की पारिवारिक-वार त्रुटि दर को नियंत्रित करने का प्रयास किया । आप अनिवार्य रूप से कह रहे हैं कि आप किसी भी अशक्त परिकल्पना को गलत तरीके से खारिज करने का <5% मौका चाहते हैं। यह एक असंभव कठोर सीमा निर्धारित करता है और अनुमान प्रभावी रूप से बेकार हो जाएगा, लेकिन एक और भी अधिक दबाव वाला मुद्दा है: आपके वैश्विक सुधार का मतलब है कि आप बिल्कुल बकवास "यौगिक परिकल्पना" का परीक्षण कर रहे हैं जैसे
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
गलत डिस्कवरी दर में सुधार के साथ, संख्यात्मक मुद्दा काफी गंभीर नहीं है, लेकिन यह अभी भी एक दार्शनिक रूप से गड़बड़ है। इसके बजाय, यह संबंधित परीक्षणों के "परिवार" को परिभाषित करने के लिए समझ में आता है, जैसे जीनोमिक्स अध्ययन के दौरान उम्मीदवार जीन की सूची, या वर्णक्रमीय विश्लेषण के दौरान समय-आवृत्ति के डिब्बे का एक सेट। अपने परिवार को एक विशिष्ट प्रश्न पर बाँधने से आप वास्तव में अपने टाइप I त्रुटि की व्याख्या सीधे तरीके से कर सकते हैं। उदाहरण के लिए, आप अपने खुद के जीनोमिक डेटा से पी-मानों के एक एफडब्ल्यूईआर-सही सेट को देख सकते हैं और कह सकते हैं कि "कोई <5% संभावना है कि इनमें से कोई भी जीन गलत सकारात्मक हैं।" यह एक नेबुलास गारंटी से बहुत बेहतर है जो उन लोगों द्वारा किए गए इनफॉर्म्स को कवर करता है जिन्हें आप उन विषयों पर ध्यान नहीं देते जिनके बारे में आप परवाह नहीं करते हैं।
इसका दूसरा पहलू यह है कि वह "परिवार" का उपयुक्त विकल्प बहस का विषय है और थोड़ा व्यक्तिपरक है (क्या सभी जीन एक परिवार हैं या क्या मैं सिर्फ किन्नरों पर विचार कर सकता हूं?) लेकिन इसे आपकी समस्या से अवगत कराया जाना चाहिए और मैं किसी पर विश्वास नहीं करता। लगभग इतने बड़े पैमाने पर परिभाषित परिवारों की गंभीरता से वकालत की है।
कैसे बे?
बायेसियन विश्लेषण इस समस्या के लिए सुसंगत विकल्प प्रदान करता है - यदि आप फ्रिक्वेंटिस्ट टाइप I / टाइप त्रुटि त्रुटि ढांचे से थोड़ा दूर जाने के लिए तैयार हैं। हम पहले से ही कुछ गैर-कमानी के साथ शुरू करते हैं ... अच्छी तरह से ... सब कुछ। हर बार जब हम कुछ सीखते हैं, तो यह जानकारी एक पूर्ववर्ती वितरण को उत्पन्न करने के लिए पूर्व के साथ जोड़ दी जाती है, जो बदले में अगली बार कुछ सीखने के लिए पूर्व हो जाती है। यह आपको एक सुसंगत अद्यतन नियम देता है और आप दो परिकल्पनाओं के बीच बेयस कारक की गणना करके विशिष्ट चीजों के बारे में विभिन्न परिकल्पनाओं की तुलना कर सकते हैं। आप निश्चित रूप से मॉडल के बड़े हिस्से को बाहर कर सकते हैं, जो इसे विशेष रूप से बहुत अच्छा नहीं बना सकता है।
एक निरंतर ... मेम है कि बायेसियन विधियों को कई तुलना सुधारों की आवश्यकता नहीं है। दुर्भाग्य से, पोस्टीरियर ऑड्स फ्रीक्वेंटर्स के लिए सिर्फ एक और टेस्ट स्टेटिस्टिक हैं (यानी, टाइप I / II त्रुटियों की परवाह करने वाले लोग)। उनके पास कोई विशेष गुण नहीं है जो इस प्रकार की त्रुटियों को नियंत्रित करता है (वे ऐसा क्यों करेंगे?) इस प्रकार, आप वापस लेने योग्य क्षेत्र में वापस आ जाते हैं, लेकिन शायद थोड़े अधिक राजसी मैदान पर।
बायेसियन काउंटर-तर्क यह है कि हमें उस पर ध्यान केंद्रित करना चाहिए जिसे हम अभी जान सकते हैं और इस तरह ये त्रुटि दर महत्वपूर्ण नहीं हैं।
Reproduciblity पर
आप सुझाव दे रहे हैं कि अनुचित कई तुलना-सुधार गलत / अप्रतिरोधी परिणामों के पीछे का कारण है। मेरी समझ यह है कि अन्य कारक एक मुद्दा होने की अधिक संभावना है। एक स्पष्ट बात यह है कि प्रकाशित करने का दबाव लोगों को उन प्रयोगों से बचने की ओर ले जाता है जो वास्तव में उनकी परिकल्पना (यानी, बुरे प्रयोगात्मक डिजाइन) पर जोर देते हैं।
p