मछली पकड़ने के अभियान के साथ समस्या यह है: यदि आप पर्याप्त परिकल्पनाओं का परीक्षण करते हैं, तो उनमें से एक को कम पी मूल्य के साथ पुष्टि की जाएगी। एक ठोस उदाहरण देता हूं।
कल्पना कीजिए कि आप एक महामारी विज्ञान अध्ययन कर रहे हैं। आपने 1000 रोगियों को पाया है जो एक दुर्लभ स्थिति से पीड़ित हैं। आप जानना चाहते हैं कि उनमें क्या समानता है। इसलिए आप परीक्षण करना शुरू करते हैं - आप यह देखना चाहते हैं कि क्या इस नमूने में किसी विशेष विशेषता को ओवररप्रेट किया गया है। प्रारंभ में आप लिंग, जाति, कुछ विशिष्ट पारिवारिक इतिहास (50 वर्ष की आयु से पहले हृदय रोग से पिता की मृत्यु हो गई) के लिए परीक्षण करते हैं, लेकिन अंततः, जैसा कि आपको कुछ भी करने में परेशानी हो रही है कि "चिपक जाती है", आप सभी प्रकार के अन्य कारकों को जोड़ना शुरू करते हैं जो बस रोग से संबंधित हो सकता है:
- शाकाहारी है
- कनाडा की यात्रा की है
- कॉलेज खत्म
- विवाहित है
- बच्चे हैं
- बिल्लियों है
- कुत्ते हैं
- प्रति सप्ताह कम से कम 5 गिलास रेड वाइन पीता है
...
अब यहाँ बात है। यदि मैं पर्याप्त "यादृच्छिक" परिकल्पनाओं का चयन करता हूं, तो यह संभावना बनने लगती है कि इनमें से कम से कम 0.05 से कम एपी मूल्य का परिणाम होगा - क्योंकि पी मूल्य का बहुत सार है "अशक्त परिकल्पना को अस्वीकार करने के लिए गलत होने की संभावना कोई प्रभाव नहीं है ”। अलग-अलग रखो - औसतन, प्रत्येक 20 फर्जी परिकल्पना के लिए जो आप परीक्षण करते हैं, उनमें से एक आपको <0.05 का एपी देगा ।
यह SOK XKCD कार्टून http://xkcd.com/882/ में बहुत अच्छी तरह से संक्षेपित है :
त्रासदी यह है कि भले ही एक व्यक्ति लेखक महत्व को देखने के लिए एक नमूने पर 20 अलग-अलग परिकल्पना परीक्षण नहीं करता है, वही काम करने वाले 19 अन्य लेखक हो सकते हैं; और जो एक सहसंबंध "खोजता है" के पास अब लिखने के लिए एक दिलचस्प पेपर है, और एक जिसे प्रकाशन के लिए स्वीकार किए जाने की संभावना है ...
यह अप्रासंगिक निष्कर्षों के लिए एक दुर्भाग्यपूर्ण प्रवृत्ति की ओर जाता है। एक व्यक्तिगत लेखक के रूप में इससे बचाव का सबसे अच्छा तरीका बार को उच्चतर सेट करना है। व्यक्तिगत कारक के परीक्षण के बजाय, अपने आप से पूछें "अगर मैं एन हाइपोथेसिस का परीक्षण करता हूं, तो कम से कम एक झूठी सकारात्मक के साथ आने की संभावना क्या है"। जब आप वास्तव में "मछली पकड़ने की परिकल्पना" का परीक्षण कर रहे हैं, तो आप इस के खिलाफ गार्ड करने के लिए एक बोनफेरोनि सुधार करने के बारे में सोच सकते हैं - लेकिन लोग अक्सर नहीं करते हैं।
डॉ। इयानॉइड्स द्वारा कुछ दिलचस्प पेपर थे - विशेष रूप से इस विषय पर अटलांटिक मासिक में प्रोफाइल ।
कई व्यावहारिक जवाबों के साथ यह पहले वाला प्रश्न भी देखें ।
अपने प्रश्न के सभी पहलुओं पर बेहतर प्रतिक्रिया के लिए अपडेट करें:
यदि आप डरते हैं कि आप "फिशिंग" कर सकते हैं, लेकिन आप वास्तव में नहीं जानते हैं कि क्या परिकल्पना तैयार की जाती है, तो आप निश्चित रूप से अपने डेटा को "अन्वेषण", "प्रतिकृति" और "पुष्टि" खंडों में विभाजित कर सकते हैं। सिद्धांत रूप में, इससे आपको पहले बताए गए जोखिमों के लिए अपने जोखिम को सीमित करना चाहिए: यदि आपके पास अन्वेषण डेटा में 0.05 का मान है और आपको प्रतिकृति और पुष्टिकरण डेटा में समान मूल्य मिलता है, तो आपके गलत होने का जोखिम है। "इसे सही तरीके से करने" का एक अच्छा उदाहरण ब्रिटिश मेडिकल जर्नल में दिखाया गया था (17+ के प्रभाव कारक के साथ एक बहुत ही सम्मानित प्रकाशन)
अशक्त महिलाओं में अपूर्ण गर्भावस्था से जुड़े कारकों की खोज और पुष्टि: भावी काउहोट अध्ययन, चैपल एट अल
यहाँ प्रासंगिक पैराग्राफ है:
हमने 5628 महिलाओं के डेटासेट को तीन भागों में विभाजित किया है: ऑस्ट्रेलिया और न्यूजीलैंड की दो तिहाई महिलाओं की एक अन्वेषण डाटासेट, यादृच्छिक (n = 2129) पर चुनी गई; ऑस्ट्रेलिया और न्यूजीलैंड की महिलाओं की शेष तीसरी महिलाओं का स्थानीय प्रतिकृति डेटासेट (n = 1067); और यूनाइटेड किंगडम और आयरलैंड गणराज्य से 2432 यूरोपीय महिलाओं की एक बाहरी, भौगोलिक रूप से अलग पुष्टि डेटासेट।
साहित्य में थोड़ा पीछे जाएं, तो Altman et al allele द्वारा एक अच्छा पेपर है "प्रैग्नेंसी एंड प्रोग्नोस्टिक रिसर्च: प्रोगोनिस्टिक मॉडल को मान्य करना" जो बहुत अधिक गहराई में जाता है, और यह सुनिश्चित करने के तरीके बताता है कि आप नहीं गिरते हैं यह गलती। लेख से "मुख्य बिंदु":
क्लिनिकल प्रैक्टिस में अनलिमिटेड मॉडल्स का इस्तेमाल नहीं किया जाना चाहिए। जब किसी प्रोगोनॉस्टिक मॉडल को वेरिफाई किया जाता है, तो कैलिब्रेशन और भेदभाव का मूल्यांकन किया जाना चाहिए। मॉडल विकसित करने के लिए इस्तेमाल किए जाने वाले डेटा से वैलिडेशन अलग-अलग डेटा पर किया जाना चाहिए। विकास के तरीकों में कमियों के कारण या क्योंकि नया नमूना मूल से बहुत अलग है
विशेष रूप से उस सुझाव पर ध्यान दें, जो सत्यापन (I paraphrase) अन्य स्रोतों के डेटा के साथ किया जाता है - यानी यह आपके डेटा को मनमाने ढंग से सबसेट में विभाजित करने के लिए पर्याप्त नहीं है, लेकिन आपको वह करना चाहिए जो आप एक सेट से "सीखने" को साबित कर सकें। प्रयोगों के एक अलग सेट से डेटा पर लागू किया जा सकता है। यह एक उच्च पट्टी है, लेकिन यह उस जोखिम को कम करता है जो आपके सेटअप में एक व्यवस्थित पूर्वाग्रह "परिणाम" बनाता है जिसे स्वतंत्र रूप से सत्यापित नहीं किया जा सकता है।
यह एक बहुत ही महत्वपूर्ण विषय है - सवाल पूछने के लिए धन्यवाद!