मैं निम्नलिखित दो विचारों पर बहुत अपराध करता हूं:
बड़े नमूनों के साथ, महत्त्वपूर्ण परीक्षण शून्य परिकल्पना से छोटे, महत्वहीन प्रस्थान पर उछाल देते हैं।
लगभग कोई अशक्त परिकल्पना वास्तविक दुनिया में सच नहीं है, इसलिए उन पर एक महत्वपूर्ण परीक्षण करना बेतुका और विचित्र है।
यह पी-वैल्यू के बारे में एक स्ट्रोमैन तर्क है। आँकड़ों के विकास को प्रेरित करने वाली बहुत ही मूलभूत समस्या एक प्रवृत्ति को देखने से है और यह जानना चाहती है कि हम जो देखते हैं वह संयोग से है, या एक व्यवस्थित प्रवृत्ति के प्रतिनिधि हैं।
इस बात को ध्यान में रखते हुए, यह सच है कि हम, सांख्यिकीविद के रूप में, आमतौर पर यह नहीं मानते हैं कि एक शून्य-परिकल्पना सच है (यानी , जहां दो समूहों के बीच कुछ अंतर का मतलब है)। हालांकि, दो तरफा परीक्षणों के साथ, हम नहीं जानते कि कौन सी वैकल्पिक परिकल्पना सच है! दो तरफा परीक्षण में, हम यह कहने के लिए तैयार हो सकते हैं कि हम डेटा देखने से पहले 100% सुनिश्चित हैं कि । लेकिन हम नहीं जानते कि क्या या या नहीं । तो अगर हम हमारे प्रयोग चलाने के लिए और निष्कर्ष है कि , हम अस्वीकार कर दिया है (के रूप में Matloff कह सकते हैं; बेकार निष्कर्ष), लेकिन अधिक महत्वपूर्ण बात, हम भी अस्वीकार कर दिया हैHo:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (मैं कहता हूं; उपयोगी निष्कर्ष)। जैसा कि @amoeba ने बताया, यह एक पक्षीय परीक्षण पर भी लागू होता है जिसमें दो तरफा होने की क्षमता होती है, जैसे कि यह परीक्षण कि क्या दवा का सकारात्मक प्रभाव है।
यह सच है कि यह आपको प्रभाव का परिमाण नहीं बताता है। लेकिन यह आपको प्रभाव की दिशा बताता है। तो चलो घोड़े से पहले गाड़ी नहीं डालते हैं; इससे पहले कि मैं प्रभाव के परिमाण के बारे में निष्कर्ष निकालना शुरू कर दूं, मैं आश्वस्त होना चाहता हूं कि मुझे प्रभाव की दिशा सही मिल गई है!
इसी तरह, यह तर्क कि "पी-मान छोटे, महत्वहीन प्रभाव पर उछाल देता है" मुझे काफी त्रुटिपूर्ण लगता है। यदि आप एक पी-मान के बारे में सोचते हैं कि डेटा आपके निष्कर्ष की दिशा का कितना समर्थन करता है , तो निश्चित रूप से आप चाहते हैं कि नमूना आकार काफी बड़ा होने पर छोटे प्रभाव उठाएं। यह कहने का अर्थ है कि वे उपयोगी नहीं हैं मेरे लिए बहुत अजीब है: क्या ये शोध के क्षेत्र हैं जो पी-मूल्यों से पीड़ित हैं, जिनके पास इतना डेटा है कि उन्हें अपने अनुमानों की विश्वसनीयता का आकलन करने की कोई आवश्यकता नहीं है? इसी तरह, यदि आपके मुद्दे वास्तव में हैं कि पी-मान "छोटे प्रभाव के आकार पर ", तो आप बस और परीक्षण कर सकते हैंएच 2 : μ डी < - 1H1:μd>1H2:μd<−1(आप मानते हैं कि 1 न्यूनतम महत्वपूर्ण प्रभाव आकार है)। यह अक्सर नैदानिक परीक्षणों में किया जाता है।
इसे और स्पष्ट करने के लिए, मान लीजिए कि हमने सिर्फ आत्मविश्वास के अंतराल को देखा और पी-वैल्यू को त्याग दिया। आत्मविश्वास अंतराल में सबसे पहले आप क्या देखेंगे? परिणाम को गंभीरता से लेने से पहले क्या प्रभाव सख्ती से सकारात्मक (या नकारात्मक) था। जैसे, पी-वैल्यू के बिना भी, हम अनौपचारिक रूप से परिकल्पना परीक्षण कर रहे होंगे।
अंत में, ओपी / मैटलॉफ के अनुरोध के संबंध में, "पी-मूल्यों के एक ठोस तर्क को बेहतर तरीके से समझें", मुझे लगता है कि सवाल थोड़ा अजीब है। मैं यह कहता हूं क्योंकि आपके विचार के आधार पर, यह स्वतः ही जवाब देता है ("मुझे एक ठोस उदाहरण दें जहां एक परिकल्पना का परीक्षण करना उनके परीक्षण न करने से बेहतर है")। हालाँकि, एक विशेष मामला जो मुझे लगता है कि लगभग निर्विवाद है, RNAseq डेटा है। इस मामले में, हम आम तौर पर दो अलग-अलग समूहों (यानी रोगग्रस्त, नियंत्रण) में आरएनए के अभिव्यक्ति स्तर को देख रहे हैं और उन जीनों को खोजने की कोशिश कर रहे हैं जो दो समूहों में भिन्न रूप से व्यक्त किए जाते हैं। इस मामले में, प्रभाव आकार स्वयं भी वास्तव में सार्थक नहीं है। ऐसा इसलिए है क्योंकि विभिन्न जीनों की अभिव्यक्ति का स्तर इतने बेतहाशा भिन्न होता है कि कुछ जीनों के लिए 2x उच्च अभिव्यक्ति होने का कोई मतलब नहीं है, जबकि अन्य कसकर विनियमित जीन पर, 1.2x उच्चतर अभिव्यक्ति घातक है। तब प्रभाव आकार का वास्तविक परिमाण वास्तव में तब होता है जब समूहों की तुलना पहले की जाती है। परन्तु आपवास्तव में, वास्तव में यह जानना चाहते हैं कि क्या जीन की अभिव्यक्ति समूहों और परिवर्तन की दिशा के बीच बदलती है! इसके अलावा, कई तुलनाओं के मुद्दों को संबोधित करना बहुत मुश्किल है (जिसके लिए आप एक ही रन में उनमें से 20,000 कर रहे हैं) आत्मविश्वास अंतरालों की तुलना में यह पी-मानों के साथ है।