जहाँ तक महत्व परीक्षण (या कुछ और जो अनिवार्य रूप से महत्व परीक्षण के रूप में एक ही बात करता है) जाता है, मैंने लंबे समय से सोचा है कि ज्यादातर स्थितियों में सबसे अच्छा दृष्टिकोण एक मानकीकृत प्रभाव आकार का अनुमान लगाने की संभावना है, जिसके बारे में 95% विश्वास अंतराल है प्रभावी आकार। वहाँ वास्तव में कुछ भी नया नहीं है - गणितीय रूप से आप उनके बीच आगे और पीछे फेरबदल कर सकते हैं - यदि 'शून्य' नल के लिए पी-मान <.05 है, तो 0 एक 95% CI के बाहर झूठ होगा, और vise versa। इसका लाभ, मेरी राय में, मनोवैज्ञानिक है; वह है, यह उन सलामी सूचनाओं को बनाता है जो मौजूद हैं लेकिन वे लोग नहीं देख सकते हैं जब केवल पी-मूल्यों की सूचना दी जाती है। उदाहरण के लिए, यह देखना आसान है कि एक प्रभाव बेतहाशा 'महत्वपूर्ण' है, लेकिन हास्यास्पद रूप से छोटा है; या 'गैर-महत्वपूर्ण', लेकिन केवल इसलिए कि त्रुटि बार बहुत बड़ी हैं, जबकि अनुमानित प्रभाव कम या ज्यादा है जिसकी आपको उम्मीद थी। इन्हें कच्चे मूल्यों और उनके CI के साथ जोड़ा जा सकता है।
अब, कई क्षेत्रों में कच्चे मूल्य आंतरिक रूप से सार्थक हैं, और मुझे लगता है कि यह सवाल उठाता है कि क्या यह अभी भी प्रभाव के आकार के उपायों की गणना करने के लिए सार्थक है, यह देखते हुए कि हमारे पास पहले से ही साधन और ढलान जैसे मूल्य हैं। एक उदाहरण के लिए वृद्धि देखी जा सकती है; हम जानते हैं कि एक 20 वर्षीय, गोरे पुरुष का 6 +/- 2 इंच छोटा (यानी 15 +/- 5 सेमी) होने का क्या मतलब है, क्योंकि वे अन्यथा ऐसा करेंगे, इसलिए उल्लेख क्यों करें ? मुझे लगता है कि दोनों की रिपोर्टिंग में अभी भी मूल्य हो सकता है, और इनकी गणना करने के लिए फ़ंक्शन लिखे जा सकते हैं, ताकि यह बहुत कम अतिरिक्त काम हो, लेकिन मैं मानता हूं कि राय अलग-अलग होगी। किसी भी दर पर, मेरा तर्क है कि आत्मविश्वास अंतराल के साथ बिंदु अनुमान मेरी प्रतिक्रिया के पहले भाग के रूप में पी-मूल्यों को प्रतिस्थापित करते हैं। d=−1.6±.5
दूसरी ओर, मुझे लगता है कि एक बड़ा सवाल यह है कि 'क्या वह चीज है जिसका महत्व परीक्षण वास्तव में हम चाहते हैं?' मुझे लगता है कि वास्तविक समस्या यह है कि अधिकांश लोग डेटा का विश्लेषण कर रहे हैं (अर्थात, चिकित्सक सांख्यिकीविद् नहीं हैं), महत्व परीक्षण डेटा विश्लेषण की संपूर्णता बन सकता है। यह मुझे लगता है कि सबसे महत्वपूर्ण बात यह है कि हमारे डेटा के साथ क्या चल रहा है, और अशक्त परिकल्पना महत्व परीक्षण के बारे में सोचने के लिए एक राजसी तरीका है, सबसे अच्छा, उस का एक बहुत छोटा हिस्सा है। मुझे एक काल्पनिक उदाहरण दें (मैं स्वीकार करता हूं कि यह एक कैरिकेचर है, लेकिन दुर्भाग्य से, मुझे डर है कि यह कुछ हद तक प्रशंसनीय है:
बॉब एक अध्ययन आयोजित करता है, जो कुछ-या-अन्य पर डेटा एकत्र करता है। उन्हें उम्मीद है कि डेटा को सामान्य रूप से वितरित किया जाएगा, कुछ मूल्य के आसपास कसकर क्लस्टरिंग करेगा, और यह देखने के लिए एक नमूना-परीक्षण करने का इरादा रखता है कि क्या उसका डेटा कुछ पूर्व-निर्दिष्ट मूल्य से 'काफी अलग' है या नहीं। अपना नमूना एकत्र करने के बाद, वह यह देखने के लिए जांचता है कि क्या उसका डेटा सामान्य रूप से वितरित किया गया है, और पाता है कि वे नहीं हैं। इसके बजाय, उनके पास केंद्र में एक स्पष्ट गांठ नहीं है, लेकिन किसी दिए गए अंतराल पर अपेक्षाकृत अधिक है और फिर एक लंबी बाईं पूंछ के साथ निशान है। बॉब को इस बात की चिंता है कि उसे यह सुनिश्चित करने के लिए क्या करना चाहिए कि उसका परीक्षण वैध है। वह कुछ कर रहा है (जैसे, एक परिवर्तन, एक गैर पैरामीट्रिक परीक्षण, आदि), और फिर एक परीक्षण सांख्यिकीय और एक पी-मूल्य की रिपोर्ट करता है।
मुझे उम्मीद है कि यह बुरा नहीं होगा। मेरा मतलब किसी का मजाक उड़ाना नहीं है, लेकिन मुझे लगता है कि ऐसा कभी-कभार होता है। क्या यह परिदृश्य घटित होना चाहिए, हम सभी सहमत हो सकते हैं कि यह खराब डेटा विश्लेषण है। हालाँकि, समस्या यह नहीं है कि परीक्षण आँकड़ा या पी-मान गलत है; हम यह बता सकते हैं कि डेटा को उस संबंध में ठीक से संभाला गया था। मैं तर्क दूंगा कि समस्या बॉब की है जो क्लीवलैंड ने "रोटेट डेटा विश्लेषण" कहा है। वह मानता है कि एकमात्र बिंदु सही पी-मूल्य प्राप्त करना है, और उस लक्ष्य का पीछा करने के बाहर उसके डेटा के बारे में बहुत कम सोचता है। वह भी ऊपर मेरे सुझाव पर जा सकता है और 95% विश्वास अंतराल के साथ एक मानकीकृत प्रभाव आकार की सूचना दी है, और यह नहीं बदला है कि मैं बड़ी समस्या के रूप में क्या देखता हूं (यह वही है जो मैं "अनिवार्य रूप से एक ही बात कर रहा हूं" "एक अलग तरीके से)। इस विशिष्ट मामले में, तथ्य यह है कि डेटा जिस तरह से वह उम्मीद नहीं करता था (यानी, सामान्य नहीं थे) वास्तविक जानकारी है, यह दिलचस्प है, और संभवतः बहुत महत्वपूर्ण है, लेकिन यह जानकारी अनिवार्य रूप से सिर्फ दूर फेंक दी जाती है। महत्व परीक्षण पर ध्यान केंद्रित करने के कारण बॉब इसे मान्यता नहीं देता है। मेरे दिमाग में, यही असली समस्या है महत्व परीक्षण के साथ।
मुझे कुछ अन्य दृष्टिकोणों का उल्लेख करना चाहिए जिनका उल्लेख किया गया है, और मैं बहुत स्पष्ट होना चाहता हूं कि मैं किसी की आलोचना नहीं कर रहा हूं।
- यह अक्सर उल्लेख किया जाता है कि बहुत से लोग वास्तव में पी-मूल्यों को नहीं समझते हैं (उदाहरण के लिए, यह सोचते हुए कि वे संभावना शून्य हैं सच है), आदि। कभी-कभी यह तर्क दिया जाता है कि, यदि केवल लोग बायेसियन दृष्टिकोण का उपयोग करेंगे, तो ये समस्याएं होंगी। चले जाओ। मेरा मानना है कि लोग बायेसियन डेटा विश्लेषण को इस तरीके से कर सकते हैं, जो कि असाध्य और यांत्रिक है। हालांकि, मुझे लगता है कि पी-वैल्यू के अर्थ को समझने में गलतफहमी कम हानिकारक होगी अगर किसी को नहीं लगता कि पी-वैल्यू प्राप्त करना लक्ष्य है।
- 'बड़ा डेटा' का अस्तित्व आम तौर पर इस मुद्दे से असंबंधित है। बड़ा डेटा केवल यह स्पष्ट करता है कि 'विश्लेषण' के आसपास डेटा विश्लेषण का आयोजन एक सहायक दृष्टिकोण नहीं है।
- मुझे विश्वास नहीं है कि समस्या की परिकल्पना परीक्षण के साथ है। यदि लोग केवल यह देखना चाहते थे कि अनुमानित मूल्य एक अंतराल के बाहर है, बजाय अगर यह एक बिंदु मान के बराबर है, तो कई समान मुद्दे उत्पन्न हो सकते हैं। (फिर से, मैं स्पष्ट होना चाहता हूं मुझे पता है कि आप 'बॉब' नहीं हैं ।)
- रिकॉर्ड के लिए, मैं यह उल्लेख करना चाहता हूं कि पहले पैराग्राफ से मेरा अपना सुझाव, मुद्दे को संबोधित नहीं करता है , जैसा कि मैंने इंगित करने की कोशिश की।
मेरे लिए, यह मुख्य मुद्दा है: जो हम वास्तव में चाहते हैं वह सोचने के लिए एक राजसी तरीका है । किसी भी स्थिति में इसका मतलब है कि कट और सूखा नहीं है। एक तरीके से छात्रों को यह बताने का तरीका कक्षा में न तो स्पष्ट है और न ही आसान है। महत्व परीक्षण के पीछे बहुत जड़ता और परंपरा है। एक आँकड़े वर्ग में, यह स्पष्ट है कि क्या सिखाया जाना चाहिए और कैसे। छात्रों और चिकित्सकों के लिए सामग्री को समझने के लिए एक वैचारिक स्कीमा विकसित करना संभव हो जाता है, और विश्लेषण करने के लिए एक चेकलिस्ट / फ़्लोचार्ट (मैंने कुछ देखा है!)। महत्त्वपूर्ण परीक्षण स्वाभाविक रूप से किसी भी गूंगा या आलसी या बुरा होने के बिना रॉट डेटा विश्लेषण में विकसित हो सकता है। यही समस्या है।