आपके वितरण और आपके प्रभाव आकार के कुछ विचार के बिना आपके पास एक रोक नियम नहीं हो सकता है - जिसे आप प्राथमिकता नहीं जानते हैं।
इसके अलावा, हमें प्रभाव आकार पर ध्यान केंद्रित करने की आवश्यकता है - और इसे केवल पी-मूल्यों पर विचार करने के लिए सही नहीं माना गया है, और हमें निश्चित रूप से टेबल या ग्राफ़ नहीं दिखाए जाने चाहिए जो प्रभाव आकार के बजाय पी-मान या एफ-मान दिखाते हैं।
पारंपरिक सांख्यिकीय परिकल्पना आविष्कार परीक्षण के साथ समस्याएं हैं (जो कोहेन का कहना है कि इसके संक्षिप्त रूप से योग्य है, और फिशर और पियर्सन दोनों कब्रों में बदल जाएंगे यदि उन्होंने देखा कि यह सब उनके हिंसक विरोध वाले नामों में किया जा रहा है)।
एन को निर्धारित करने के लिए, आपको पहले से ही एक लक्ष्य महत्व और शक्ति सीमा निर्धारित करने की आवश्यकता है, साथ ही वितरण के बारे में बहुत सारी धारणाएं बनाना चाहिए, और विशेष रूप से आपको उस प्रभाव का आकार निर्धारित करना होगा जिसे आप स्थापित करना चाहते हैं। इंडोलरिंग बिल्कुल सही है कि यह प्रारंभिक बिंदु होना चाहिए - न्यूनतम प्रभाव का आकार कितना प्रभावी होगा!
"न्यू स्टेटिस्टिक्स" संबंधित मानक विचलन या विचरण (क्योंकि हमें वितरण को समझने की आवश्यकता है), और मानक विचलन या आत्मविश्वास अंतराल (लेकिन बाद वाला पहले से ही है) के साथ प्रभाव के आकार (उचित रूप में अंतर के रूप में) को दिखाने की वकालत कर रहा है। पी-वैल्यू में लॉक करना और इस बारे में निर्णय लेना कि आप किसी दिशा या प्रत्येक तरीके से शर्त लगा रहे हैं)। लेकिन एक वैज्ञानिक भविष्यवाणी के साथ निर्दिष्ट संकेत का एक न्यूनतम प्रभाव सेट करना, यह स्पष्ट करता है - हालांकि पूर्व-वैज्ञानिक डिफ़ॉल्ट परीक्षण और त्रुटि करना है और बस मतभेदों की तलाश करना है। लेकिन अगर आप इस तरह से जाते हैं तो फिर से आपने सामान्यता के बारे में धारणा बना ली है।
एक अन्य दृष्टिकोण बॉक्स-भूखंडों को एक गैर-पैरामीट्रिक दृष्टिकोण के रूप में उपयोग करना है, लेकिन मूंछ और आउटलेयर के बारे में सम्मेलनों में व्यापक रूप से भिन्नता है और फिर भी स्वयं वितरण योग्य मान्यताओं में उत्पन्न होती है।
रोकने की समस्या वास्तव में एक व्यक्तिगत शोधकर्ता की स्थापना या एन की स्थापना नहीं करने की समस्या नहीं है, लेकिन हमारे पास हजारों शोधकर्ताओं का एक पूरा समुदाय है, जहां पारंपरिक 0.05 स्तर के लिए 1000 1 / अल्फा से बहुत अधिक है। उत्तर वर्तमान में मेटा-विश्लेषण की सुविधा के लिए सारांश आँकड़े (मतलब, stddev, stderr - या संबंधित "गैर-पैरामीट्रिक संस्करण - माध्यिका आदि) प्रदान करने का प्रस्ताव है, और सभी प्रयोगों से संयुक्त परिणाम प्रस्तुत करें कि क्या हो रहा है या नहीं एक विशेष अल्फा स्तर तक पहुँच गया है या नहीं।
बारीकी से संबंधित कई परीक्षण समस्या है, जो कठिनाई से भरा है, और जहां प्रयोगों को शक्ति के संरक्षण के नाम पर रखा जाता है, वहीं परिणामों का विश्लेषण करने के लिए ओवरकॉम्पलेक्स कार्यप्रणाली प्रस्तावित की जाती है।
मुझे नहीं लगता कि कोई पाठ्य पुस्तक अध्याय हो सकता है जो इस निश्चित रूप से अभी तक निपटा हो, क्योंकि हमें अभी भी कम ही पता है कि हम क्या कर रहे हैं ...
फिलहाल, सबसे अच्छा तरीका यह है कि सारांश आंकड़ों को प्रदर्शित करने के साथ-साथ प्रभाव और मानक त्रुटि और एन सबसे महत्वपूर्ण होने के साथ संयुक्त रूप से समस्या के लिए सबसे उपयुक्त पारंपरिक आंकड़ों का उपयोग करना जारी रखें। आत्मविश्वास अंतराल का उपयोग मूल रूप से संबंधित टी-परीक्षण के बराबर है, लेकिन नए परिणामों की तुलना अधिक प्रकाशित करने की अनुमति देता है, साथ ही साथ एक लोकाचार को प्रोत्साहित करने वाले प्रजनन और प्रजनन प्रयोगों और मेटा-विश्लेषण के प्रकाशन की अनुमति देता है।
सूचना सिद्धांत या बायेसियन दृष्टिकोण के संदर्भ में, वे विभिन्न उपकरणों का उपयोग करते हैं और विभिन्न धारणाएं बनाते हैं, लेकिन फिर भी सभी उत्तर या तो नहीं होते हैं, और अंत में समान समस्याओं का सामना करते हैं, या इससे भी बदतर होते हैं, क्योंकि बायेसियन निष्कर्ष एक निश्चित बनाने से पीछे हटते हैं। उत्तर और सिर्फ साक्ष्य या अनुपस्थित पुजारियों के सापेक्ष साक्ष्य जोड़ता है।
अंत में मशीन लर्निंग के भी परिणाम हैं जिनके लिए महत्व पर विचार करने की आवश्यकता है - अक्सर सीआई या टी-टेस्ट के साथ, अक्सर ग्राफ़ के साथ, उम्मीद है कि तुलना करने की बजाय केवल बाँधना, और जब वितरण मैच नहीं करते हैं तो उचित रूप से मुआवजे वाले संस्करणों का उपयोग करना। बूटस्ट्रैपिंग और क्रॉस-वैरिफिकेशन, और पूर्वाग्रह और विचरण के बारे में भी इसके विवाद हैं। सबसे बुरी बात यह है कि यह वैकल्पिक मॉडल के असंख्य उत्पन्न करने और परीक्षण करने की प्रवृत्ति है, कई टूलबॉक्स में से सभी एल्गोरिदम को पूरी तरह से पैरामीटर करके, डेटासेट पर लागू किया गया है जो कि अनब्राल्ड मल्टीपल टेस्टिंग की अनुमति देने के लिए विचारशील रूप से संग्रहीत है। सबसे बुरा अभी भी अंधेरे युग में सटीकता, या बदतर अभी भी एफ-उपाय, मूल्यांकन के लिए उपयोग कर रहा है - बजाय मौका-सही तरीकों के।
मैंने इन मुद्दों पर दर्जनों पेपर पढ़े हैं, लेकिन पूरी तरह से आश्वस्त करने में कुछ भी खोजने में विफल रहे हैं - नकारात्मक सर्वेक्षण या मेटा-एनालिसिस पेपर्स को छोड़कर, जो यह संकेत देते हैं कि अधिकांश शोधकर्ता किसी भी "मानक के संबंध में आंकड़ों को ठीक से नहीं समझते और व्याख्या करते हैं। ”, पुराना या नया। पावर, मल्टीपल टेस्टिंग, साइजिंग और अर्ली स्टॉपिंग, स्टैण्डर्ड एरर्स एंड कॉन्फिडेंस इंटरवल की व्याख्या, ... ये कुछ मुद्दे हैं।
कृपया मुझे गोली मार दें - मैं गलत साबित होना चाहूंगा! मेरे विचार में नहाने का पानी बहुत है, लेकिन हमें अभी तक बच्चा नहीं मिला है! इस स्तर पर कोई भी अतिवादी विचार या नाम-ब्रांड दृष्टिकोण उत्तर के रूप में आशाजनक नहीं दिखता है, और जो लोग बाकी सब कुछ बाहर फेंकना चाहते हैं वे शायद बच्चे को खो चुके हैं।