एएसए सीमाओं की सीमाओं पर चर्चा करता है - विकल्प क्या हैं?


100

हमारे पास पहले से ही कई थ्रेड्स हैं जिन्हें रूप में टैग किया गया है जो उनके बारे में बहुत सी गलतफहमियों को प्रकट करते हैं। दस महीने पहले हमारे पास मनोवैज्ञानिक पत्रिका केpपी बारे में एक सूत्र था कि "प्रतिबंधित" -values , अब अमेरिकन सांख्यिकीय एसोसिएशन (2016) का कहना है कि हमारे विश्लेषण के साथ "हमें एक -value की गणना के साथ समाप्त नहीं होना चाहिए "।p

अमेरिकन स्टैटिस्टिकल एसोसिएशन (एएसए) का मानना ​​है कि वैज्ञानिक समुदाय औपचारिक कथन से लाभान्वित हो सकता है, जो पल्लु के उचित उपयोग और व्याख्या के सिद्धांतों पर व्यापक रूप से सहमत कई स्पष्ट करता है ।p

समिति संभव विकल्पों या करने के लिए पूरक आहार के रूप में अन्य तरीकों को सूचीबद्ध -values:p

-values ​​के बारे में प्रचलित दुरूपयोगों और भ्रांतियों के मद्देनजर, कुछ सांख्यिकीविद् अन्य दृष्टिकोणों के साथ -values को पूरक या प्रतिस्थापित करना पसंद करते हैं । इनमें वे विधियाँ शामिल हैं जो परीक्षण पर अनुमान पर बल देती हैं, जैसे कि विश्वास, विश्वसनीयता, या भविष्यवाणी अंतराल; बायेसियन तरीके; साक्ष्य के वैकल्पिक उपाय, जैसे कि संभावना अनुपात या बेयस कारक; और अन्य दृष्टिकोण जैसे निर्णय-सैद्धांतिक मॉडलिंग और झूठी खोज दरें। ये सभी उपाय और दृष्टिकोण आगे की मान्यताओं पर भरोसा करते हैं, लेकिन वे अधिक सीधे एक प्रभाव (और इसकी संबंधित अनिश्चितता) के आकार को संबोधित कर सकते हैं या क्या परिकल्पना सही है।पीpp

तो आइए कल्पना करते हैं पोस्ट- -रियलिटी की। एएसए कुछ तरीकों को सूचीबद्ध करता है जिनका उपयोग -values ​​के स्थान पर किया जा सकता है , लेकिन वे बेहतर क्यों हैं? उनमें से कौन सा एक शोधकर्ता के लिए वास्तविक जीवन प्रतिस्थापन हो सकता है जिसने अपने पूरे जीवन के लिए -values ​​का उपयोग किया था ? मुझे लगता है कि इस तरह के सवाल पोस्ट- -रियलिटी में दिखाई देंगे , तो हो सकता है कि हम उनसे एक कदम आगे बढ़ने की कोशिश करें। उचित विकल्प क्या है जिसे आउट-ऑफ-द-बॉक्स लागू किया जा सकता है? इस दृष्टिकोण को आपके प्रमुख शोधकर्ता, संपादक या पाठकों को क्यों मानना ​​चाहिए?पी पी पीpppp

जैसा कि इस अनुवर्ती ब्लॉग प्रविष्टि से पता चलता है, -values ​​उनकी सादगी में अपराजेय हैं:p

पी-मान को धारण करने के लिए अशक्त परिकल्पना के तहत एक आंकड़े के व्यवहार के लिए केवल एक सांख्यिकीय मॉडल की आवश्यकता होती है। भले ही एक वैकल्पिक परिकल्पना का एक मॉडल "अच्छा" आँकड़ा चुनने के लिए उपयोग किया जाता है (जिसका उपयोग पी-मूल्य के निर्माण के लिए किया जाएगा), यह वैकल्पिक मॉडल पी-मूल्य के लिए सही होने के लिए सही नहीं है उपयोगी (अर्थात: वास्तविक प्रभाव का पता लगाने के लिए कुछ शक्ति की पेशकश करते समय वांछित स्तर पर नियंत्रण प्रकार I त्रुटि)। इसके विपरीत, अन्य (अद्भुत और उपयोगी) सांख्यिकीय तरीके जैसे कि लाइकेलिहाइड अनुपात, प्रभाव आकार अनुमान, आत्मविश्वास अंतराल, या बायेसियन तरीके सभी को मानने वाले मॉडल की आवश्यकता होती है स्थितियों की एक विस्तृत श्रृंखला में, न कि केवल परीक्षण के तहत।

क्या वे, या शायद यह सच नहीं है और हम उन्हें आसानी से बदल सकते हैं?

मुझे पता है, यह व्यापक है, लेकिन मुख्य सवाल सरल है: क्या सबसे अच्छा (और क्यों), वैल्यू का वास्तविक जीवन विकल्प है जिसे प्रतिस्थापन के रूप में इस्तेमाल किया जा सकता है?p


एएसए (2016)। सांख्यिकीय महत्व और सिद्धांतों पर एएसए स्टेटमेंट । P अमेरिकी सांख्यिकीविद्। (मुद्रणालय में)


3
एक क्लासिक प्रश्न +1 बनने के लिए बाध्य! बायेसियन दृष्टिकोण, क्योंकि यह हमें (कम से कम विषयगत) उस प्रश्न का उत्तर देने की अनुमति देता है जिसमें हम अक्सर रुचि रखते हैं, अर्थात: "सबूत (डेटा) के प्रकाश में, क्या संभावना है कि परिकल्पना सच है?"
क्रिस्टोफ हांक

9
"बाद के -value वास्तविकता" इसे करने के लिए एक अच्छा मनहूस अंगूठी है। p
मार्क क्लेसेन

4
एएसए के बयान के साथ पोस्ट किए गए चर्चा पत्र पढ़ने लायक हैं क्योंकि उनमें से कुछ में पी-मूल्यों को बदलने के बारे में सुझाव दिए गए हैं। अनुपूरक सामग्री
सेठ

2
मैंने एएसए रिपोर्ट के एक अन्य भाग के आधार पर एक संबंधित प्रश्न पोस्ट किया है, इसकी एक चेतावनी पी-वैल्यू के संभावित दुरुपयोग के बारे में है: हम पी-हैकिंग के बारे में कितना जानते हैं?
सिल्वरफिश

1
: मेरे अपने प्रश्न के लिए एक टिप्पणी के रूप में, वहाँ एक अच्छा धागा है कि इसी तरह विषय पर चर्चा है stats.stackexchange.com/questions/17897/...
टिम

जवाबों:


100

मैं इस उत्तर को उस विशिष्ट प्रश्न पर केंद्रित करूंगा, जो -values के विकल्प हैं ।p

कर रहे हैं 21 चर्चा पत्र एएसए बयान के साथ प्रकाशित (सहायक सामग्री के रूप में): नाओमी ऑल्टमैन, डगलस ऑल्टमैन, डैनियल जे बेंजामिन, योआव बेंजमिनी, जिम बर्गर, डॉन बेरी, जॉन कार्लिन, जॉर्ज कॉब, एंड्रयू गेल्मैन, स्टीव गुडमैन द्वारा, सैंडर ग्रीनलैंड, जॉन आयोनिडिस, जोसेफ होरोविट्ज़, वेलन जॉनसन, माइकल लेविन, माइकल लेव, रॉड लिटिल, डेबोरा मेयो, मिशेल मिलर, चार्ल्स पूले, केन रोथमैन, स्टीफन सेन, डैलिंग स्टैंगल, फिलिप स्टार्क और स्टीव ज़िलक (उनमें से कुछ ने एक साथ लिखा है) ; मैं भविष्य की खोजों के लिए सभी सूची)। इन लोगों को शायद के बारे में सभी मौजूदा राय को कवर -values और सांख्यिकीय निष्कर्ष।p

मैंने सभी 21 पत्रों को देखा है।

दुर्भाग्य से, उनमें से अधिकांश किसी भी वास्तविक विकल्प पर चर्चा नहीं करते हैं, भले ही बहुमत सीमाओं के बारे में हो, गलतफहमी हो, और अंतराल के साथ कई अन्य समस्याएं ( बचाव की रक्षा के लिए , बेंजामिनी, मेयो और सेनी देखें)। यह पहले से ही सुझाव देता है कि विकल्प, यदि कोई हो, को ढूंढना और / या बचाव करना आसान नहीं है।पीpp

तो आइए हम एएसए स्टेटमेंट में दिए गए "अन्य दृष्टिकोण" की सूची देखें (जैसा कि आपके प्रश्न में उद्धृत किया गया है):

[अन्य तरीकों] में वे विधियाँ शामिल हैं जो परीक्षण पर अनुमान पर जोर देती हैं, जैसे कि विश्वास, विश्वसनीयता या भविष्यवाणी अंतराल; बायेसियन तरीके; साक्ष्य के वैकल्पिक उपाय, जैसे कि संभावना अनुपात या बेयस कारक; और अन्य दृष्टिकोण जैसे निर्णय-सैद्धांतिक मॉडलिंग और झूठी खोज दरें।

  1. विश्वास अंतराल

    आत्मविश्वास अंतराल एक निरंतरवादी उपकरण है जो हैंडल्स के साथ हाथ से जाता है ; अंतराल के साथ एक विश्वास अंतराल (या कुछ समतुल्य, उदाहरण के लिए, माध्य मानक त्रुटि) की रिपोर्टिंग लगभग हमेशा एक अच्छा विचार है।± पीp±p

    कुछ लोगों को (नहीं एएसए विवादी के अलावा) का सुझाव है कि विश्वास के अंतराल चाहिए की जगह -values। इस दृष्टिकोण के सबसे मुखर समर्थकों में से एक ज्यॉफ कमिंग है जो इसे नए आंकड़े (एक ऐसा नाम जिसे मैं भयावह लगता है) कहता हूं। विस्तृत क्रिटिक के लिए उलरिच शिमेक द्वारा इस ब्लॉग पोस्ट को देखें: कमिंग की एक महत्वपूर्ण समीक्षा (2014) नई सांख्यिकी: नए सांख्यिकी के रूप में पुराने सांख्यिकी को फिर से बेचना । यह भी देखें कि हम संबंधित बिंदु के लिए उरी सिमोनसोहन द्वारा लैब ब्लॉग पोस्ट में प्रभाव आकार का अध्ययन करने का जोखिम नहीं उठा सकते हैंp

    नॉर्मल मैटलॉफ़ के इस अनौपचारिक सुझाव के बारे में भी इस सूत्र को (और मेरे उत्तर को) देखें जहाँ मैं तर्क देता हूँ कि जब CI की रिपोर्टिंग करना चाहते हैं, तब भी -values ​​को रिपोर्ट करना चाहेंगे: एक अच्छा, ठोस उदाहरण क्या है जिसमें p-मान उपयोगी हैं?p

    हालांकि, कुछ अन्य लोग (एएसए विवादों में से नहीं हैं), हालांकि, तर्क देते हैं कि विश्वास अंतराल, एक निरंतरवादी उपकरण होने के नाते, अंतराल के रूप में गुमराह हैं और इसका भी निपटारा किया जाना चाहिए। देखें, जैसे, मोरे एट अल। 2015, द कॉन्फिडेंस ऑफ प्लासिंग कॉन्फिडेंस इन कॉन्फिडेंस इंटरव्यूज @Tim द्वारा यहां टिप्पणियों में जोड़ा गया है। यह बहुत पुरानी बहस है।p

  2. बायेसियन तरीके

    (मुझे पसंद नहीं है कि एएसए बयान सूची कैसे तैयार करता है। विश्वसनीय अंतराल और बेयर्स कारक "बायेसियन विधियों" से अलग सूचीबद्ध हैं, लेकिन वे स्पष्ट रूप से बायेसियन उपकरण हैं। इसलिए मैं उन्हें यहां एक साथ गिनता हूं।)

    • बेयसियन बनाम अक्सरवादी बहस पर एक विशाल और बहुत राय वाला साहित्य है। देखें, उदाहरण के लिए, कुछ विचारों के लिए यह हालिया सूत्र: जब (यदि कभी) एक लगातार दृष्टिकोण एक बायेसियन की तुलना में बेहतर है? अगर एक अच्छा जानकारीपूर्ण महंतों है, और हर कोई केवल गणना करने के लिए और रिपोर्ट में खुशी होगी बायेसियन विश्लेषण कुल समझ में आता है या के बजाय ofपी ( एच 0 : θ = 0 | डेटा ) पी ( डेटा कम से कम के रूप में चरम | एच 0 )p(θ|data)p(H0:θ=0|data)p(data at least as extreme|H0)-लेकिन, आमतौर पर लोगों के पास अच्छे पुजारी नहीं होते हैं। एक प्रयोगकर्ता 20 चूहों को एक स्थिति में कुछ कर रहा है और 20 चूहे एक ही स्थिति में एक ही काम कर रहे हैं; भविष्यवाणी यह ​​है कि पूर्व चूहों का प्रदर्शन बाद के चूहों के प्रदर्शन को पार कर जाएगा, लेकिन कोई भी तैयार नहीं होगा या वास्तव में प्रदर्शन के मतभेदों से पहले एक स्पष्ट वर्णन करने में सक्षम होगा। (लेकिन @ फ्रैंकहेलर का जवाब देखें जहां वह "संदेहपूर्ण पादरियों" का उपयोग करने की वकालत करता है।)

    • डाई-हार्ड बायेसियन का सुझाव है कि भले ही किसी भी जानकारीपूर्ण पुजारी न हों, बायेसियन तरीकों का उपयोग करें। एक हालिया उदाहरण Krushke, 2012 है, बायेसियन का अनुमान टेस्टेस्टt , विनम्रतापूर्वक संक्षिप्त रूप में BEST के रूप में है। ब्याज के प्रभाव (जैसे, जैसे, एक समूह का अंतर) के लिए पश्च की गणना करने के लिए कमजोर अनइन्फॉर्मेटिव पादरियों के साथ बायेसियन मॉडल का उपयोग करने का विचार है। अक्सर तर्कवादी तर्क के साथ व्यावहारिक अंतर आमतौर पर मामूली लगता है, और जहां तक ​​मैं देख सकता हूं यह दृष्टिकोण अलोकप्रिय है। देखें कि "अनइनफॉर्मेटिव प्रीवियस" क्या है? क्या हम कभी भी सही मायने में कोई जानकारी नहीं रख सकते? "अनइनफॉर्मेटिव" क्या है की चर्चा के लिए (उत्तर: ऐसी कोई बात नहीं है, इसलिए विवाद)।

    • एक वैकल्पिक दृष्टिकोण, हेरोल्ड जेफ्री पर वापस जाना, बायेसियन परीक्षण पर आधारित है (जैसा कि बायेसियन अनुमान के विपरीत ) और बेयस कारकों का उपयोग करता है। अधिक वाक्पटु और विपुल समर्थकों में से एक एरिक-जान वेगेनमेकर्स हैं, जिन्होंने हाल के वर्षों में इस विषय पर बहुत कुछ प्रकाशित किया है । इस दृष्टिकोण की दो विशेषताएं यहां जोर देने योग्य हैं। सबसे पहले, Wetzels et al।, 2012 को देखें, ANOVA डिज़ाइन्स के लिए एक डिफ़ॉल्ट बायेसियन हाइपोथीसिस टेस्ट, केवल इस बात के दृष्टांत के लिए कि इस तरह के बायेसियन टेस्ट के परिणाम वैकल्पिक परिकल्पना की विशिष्ट पसंद पर निर्भर कर सकते हैं पीH1और पैरामीटर वितरण ("पूर्व") यह प्रस्तुत करता है। दूसरा, एक बार "उचित" पूर्व चुने जाने के बाद (वेगेनमेकर्स जेफ़रीज़ को तथाकथित "डिफ़ॉल्ट" पुजारी कहते हैं), जिसके परिणामस्वरूप बेयस कारक अक्सर मानक -values ​​के साथ काफी सुसंगत हो जाते हैं, उदाहरण के लिए देखें मार्समैन के इस प्रस्ताव से यह आंकड़ा वैगनमेकर :p

      पी बनाम मूल्यों के कारक

      तो जबकि Wagenmakers एट अल। इस बात पर जोर देते रहें कि -values ​​में गहराई से खराबी है और बेयस कारक जाने का रास्ता है, कोई आश्चर्य नहीं कर सकता ... (निष्पक्ष होना, Wetzels et al। 2011 की बात यह है कि -values ​​के लिए केवल Bayes कारकों के करीब है अशक्त के खिलाफ बहुत कमजोर साक्ष्य को इंगित करें; लेकिन ध्यान दें कि यह आसानी से एक लगातार प्रतिमान में निपटाया जा सकता है बस एक अधिक कड़े का उपयोग करके , कुछ ऐसा है जो बहुत सारे लोग वैसे भी वकालत कर रहे हैं।) पी 0.05 αpp0.05α

      Wagenmakers एट अल द्वारा अधिक लोकप्रिय कागजात में से एक। बेयस कारकों की रक्षा में 2011 है, क्यों मनोवैज्ञानिकों को अपने डेटा का विश्लेषण करने का तरीका बदलना चाहिए: साई का मामला जहां वह तर्क देता है कि भविष्य की भविष्यवाणी करने पर कुख्यात बेम का पेपर उनके दोषपूर्ण निष्कर्ष पर नहीं पहुंचा होगा यदि केवल बेयस कारकों का उपयोग किया गया था के -values। उलरिक शिमैक द्वारा एक विस्तृत (और IMHO समझाने) प्रति-तर्क के लिए इस विचारशील ब्लॉग पोस्ट को देखें: मनोवैज्ञानिकों को अपने डेटा का विश्लेषण करने के तरीके को क्यों नहीं बदलना चाहिए: शैतान डिफ़ॉल्ट प्रायर में हैp

      यह भी देखें डिफ़ॉल्ट बायेसियन टेस्ट उरी सिमोनसोहन द्वारा छोटे प्रभाव ब्लॉग पोस्ट के खिलाफ पूर्वाग्रहित है

    • पूर्णता के लिए, मुझे लगता है कि उल्लेख Wagenmakers 2007, की व्यापक समस्याओं के लिए एक व्यावहारिक समाधान -valuesp Bayes कारक के लिए एक सन्निकटन के रूप में उपयोग करने के लिए बीआईसी को बदलने के लिए सुझाव दिया -values। बीआईसी पूर्व पर निर्भर नहीं करता है और इसलिए, इसके नाम के बावजूद, वास्तव में बायेसियन नहीं है; मुझे यकीन नहीं है कि इस प्रस्ताव के बारे में क्या सोचना है। ऐसा लगता है कि हाल ही में वेगेनमेकर्स बेइन्फ़रेटिव जेफ़रीज़ के पुजारियों के साथ बायेसियन परीक्षणों के पक्ष में हैं, ऊपर देखें।p


    बेयस अनुमान बनाम बायेसियन परीक्षण की आगे की चर्चा के लिए, बायेसियन पैरामीटर अनुमान या बायेसियन परिकल्पना परीक्षण देखें? और उसमें लिंक।

  3. न्यूनतम बेयर्स कारक

    एएसए विवादों के बीच, यह बेंजामिन और बर्जर द्वारा और वेलन जॉनसन (केवल दो कागजात जो सभी एक ठोस विकल्प का सुझाव देने के बारे में हैं) द्वारा स्पष्ट रूप से सुझाए गए हैं। उनके विशिष्ट सुझाव थोड़े अलग हैं लेकिन वे आत्मा में समान हैं।

    • बर्जर के विचारों के लिए वापस जाने बर्गर और Sellke 1987 और वहाँ कागजात के एक नंबर बर्गर, Sellke, और सहयोगियों ऊपर से जब तक पिछले साल इस काम पर व्याख्या। विचार यह है कि स्पाइक और स्लैब के नीचे जहां बिंदु null परिकल्पना को संभाव्यता मिलती है और अन्य सभी मूल्यों को संभाव्यता मिलती है ("स्थानीय विकल्प") के आसपास सममित रूप से फैलती है , फिर न्यूनतम पश्च सभी स्थानीय विकल्पों पर, यानी न्यूनतम बेयस कारक , प्वॉइल से बहुत अधिक है । यह (बहुप्रतीक्षित) दावे का आधार हैμ=00.5μ0.50p(H0)pp -values अशक्त के खिलाफ "सबूत बढ़ा-चढ़ा कर"। सुझाव यह है कि बे-फैक्टर के बजाय -वेल्यू के बजाय बेयस फैक्टर पर एक कम बाउंड का उपयोग किया जाए ; कुछ व्यापक मान्यताओं के तहत, यह निचली बाउंड द्वारा दी जाती है , यानी, -value को प्रभावी रूप से by से गुणा किया जाता है , जो आम के लिए लगभग से का कारक है अंतराल की सीमा । इस दृष्टिकोण को स्टीवन गुडमैन ने भी समर्थन दिया है।peplog(p)pelog(p)1020p

      बाद में अपडेट: इन विचारों को सरल तरीके से समझाते हुए एक अच्छा कार्टून देखें ।

      बाद में भी अपडेट: हेल्ड एंड ओट, 2018 कोp देखें , व्यापक समीक्षा के लिए वैल्यू और बेय फैक्टर पर और न्यूनतम बे कारकों के लिए मार्गों को परिवर्तित करने के लिए और विश्लेषण । यहाँ एक टेबल है:p

      मिनिनम बेयर्स कारक

    • वैलेन जॉनसन ने अपने पीएनएएस 2013 के पेपर में कुछ इसी तरह का सुझाव दिया ; उनके सुझाव पर लगभग उबलता है, जिससे वैल्यू को गुणा करने के लिए जो लगभग से ।p4πlog(p)510


    जॉनसन के पेपर की एक संक्षिप्त आलोचना के लिए, पीएनएएस में एंड्रयू जेलमैन और @ शीआन का जवाब देखें । बर्जर एंड सेलके 1987 के प्रतिवाद के लिए, कैसला और बर्जर 1987 (अलग बर्गर!) देखें। एपीए चर्चा पत्रों के बीच, स्टीफन सेन् ने इनमें से किसी भी दृष्टिकोण के खिलाफ स्पष्ट रूप से तर्क दिया है:

    त्रुटि प्रायिकताएँ पूर्ववर्ती संभावनाएँ नहीं हैं। निश्चित रूप से, वैल्यू की तुलना में सांख्यिकीय विश्लेषण के लिए बहुत कुछ है लेकिन उन्हें दूसरी श्रेणी के बायेसियन पोस्टीरियर संभावित बनने के लिए किसी तरह से विकृत होने के बजाय अकेले छोड़ दिया जाना चाहिए।P

    मेयो के ब्लॉग में भी सन्दर्भ के पेपर देखें।

  4. एएसए स्टेटमेंट "निर्णय-सैद्धांतिक मॉडलिंग और झूठी खोज दरों" को एक अन्य विकल्प के रूप में सूचीबद्ध करता है। मुझे पता नहीं है कि वे किस बारे में बात कर रहे हैं, और स्टार्क द्वारा चर्चा पत्र में कहा गया यह देखकर मुझे खुशी हुई:

    "अन्य दृष्टिकोण" खंड इस तथ्य की अनदेखी करता है कि उन तरीकों में से कुछ की धारणाएं अंतराल के समान हैं । वास्तव में, कुछ विधियाँ इनपुट के रूप में -values ​​का उपयोग करती हैं (उदाहरण के लिए, गलत डिस्कवरी दर)।pp


मुझे बहुत संदेह है कि ऐसा कुछ भी है जो वास्तविक वैज्ञानिक व्यवहार में -values को बदल सकता है जैसे कि समस्याएँ जो अक्सर -values ​​(प्रतिकृति संकट, -hacking, आदि) से जुड़ी होती हैं, दूर हो जाती हैं। किसी भी तय निर्णय प्रक्रिया, जैसे एक बायेसियन एक, शायद के रूप में "काट दिया" किया जा सकता है उसी तरह से -values हो सकता है -hacked (कुछ चर्चा करते हैं और इस के प्रदर्शन के लिए देखने के उरी Simonsohn द्वारा इस 2014 ब्लॉग पोस्ट )।ppppp

एंड्रयू जेलमैन के चर्चा पत्र से उद्धृत करने के लिए:

संक्षेप में, मैं AS-a के कथन के साथ -values पर सहमत हूं लेकिन मुझे लगता है कि समस्याएँ अधिक गहरी हैं, और इसका समाधान -values ​​में सुधार करना या उन्हें किसी अन्य सांख्यिकीय सारांश या सीमा के साथ प्रतिस्थापित करना है, बल्कि अनिश्चितता की एक बड़ी स्वीकृति की ओर बढ़ते हैं और भिन्नता को गले लगाते हैं।pp

और स्टीफन सन् से:

संक्षेप में, समस्या प्रति- साथ कम है, लेकिन उनमें से एक मूर्ति बनाने के साथ। एक और झूठे भगवान को प्रतिस्थापित करने से मदद नहीं मिलेगी।P

और यहां बताया गया है कि कोहेन ने इसे अपने जाने-माने और अति-उद्धृत (3.5k उद्धरण) 1994 के पेपर द अर्थ राउंड ( ) में रखा है,p<0.05 जहां उन्होंने वे के खिलाफ बहुत दृढ़ता से तर्क दिया :p

[...] NHST के लिए एक जादुई विकल्प की तलाश नहीं है, इसे बदलने के लिए कुछ अन्य उद्देश्य यांत्रिक अनुष्ठान। यह मौजूद नहीं है।


1
@amoeba धन्यवाद, यह एक महान सारांश है! मैं आपके संशय से सहमत हूँ - यह सूत्र आंशिक रूप से उत्पन्न हुआ क्योंकि मैं इसे साझा करता हूं। इन क्षणों में मैं धागे को खुला छोड़ देता हूं - बिना किसी स्वीकृत उत्तर के - जैसे कि कोई व्यक्ति उदाहरण और तर्क देने में सक्षम होगा कि कुछ सही, अच्छा विकल्प मौजूद है।
टिम

1
: Wagenmakers और बीआईसी के बारे में @amoeba यह आलोचना, Gelman द्वारा जैसे के साथ तुलना करना अच्छा है andrewgelman.com/2008/10/23/i_hate_bic_blah
टिम

2
यह वास्तव में प्रभावशाली उत्तर है जो सीवी पर शीर्ष मतदान के जवाबों में से एक है। मैं टिम के कुछ समय बाद एक और इनाम जोड़ सकता हूं।
गंग

धन्यवाद, @gung, मुझे यह सुनकर खुशी हुई, इसका मतलब है कि आप से बहुत कुछ आ रहा है। हालांकि मुझे यह कहना चाहिए कि मैं केवल बेइज़ियन परीक्षण से परिचित हूं और इसके साथ शून्य हाथ का अनुभव है। तो यह जवाब मैं क्या पढ़ रहा है का एक सारांश प्रदान करता है, लेकिन यह वास्तव में एक विशेषज्ञ की राय नहीं है।
अमीबा

1
नहीं, आपको अच्छी तरह से काम करने के लिए बेयस से पहले एक सूचनात्मक की आवश्यकता नहीं है। जैसा कि स्पीगलहेल्टर ने इतनी अच्छी तरह से दिखाया है, संदेहपूर्ण पुजारियों की एक प्रमुख भूमिका है और इसका उपयोग करना आसान है। बायेसियन पोस्टीरियर संभावनाओं के बड़े फायदे हैं।
फ्रैंक हरेल

27

यहाँ मेरे दो सेंट हैं।

मुझे लगता है कि कुछ बिंदु पर, कई लागू वैज्ञानिकों ने निम्नलिखित "प्रमेय" कहा:

प्रमेय 1: p-value<0.05my hypothesis is true.

और अधिकांश बुरी प्रथाएँ यहाँ से आती हैं।

-value और वैज्ञानिक प्रेरणp

मैं आँकड़ों का उपयोग करते हुए लोगों के साथ काम करता था, वास्तव में इसे समझे बिना और यहाँ कुछ सामान है जो मैं देख रहा हूँ:

  1. "अच्छा" एक खोजने तक कई संभावित परीक्षण / पुनरावर्तन (डेटा के वितरण को एक बार देखे बिना) चलाने से: एक देने वाला ;p<0.05

  2. डेटा देने के लिए अलग-अलग प्रीप्रोसेसिंग (उदाहरण के लिए मेडिकल इमेजिंग) में कोशिश कर रहा है कि जब तक कोई डेटा न दे ;p<0.05

  3. डेटा के लिए सकारात्मक दिशा में सकारात्मक प्रभाव के साथ और नकारात्मक प्रभाव (!!) के साथ डेटा के लिए नकारात्मक दिशा में एक-पूंछ वाले टी-टेस्ट को लागू करके तक पहुंचें ।0.05

यह सब अच्छी तरह से पढ़े-लिखे, ईमानदार वैज्ञानिकों द्वारा किया जाता है, जिनके पास धोखा देने की कोई मजबूत सनसनी नहीं है। क्यों ? आईएमएचओ, प्रमेय के कारण 1।

एक निश्चित समय पर, लागू वैज्ञानिक अपनी परिकल्पना में दृढ़ता से विश्वास कर सकते हैं। मुझे यह भी संदेह है कि वे मानते हैं कि वे जानते हैं कि वे सच हैं और तथ्य यह है कि कई स्थितियों में उन्होंने सालों से डेटा देखा है, काम करते हुए, सोते हुए, उनके बारे में सोचा है ... और वे उत्तर के बारे में कुछ कहने के लिए सबसे अच्छे हैं इस सवाल के लिए। तथ्य यह है उनके मन में है (खेद मुझे लगता है कि मैं यहाँ अभिमानी दिखते हैं) प्रमेय 1 से, अगर वे परिकल्पना सच है, -value से कम होना चाहिए ; कोई फर्क नहीं पड़ता कि डेटा की मात्रा क्या है, उन्हें कैसे वितरित किया जाता है, वैकल्पिक परिकल्पना, आकार प्रभाव, डेटा अधिग्रहण की गुणवत्ता। यदि -value नहीं हैp0.05p<0.05और परिकल्पना सच है, तो कुछ सही नहीं है: प्रीप्रोसेसिंग, परीक्षण की पसंद, वितरण, अधिग्रहण प्रोटोकॉल ... इसलिए हम उन्हें बदलते हैं ... -value केवल वैज्ञानिक प्रेरण की अंतिम कुंजी है।p<0.05

इस बिंदु पर, मैं दो पिछले उत्तरों से सहमत हूं कि विश्वास अंतराल या विश्वसनीय अंतराल सांख्यिकीय उत्तर को चर्चा और व्याख्या के लिए अधिक उचित बनाते हैं। जबकि -value व्याख्या करना मुश्किल है (IMHO) और चर्चा समाप्त होता है, अंतराल अनुमान एक वैज्ञानिक प्रेरण उद्देश्य आंकड़ों के रूप में रेखांकित की सेवा लेकिन विशेषज्ञ तर्क हो सकता है।p

-value और वैकल्पिक परिकल्पनाp

Th.1 का एक और परिणाम यह है कि अगर है -value तो वैकल्पिक परिकल्पना गलत है। फिर यह एक ऐसी चीज है जिसका मैं कई बार सामना करता हूं:p>0.05

  1. तुलना करने की कोशिश (सिर्फ इसलिए कि हम डेटा है) प्रकार का एक परिकल्पना : दो समूहों में से प्रत्येक के लिए बेतरतीब ढंग से 10 डेटा अंक लेने, गणना के लिए -value । पता लगाएं , मस्तिष्क के कुछ हिस्से में ध्यान दें कि दोनों समूहों के बीच कोई अंतर नहीं है।H0:μ1μ2pH0p=0.2

के साथ एक मुख्य मुद्दा -value कि वैकल्पिक जबकि मुझे लगता है कि कई मामलों में यह एक बहुत मदद कर सकता है का उल्लेख नहीं किया गया है। एक विशिष्ट उदाहरण बिंदु 4. है, जहां मैंने अपने सहयोगी को बनाम लिए अनुपात की गणना करने का प्रस्ताव दिया और 3 जैसा कुछ प्राप्त किया (मुझे यह पता है) आंकड़ा हास्यास्पद कम है)। शोधकर्ता मुझसे पूछता है कि क्या इसका मतलब यह है कि संभाव्यता कि उन से 3 गुना अधिक मजबूत है।pp(μ1>μ2|x)p(μ1<μ2|x)μ1>μ2μ2>μ1। मैंने उत्तर दिया कि यह व्याख्या करने का एक तरीका है और उसे यह अद्भुत लगता है और उसे अधिक डेटा देखना चाहिए और एक पेपर लिखना चाहिए ... मेरा कहना है कि यह "3" उसे समझने में मदद नहीं करता है कि डेटा में कुछ है (फिर से 3 स्पष्ट रूप से आभामंडल है) लेकिन यह रेखांकित करता है कि वह पी-मूल्य को "पी-वैल्यू> 0.05 का अर्थ है कि कुछ भी दिलचस्प / समकक्ष समूह नहीं है" के रूप में गलत व्याख्या करता है। इसलिए मेरी राय में, हमेशा कम से कम वैकल्पिक परिकल्पना पर चर्चा (एस!) अनिवार्य है, सरलीकरण से बचने की अनुमति देता है, बहस करने के लिए तत्व देता है।

एक अन्य संबंधित मामला है जब विशेषज्ञ चाहते हैं:

  1. test । इसके लिए वे परीक्षण करते हैं और को अस्वीकार करते हैं, फिर निष्कर्ष कि एमएल अनुमानों का आदेश दिया जाता है।μ 1 = μ 2 = μ 3 μ 1 > μ 2 > μ 3μ1>μ2>μ3μ1=μ2=μ3μ1>μ2>μ3

वैकल्पिक परिकल्पना का उल्लेख इस मामले को हल करने के लिए एकमात्र समाधान है।

तो पीछे की ओर बाधाओं, बेयस कारक या संभावना अनुपात का उपयोग आत्मविश्वास / विश्वसनीय अंतराल के साथ मुख्य शामिल मुद्दों को कम करने के लिए लगता है।

के आम अशुद्ध अर्थ -value / विश्वास के अंतराल एक अपेक्षाकृत मामूली दोष (व्यवहार में) हैp

जबकि मैं एक बायेसियन उत्साही हूं, मुझे वास्तव में लगता है कि वेव्यू और सीआई की आम गलत व्याख्या (यानी पॉवेल की संभावना नहीं है कि शून्य परिकल्पना झूठी है और सीआई अंतराल नहीं है जिसमें 95 के साथ पैरामीटर मान है % मौका) इस सवाल के लिए मुख्य चिंता का विषय नहीं है (जबकि मुझे यकीन है कि यह एक दार्शनिक दृष्टिकोण से एक प्रमुख बिंदु है)। इस "संकट" में व्यवसायी की मदद करने के लिए बायेसियन / फ़्रीक्वेंटिस्ट के विचार में दोनों प्रासंगिक उत्तर हैं। पीpp

मेरे दो सेंट निष्कर्ष

विश्वसनीय अंतराल और बेयस फैक्टर या पोस्टर्ड ऑड्स का उपयोग करना, जो मैं विशेषज्ञों के साथ अपने अभ्यास में करने की कोशिश करता हूं (लेकिन CI + संभावना अनुपात में भी उत्साहित हूं)। मैं कुछ साल पहले मुख्य रूप से वेब से सेल्फ स्टडी (इसलिए कई मान्य पार से धन्यवाद!) के आंकड़ों पर आया था और इसलिए आसपास कई आंदोलन के साथ बड़ा हुआ । मुझे नहीं पता कि मेरा अभ्यास अच्छा है या नहीं, लेकिन यह वह है जो मैं व्यावहारिक रूप से कुशल होने और अपना काम ठीक से करने के बीच एक अच्छा समझौता मानता हूं।p


हो सकता है कि आप अपने उदाहरण को अधिक स्पष्ट रूप से संपादित कर सकें क्योंकि अब तक आप क्या गणना कर रहे थे, क्या डेटा था और कहां से नंबर आए थे?
टिम

@Tim। फीडबाक के लिए। आप किस उदाहरण का उल्लेख कर रहे हैं?
pehhp

: "10 और 10 डेटा, गणना पी-मूल्य लेने के पी का पता लगाएं = 0.2 .... एक परिकल्पना तुलना करने के लिए (सिर्फ इसलिए कि हम डेटा है) की कोशिश करो।"
टिम

1
मुझे यह भी नहीं लगता कि आपकी परिकल्पना "जानना" सत्य है, भले ही डेटा सुझाव दे अन्यथा जरूरी है। यह स्पष्ट रूप से है कि कैसे ग्रेगर मेंडल को होश आया जब उनके प्रयोगों में कुछ गड़बड़ थी, क्योंकि उनके पास इतनी मजबूत अंतर्ज्ञान था कि उनके सिद्धांत सही थे।
dsaxton

@dsaxton पूरी तरह से आपके साथ सहमत हैं। शायद यह इतना स्पष्ट नहीं है, लेकिन यह एक ऐसी चीज है जिसे मैं अपने 1 बिंदु में स्पष्ट करने की कोशिश करता हूं: पी-वैल्यू वैज्ञानिक प्रेरण की अंतिम कुंजी नहीं है (जबकि यह एक निश्चित दर्शकों के लिए प्रतीत होता है)। यह कुछ शर्तों पर, डेटा की एक निश्चित राशि द्वारा गवाही देने का एक सांख्यिकीय मापक है। और ऐसे मामले में जहां आपके पास सोचने के लिए बहुत सारे बाहरी कारण हैं कि हाइप सच है लेकिन जब डेटा "अच्छा" पी मूल्य प्रदान करता है, तो अन्य बातों पर चर्चा की जा सकती है क्योंकि आपने इसका उल्लेख किया था। मैं अपने एवियर में इसे स्पष्ट करने की कोशिश करूंगा।
पीयूएचपी

24

उपयोग के लिए मेरे द्वारा जारी किए जा रहे एकमात्र कारण हैंP

  1. बायेसियन विधियों की तुलना में लगातार सॉफ्टवेयर के लिए अधिक सॉफ्टवेयर उपलब्ध है।
  2. वर्तमान में, कुछ बायेसियन विश्लेषणों को चलने में लंबा समय लगता है।
  3. बायेसियन विधियों में अधिक सोच और अधिक समय के निवेश की आवश्यकता होती है। मैं सोच के हिस्से को बुरा नहीं मानता लेकिन समय अक्सर कम होता है इसलिए हम शॉर्टकट लेते हैं।
  4. बूटस्ट्रैप एक अत्यधिक लचीली और उपयोगी रोजमर्रा की तकनीक है जो बेयसियन की तुलना में लगातार दुनिया से जुड़ा हुआ है।

पीP अंतराल, सटीकता समस्या के रूप में अत्यधिक समस्याग्रस्त संवेदनशीलता और विशिष्टता के अनुरूप, मेरी विनम्र राय में अत्यधिक कमी है। इन तीनों उपायों के साथ समस्या यह है कि वे समय और सूचना के प्रवाह को उलट देते हैं। जब आप एक प्रश्न को मोड़ते हैं कि "इस तरह के सबूत मिलने की संभावना क्या है यदि प्रतिवादी निर्दोष है" तो "सबूत के आधार पर प्रतिवादी के अपराध की संभावना क्या है", चीजें अधिक सुसंगत और कम मनमानी हो जाती हैं। रिवर्स टाइम में रीजनिंग से आपको यह विचार करना होगा कि "हम यहां कैसे पहुंचे?" "अब क्या सबूत है?" के विपरीत। -values ​​को इस बात पर विचार करने की आवश्यकता है कि जो हुआ उसके बजाय क्या हो सकता हैक्या हो सकता थाP बनाता है एक को मनमाने ढंग से गुणा समायोजन करना पड़ता है, यहां तक ​​कि डेटा के लिए समायोजन भी दिखता है जिसने प्रभाव डाला हो सकता है लेकिन वास्तव में नहीं।

जब -values ​​को अत्यधिक मनमाने निर्णय थ्रेसहोल्ड के साथ जोड़ा जाता है, तो चीजें खराब हो जाती हैं। थ्रेसहोल्ड लगभग हमेशा गेमिंग को आमंत्रित करते हैं।P

गाऊसी रैखिक मॉडल और घातांक वितरण को छोड़कर, लगभग हर चीज जो हम अक्सर निरंतरता के साथ करते हैं, अनुमानित है (एक अच्छा उदाहरण द्विआधारी उपस्कर मॉडल है जो समस्याओं का कारण बनता है क्योंकि इसकी लॉग संभावना फ़ंक्शन बहुत गैर-द्विघात है)। बायेसियन इंट्रेंस के साथ, सिमुलेशन त्रुटि के भीतर सब कुछ सटीक है (और आप हमेशा अधिक संभावनाएं प्राप्त कर सकते हैं ताकि पोस्टीरियर संभावनाएं / विश्वसनीय अंतराल मिल सकें)।

मैंने http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html पर अपनी सोच और निष्कासन का अधिक विस्तृत लेखा-जोखा लिखा है


3
(+1) आप कैसे प्रस्ताव करते हैं कि हम अधिक सांसारिक प्रश्नों को संभालें जैसे कि "क्या इस उपचार का कोई प्रभाव है?" जहाँ हम सभी के बारे में परवाह कर सकते हैं एक सरल हाँ / कोई जवाब नहीं है। क्या हमें अभी भी इन स्थितियों में अंतराल के साथ दूर करना चाहिए ? p
dsaxton

2
फ्रैंक, मैं बिल्कुल नहीं देखता कि यह इस सवाल का जवाब कैसे देता है कि विकल्प के विकल्प क्या हैं ; क्या आप स्पष्ट कर सकते हैं? एक टी-टेस्ट के कुछ विशिष्ट अनुप्रयोग की कल्पना करें: कहते हैं, एक प्रायोगिक 40 चूहों के कुछ प्रदर्शन उपायों के साथ, 20 प्रायोगिक और 20 नियंत्रण जानवरों के साथ आपके पास आता है। वे जानना चाहते हैं कि क्या प्रयोगात्मक हेरफेर प्रदर्शन को बदल देता है (एक अनुमानित दिशा में)। आमतौर पर वे एक टी-टेस्ट या रैंकम टेस्ट चलाते हैं और एक पी-वैल्यू (एक साथ साधन, एसडी, शायद समूह के अंतर के लिए विश्वास अंतराल, आदि) की रिपोर्ट करते हैं। इसके बजाय आप क्या करने का सुझाव देंगे? p
अमीबा

3
मेरा पसंदीदा तरीका एक बायेसियन सेमीपैरमेट्रिक मॉडल का उपयोग करना होगा, उदाहरण के लिए, बायेसियन आनुपातिक ऑड्स ऑर्डिनल लॉजिस्टिक रिग्रेशन, फिर ब्याज के प्रभाव के लिए एक विश्वसनीय अंतराल और पीछे की संभावनाएं प्राप्त करें। यह विलकॉक्सन परीक्षण का एक सामान्यीकरण है। अगर मैं पैरामीट्रिक जाना चाहता था तो मैं बॉक्स और टियाओ एक्सटेंशन के बायेसियन टेस्ट का उपयोग करूंगा जो गैर-सामान्यता की डिग्री के लिए पूर्व वितरण की अनुमति देता है। t
फ्रैंक हरेल

1
फ्रैंक, धन्यवाद। मैं बायेसियन परीक्षण से बहुत परिचित नहीं हूं (और इससे पहले बॉक्स और टियाओ के बारे में नहीं सुना है), लेकिन मेरी सामान्य धारणा यह है कि बायेस कारक जो एक बायेसियन परीक्षण से बाहर निकलता है, वह अनइंफॉर्मेशन से पहले की विशेष पसंद पर काफी मजबूती से निर्भर कर सकता है। अंदर जाता है, और इन विकल्पों को प्रेरित करना मुश्किल हो सकता है। मुझे लगता है कि वही विश्वसनीय अंतराल के लिए जाता है - वे दृढ़ता से एक असंगत पूर्व की पसंद पर निर्भर करेंगे। क्या यह सच नहीं है? यदि यह है, तो इससे कैसे निपटना चाहिए?
अमीबा

2
हां, हालांकि मैं बेयस कारकों का उपयोग नहीं करता हूं। लगातार दृष्टिकोण एक पूर्व भी चुनता है - एक जो विषय के बारे में अन्य सभी ज्ञान की उपेक्षा करता है। मैं स्पीगलहेल्टर के संदेह पूर्व दृष्टिकोण को पसंद करता हूं। एक आदर्श दुनिया में आप अपने संदेह को पूर्व प्रदान करेंगे।
फ्रैंक हरेल

6

व्हार्टन के एक ब्रिलिएंट फोरकास्टर स्कॉट आर्मस्ट्रांग ने लगभग 10 साल पहले एक लेख प्रकाशित किया था, जिसका शीर्षक था कि उन्होंने सह-स्थापना की गई एक पत्रिका के अंतरराष्ट्रीय जर्नल में पूर्वानुमान लगाने के लिए महत्वपूर्ण टेस्ट हारम प्रोग्रेस । हालांकि यह पूर्वानुमान में है, इसे किसी भी डेटा विश्लेषण या निर्णय लेने के लिए सामान्यीकृत किया जा सकता है। लेख में उन्होंने कहा कि:

"सांख्यिकीय महत्व के परीक्षण वैज्ञानिक प्रगति को नुकसान पहुँचाते हैं। इस निष्कर्ष के अपवादों को खोजने का प्रयास, आज तक, कोई भी नहीं हुआ है।"

महत्व परीक्षण और पी मूल्यों के प्रतिपक्षी दृष्टिकोण में रुचि रखने वाले किसी भी व्यक्ति के लिए यह एक उत्कृष्ट रीड है।

इस लेख को मैं क्यों पसंद करता हूं इसका कारण यह है कि आर्मस्ट्रांग महत्त्वपूर्ण परीक्षण के विकल्प प्रदान करता है जो कि सुसाइड है और मुझे जैसे गैर-सांख्यिकीविद के लिए आसानी से समझा जा सकता है। यह प्रश्न में उद्धृत एएसए लेख की तुलना में मेरी राय में बहुत बेहतर है:यहाँ छवि विवरण दर्ज करें

जब से मैं प्रायोगिक अध्ययन या अर्ध प्रयोग कर रहा हूं, तब तक मैं सभी को गले लगाता रहता हूं और जब से महत्व परीक्षण या पी मूल्यों को देखना बंद कर देता हूं। मुझे दवा उद्योग / जीवन विज्ञान और इंजीनियरिंग में कुछ क्षेत्रों को छोड़कर यादृच्छिक प्रयोग जोड़ना चाहिए।


4
आपका क्या मतलब है "फार्मास्यूटिकल उद्योग में और इंजीनियरिंग में कुछ क्षेत्रों को छोड़कर यादृच्छिक प्रयोग व्यवहार में बहुत कम हैं"? जीव विज्ञान और मनोविज्ञान में हर जगह यादृच्छिक प्रयोग होते हैं ।
अमीबा

मैंने इसे जीवन विज्ञान को शामिल करने के लिए संपादित किया।
फोरकास्टर

2
ठीक है, लेकिन यह कहना कि रांड। exp। चिकित्सा और जीवन विज्ञान को छोड़कर "बहुत दुर्लभ" हैं और मनोविज्ञान मूल रूप से कह रहा है कि वे "बहुत सामान्य" हैं। इसलिए मुझे आपकी बात पर यकीन नहीं है।
अमीबा

6

इस सूत्र में, इस विषय पर पहले से ही अच्छी चर्चा है। लेकिन मुझे आपसे पूछना चाहिए: " क्या वास्तव में विकल्प?" पी-वैल्यू के बारे में बहुत ही हानिकारक बात यह है कि वे दो दुनियाओं के बीच रहने को मजबूर हैं: निर्णय सिद्धांत और वितरण मुक्त आँकड़े। यदि आप "p <0.05" के विकल्प की तलाश कर रहे हैं, तो एक निर्णय सिद्धांत के रूप में अध्ययन को सकारात्मक / नकारात्मक या महत्वपूर्ण / गैर-महत्वपूर्ण के रूप में परिभाषित करने के लिए तो मैं आपको बताता हूं: प्रश्न का आधार त्रुटिपूर्ण है। आप ईजाद और बनाने के लिए कई ब्रांडेड विकल्प मिल सकता है जो ठीक उसी तार्किक कमियों है -value आधारित अनुमान।p

मैं बताता हूं कि जिस तरह से हम आधुनिक परीक्षण करते हैं वह किसी भी तरह से फिशर और नेमन-पियर्सन के सिद्धांत और दृष्टिकोण से सहमत नहीं है, जो दोनों ने आधुनिक तरीकों में बहुत योगदान दिया है। फिशर का मूल सुझाव है कि था वैज्ञानिकों गुणात्मक की तुलना करनी चाहिए अध्ययन के सत्ता में -value और वहाँ निष्कर्ष निकालनाp। मुझे अभी भी लगता है कि यह एक पर्याप्त दृष्टिकोण है, जो उन सामग्री विशेषज्ञों के हाथों में निष्कर्षों की वैज्ञानिक प्रयोज्यता का प्रश्न छोड़ देता है। अब, आधुनिक अनुप्रयोगों में हमें जो त्रुटि मिलती है वह किसी भी तरह से विज्ञान के रूप में आंकड़ों की गलती नहीं है। इसके अलावा खेलने में मछली पकड़ने, एक्सट्रपलेशन और अतिशयोक्ति है। वास्तव में, अगर (कहते हैं) एक हृदय रोग विशेषज्ञ को झूठ बोलना चाहिए और दावा करना चाहिए कि एक दवा जो औसत रक्तचाप 0.1 मिमीएचजी को कम करती है, वह "चिकित्सकीय रूप से महत्वपूर्ण है" कोई भी आँकड़े कभी भी हमें उस तरह की बेईमानी से नहीं बचाएंगे।

हमें सिद्धांतवादी सांख्यिकीय निष्कर्ष का निर्णय करने की आवश्यकता है। हमें परिकल्पना से परे सोचने का प्रयास करना चाहिए। नैदानिक ​​उपयोगिता और परिकल्पना संचालित जांच के बीच बढ़ती खाई वैज्ञानिक अखंडता से समझौता करती है। "महत्वपूर्ण" अध्ययन अत्यंत विचारोत्तेजक है, लेकिन शायद ही कभी किसी भी नैदानिक ​​सार्थक निष्कर्षों का वादा करता है।

यह स्पष्ट है यदि हम परिकल्पना संचालित परिकल्पना की विशेषताओं का निरीक्षण करते हैं:

  • कहा गया अशक्त परिकल्पना वंचित है, वर्तमान ज्ञान से सहमत नहीं है, और कारण या अपेक्षा की अवहेलना करता है।
  • लेखक जिस बिंदु को बनाने की कोशिश कर रहा है, उस परिकल्पना मूर्त हो सकती है। सांख्यिकी शायद ही कभी लेखों में बहुत चर्चा के साथ संरेखित करते हैं, लेखकों ने यह दावा किया है कि उदाहरण के लिए, उनके अवलोकन अध्ययन में सार्वजनिक नीति और आउटरीच के लिए निहितार्थ हैं।
  • परिकल्पना इस अर्थ में अधूरी है कि वे ब्याज की आबादी को पर्याप्त रूप से परिभाषित नहीं करते हैं, और अधिकाधिक विकास को बढ़ावा देते हैं

मेरे लिए, विकल्प एक मेटा-एनालिटिक दृष्टिकोण है, कम से कम एक गुणात्मक। सभी परिणामों को अन्य "समान" निष्कर्षों और मतभेदों के खिलाफ कड़ाई से लागू किया जाना चाहिए, विशेष रूप से एक्सपोजर / परिणामों के लिए उपयोग किए जाने वाले विशेष रूप से समावेश / बहिष्करण मानदंड, इकाइयों या तराजू, साथ ही प्रभाव आकार और अनिश्चितता अंतराल (जो कि 95% सीआई के साथ सबसे अच्छी तरह से संक्षेप हैं) )।

हमें स्वतंत्र पुष्टिकरण परीक्षण करने की भी आवश्यकता है। बहुत से लोगों को एक महत्वपूर्ण परीक्षण से अलग किया जाता है, लेकिन प्रतिकृति के बिना हम यह भरोसा नहीं कर सकते कि अध्ययन नैतिक रूप से किया गया था। कई लोगों ने वैज्ञानिक करियर को साक्ष्य के मिथ्याकरण से बाहर कर दिया है।


"फिशर का मूल सुझाव था कि वैज्ञानिकों को गुणात्मक रूप से अध्ययन की शक्ति के पी-मूल्य की तुलना करनी चाहिए और वहां निष्कर्ष निकालना चाहिए।" मुझे यह बात पसंद है --- क्या आपके पास एक संदर्भ है जो मैं उद्धृत कर सकता हूं जहां फिशर ने यह कहा था? यह एक बहुत बड़ा कदम होगा यदि वैज्ञानिक p <0.05 के एक साधारण डाइकोटॉमी से चले गए, केवल-थोड़ा-कम-सरल-डायकोटॉमी में: "यदि p <0.05 और शक्ति अधिक थी, तो हमारे पास काफी मजबूत सबूत हैं। यदि पी। 0.05 या शक्ति कम थी, हम इस परिकल्पना के बारे में निर्णय वापस लेंगे जब तक कि हमें अधिक डेटा नहीं मिलता। ”
दीवानी अवस्था

6

क्या पसंद किया जाता है और अध्ययन के क्षेत्र पर निर्भर क्यों होना चाहिए। लगभग 30 साल पहले मेडिकल पत्रिकाओं में लेख दिखाई देने लगे थे कि यह सुझाव दिया गया था कि वैल्यू को आत्मविश्वास के अंतराल के साथ अनुमानों द्वारा प्रतिस्थापित किया जाना चाहिए। मूल तर्क यह था कि -values ​​आपको केवल यह बताते हैं कि प्रभाव वहाँ था जबकि इसके विश्वास अंतराल के साथ अनुमान आपको बताता है कि यह कितना बड़ा था और इसका सटीक अनुमान लगाया गया है। आत्मविश्वास अंतराल विशेष रूप से महत्वपूर्ण है जब पॉवेल महत्व के पारंपरिक स्तर तक पहुंचने में विफल रहता है क्योंकि यह पाठक को यह बताने में सक्षम करता है कि क्या यह वास्तव में कोई अंतर नहीं होने के कारण संभव है या एक नैदानिक ​​रूप से भिन्न अंतर खोजने के लिए अध्ययन अपर्याप्त है।पी पीppp

लैंगमैन द्वारा मेडिकल साहित्य के दो संदर्भ हैं, (1) लैंगमैन द्वारा एमजेएस, टूवर्ड अनुमान और विश्वास अंतराल और गार्डनर एमजे और अल्टमैन के लिए महानिदेशक, {पी} मान के बजाय कॉन्फिडेंस अंतराल के हकदार हैं: अनुमान परिकल्पना परीक्षण के बजाय अनुमान


2
वास्तव में, CI प्रभाव का आकार और सटीकता नहीं दिखाता है, उदाहरण के लिए Morey et al (2015) "आत्मविश्वास अंतराल में आत्मविश्वास रखने की कमजोरी" मनोचिकित्सा बुलेटिन और समीक्षा: learnbayes.org/papers/confidenceIntervals.allacy
टिम

8
@ समय, अच्छा पेपर, मैंने इसे पहले नहीं देखा है; मुझे पनडुब्बी का उदाहरण पसंद आया। लिंक के लिए धन्यवाद। लेकिन किसी को यह कहना चाहिए कि यह सच्चे बायेसियन पक्षकारों द्वारा लिखा गया है: "गैर-बायेसियन अंतराल में अवांछनीय, यहां तक ​​कि विचित्र गुण हैं, जो किसी भी उचित विश्लेषक को इनवॉइस खींचने के साधन के रूप में अस्वीकार करने के लिए प्रेरित करेगा"। कोई भी उचित विश्लेषक! प्रभावशाली अहंकार।
अमीबा

1
@amoeba सहमत हैं, मैं केवल काउंटर-उदाहरण प्रदान कर रहा हूं, क्योंकि, मेरे लिए, यह स्पष्ट नहीं है कि विकल्प स्पष्ट और प्रत्यक्ष हैं जो पहली नजर में दिखाई दे सकते हैं।
टिम

4
जबकि दिलचस्प है कि मैं पनडुब्बी उदाहरण है कि सम्मोहक सब नहीं मिला। कोई भी सोच सांख्यिकीविद् उस तरह से उदाहरण के रूप में एक का कारण नहीं होगा। आप सोचना बंद नहीं करते हैं और सभी स्थितियों पर आंख मूंद कर लागू करते हैं, क्योंकि यह दूसरों के लिए उपयोगी है।
dsaxton

2
@amoeba: उस विशेष उद्धरण में, "गैर-बेसेसियन अंतराल" विशेष रूप से उस उदाहरण में चर्चा किए गए अंतराल को संदर्भित करता है, न कि सभी अंतराल गैर-बायेसियन तर्क द्वारा उचित हैं। यहाँ और अधिक संदर्भ के लिए देखें: stats.stackexchange.com/questions/204530/...
richarddmorey

1

मेरी पसंद पी मूल्यों का उपयोग करना जारी रखना होगा, लेकिन बस आत्मविश्वास / विश्वसनीय अंतराल और संभवतः प्राथमिक परिणामों के लिए पूर्वानुमान अंतराल जोड़ना। डगलस ऑल्टमैन (कॉन्फिडेंस के साथ सांख्यिकी, विली) द्वारा एक बहुत अच्छी किताब है, और बढ़ावा देने और एमसीएमसी दृष्टिकोण के लिए धन्यवाद, आप हमेशा यथोचित मजबूत अंतराल का निर्माण कर सकते हैं।


6
मुझे लगता है कि आप वास्तव में मुख्य प्रश्न का उत्तर नहीं देते हैं जो "वे बेहतर क्यों हैं?" / "इस दृष्टिकोण को आपके प्रमुख शोधकर्ता, संपादक या पाठकों को क्यों विश्वास दिलाना चाहिए?"। क्या आप अपनी पसंद विकसित कर सकते हैं?
पीयूएचपी

1. यह केवल वर्तमान अभ्यास को सक्षम बनाता है। 2. सीआई के साथ वैसे भी "बैकडोर महत्व परीक्षण" करने की प्रवृत्ति है, 3. महत्व परीक्षण (पी-मान या सीआई के साथ) प्रजनन दर की कम दर (टिम लैश द्वारा लेख देखें) की ओर जाता है। 4. शोधकर्ताओं को नैदानिक ​​रूप से महत्वपूर्ण सीमा या प्रभाव की सीमा निर्धारित करने के लिए परेशान नहीं किया जा सकता है।
एडम 14

1

p

  • एक अधिक परिष्कृत मॉडल विकसित करना जो लक्ष्य आबादी में परिणामों का अनुकरण करने में सक्षम हो
  • एक लक्षित आबादी की विशेषताओं को पहचानें और मापें, जिसमें एक प्रस्तावित निर्णय, उपचार या नीति को लागू किया जा सके
  • किसी लक्ष्य मात्रा की कच्ची इकाइयों जैसे जीवन वर्ष, गुणवत्ता समायोजित जीवन वर्ष, डॉलर, फसल उत्पादन आदि में एक अनुमानित हानि सिमुलेशन के माध्यम से अनुमान लगाते हैं, और उस अनुमान की अनिश्चितता का आकलन करने के लिए।

हर तरह से यह सामान्य परिकल्पना महत्व परीक्षण को नहीं रोकता है, लेकिन यह इस बात को रेखांकित करता है कि सांख्यिकीय रूप से महत्वपूर्ण निष्कर्ष वास्तविक खोज के मार्ग पर बहुत प्रारंभिक, मध्यस्थ कदम हैं और हमें शोधकर्ताओं से अपने निष्कर्षों के साथ बहुत कुछ करने की उम्मीद करनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.