सांख्यिकीय महत्व पर वर्तमान बहस के निहितार्थ


10

पिछले कुछ वर्षों में, विभिन्न विद्वानों ने वैज्ञानिक परिकल्पना परीक्षण की एक हानिकारक समस्या को उठाया है, जिसे "स्वतंत्रता की शोधकर्ता डिग्री" कहा जाता है, जिसका अर्थ है कि वैज्ञानिकों के पास अपने विश्लेषण के दौरान कई विकल्प हैं जो पी-मान <5% के साथ खोजने की दिशा में पूर्वाग्रह रखते हैं। ये अस्पष्ट विकल्प हैं, उदाहरण के लिए, किस मामले को शामिल किया जाना है, किस मामले को बाह्य रूप से वर्गीकृत किया गया है, कई मॉडल विनिर्देशन चला रहा है जब तक कि कुछ दिखाई नहीं देता है, अशक्त परिणाम प्रकाशित नहीं करते हैं, आदि (मनोविज्ञान में इस बहस को उकसाने वाला पेपर यहां है ,) एंड्रयू जेलमैन द्वारा यहां एक लोकप्रिय स्लेट लेख और अनुवर्ती बहस देखें , और टाइम पत्रिका भी इस विषय पर यहां स्पर्श करती है ।)

सबसे पहले , एक स्पष्टीकरण प्रश्न:

समय पत्रिका ने लिखा,

"0.8 की शक्ति का मतलब है कि दस सच्चे परिकल्पनाओं का परीक्षण किया गया है, केवल दो को खारिज किया जाएगा क्योंकि उनके प्रभाव डेटा में नहीं उठाए गए हैं;"

मुझे यकीन नहीं है कि यह पाठ्यपुस्तक में मुझे मिले शक्ति फ़ंक्शन की परिभाषा में कैसे फिट बैठता है, जो पैरामीटर एक फ़ंक्शन के रूप में नल को खारिज करने की संभावना है । विभिन्न हमारे पास अलग-अलग शक्ति है, इसलिए मैं उपरोक्त उद्धरण को काफी नहीं समझता हूं।θθθ

दूसरा , कुछ शोध निहितार्थ:

  1. राजनीति विज्ञान / अर्थशास्त्र के मेरे क्षेत्र में, विद्वान उपलब्ध सभी देश-वर्ष के आंकड़ों का उपयोग करते हैं। इस प्रकार, क्या हमें यहां नमूना के साथ संबंध नहीं होना चाहिए?

  2. क्या कई परीक्षण चलाने की समस्या है, लेकिन केवल एक मॉडल को रिपोर्ट करने से यह तय हो सकता है कि अनुशासन में कोई दूसरा व्यक्ति आपके पेपर का फिर से परीक्षण करेगा और मजबूत परिणाम न होने के लिए आपको तुरंत हड़ताल कर देगा? यह अनुमान लगाते हुए, मेरे क्षेत्र के विद्वानों में एक robustness checkअनुभाग शामिल करने की अधिक संभावना है , जहां वे बताते हैं कि कई मॉडल विनिर्देश परिणाम को नहीं बदलते हैं। क्या यह पर्याप्त है?

  3. एंड्रयू गेलमैन और अन्य लोग इस बात को उठाते हैं कि डेटा कोई फर्क नहीं पड़ता, यह हमेशा कुछ "पैटर्न" खोजने और प्रकाशित करने के लिए संभव होगा जो वास्तव में वहां नहीं है। लेकिन यह एक चिंता का विषय नहीं होना चाहिए, इस तथ्य को देखते हुए कि किसी भी अनुभवजन्य "पैटर्न" को एक सिद्धांत द्वारा समर्थित होना चाहिए, और एक अनुशासन के भीतर प्रतिद्वंद्वी सिद्धांत सिर्फ एक बहस / दौड़ में संलग्न होंगे कि कौन सा शिविर अधिक "पैटर्न" खोजने में सक्षम है। विभिन्न स्थानों पर। यदि कोई पैटर्न सही मायने में स्पुरियस है, तो पीछे का सिद्धांत जल्दी से नीचे गिर जाएगा जब अन्य नमूनों / सेटिंग्स में समान पैटर्न नहीं होता है। क्या यह नहीं है कि विज्ञान कैसे आगे बढ़ता है?

  4. यह मानते हुए कि अशक्त परिणाम के लिए पत्रिकाओं की वर्तमान प्रवृत्ति वास्तव में पनपेगी, क्या हमारे लिए सभी अशक्त और सकारात्मक परिणामों को एक साथ मिलाने का एक तरीका है और इस सिद्धांत पर एक अनुमान है कि वे सभी परीक्षण करने की कोशिश करते हैं?


यह भी देखें "मनोविज्ञान में थ्योरी-परीक्षण और भौतिकी: एक methodological विरोधाभास" । "शून्य परिकल्पना" आपके क्षेत्र के लिए हमेशा गलत है। उचित अनुसंधान प्रथाओं के साथ भी महत्व परीक्षण और परिकल्पना परीक्षण संभवतः अनुचित हैं।
फ्लास्क

आपका प्रश्न 1 प्रश्न के साथ संघर्ष करता है। 3. पॉलसी / अर्थशास्त्र में अन्य नमूने / सेटिंग्स उपलब्ध हैं या नहीं?
फ्लास्क

जवाबों:


11

दावा करने के लिए पी-मान का उपयोग करने के बजाय हमें रॉबर्ट एबेल्सन की सलाह का पालन करना चाहिए और मैजिक मानदंडों का उपयोग करना चाहिए:

Magnitude
Articulation
Generality
Interestingness
Credibility

एबेल्सन के बारे में अधिक जानने के लिए उनकी पुस्तक की मेरी समीक्षा देखें

और हमें प्रभाव के आकार पर ध्यान केंद्रित करना चाहिए, न कि सांख्यिकीय आउटपुट में पी-वैल्यू (कुछ प्रकार के डेटा खनन के संभावित अपवाद के साथ, जिस पर मैं बिल्कुल भी विशेषज्ञ नहीं हूं)। और प्रभाव आकारों को संदर्भ में आंका जाना चाहिए:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

एक सांख्यिकीविद् / डेटा विश्लेषक को कुछ अजीब व्यक्ति नहीं होना चाहिए, जिसका उपयोग एक ब्लैक बॉक्स की तरह किया जाता है जिसमें डेटा डाला जाता है और जिसमें से p मान प्राप्त होते हैं; वर्तमान क्षेत्र के सिद्धांतों (या उनकी कमी) और वर्तमान साक्ष्य (या उसी की कमी) को देखते हुए, उन्हें किसी क्षेत्र के डेटा के कुछ सेट के अर्थ के बारे में उचित तर्क देने के लिए डिज़ाइन किए गए शोध में सहयोगी होना चाहिए।

दुर्भाग्य से, इस दृष्टिकोण को मूल शोधकर्ताओं, डेटा विश्लेषक और जो कोई भी परिणाम की समीक्षा करता है, (जो यह एक नुकीले बालों वाला मालिक है, एक शोध समिति, एक पत्रिका संपादक या जो कोई भी) की आवश्यकता है। अजीब तरह से, यहां तक ​​कि शिक्षाविदों को भी इस तरह के विचार के विपरीत लगता है।

मेरे विचारों के बारे में अधिक जानने के लिए, यहां मैंने एक लेख लिखा है जो कि साइन्स 360 में प्रकाशित हुआ है।


4
+1 जबकि मैं निश्चित रूप से आपसे सहमत हूं, मैं कल्पना कर सकता हूं कि 'मेरा दावा MAGIC द्वारा समर्थित है' हमेशा मददगार नहीं हो सकता है :-)
मार्क क्लेसेन

1
हाँ, आपको इसे वर्तनी देना होगा, लेकिन, अगर आपने किया, मुझे लगता है कि यह काम कर सकता है: "ये बड़े प्रभाव हैं जो कुछ अपवाद हैं, बड़ी संख्या में लोगों को प्रभावित करते हैं, दिलचस्प हैं क्योंकि XXXX और विश्वसनीय हैं क्योंकि वे XXXX" शायद काम कर जाये। मैंने कोशिश करके नहीं देखा। :-)
पीटर Flom

1
हाँ; एक दावा "विश्वसनीय" है अगर कोई सिद्धांत है जो कहता है कि यह कैसे हो सकता है; अगर यह दोहराया जाता है, और इसी तरह। यदि कोई भौतिक या अन्य सैद्धांतिक व्याख्या नहीं है तो यह कम विश्वसनीय है। कम विश्वसनीय एक दावा अधिक साक्ष्य इसके लिए आवश्यक है।
पीटर Flom

2
@ विज्ञान में विश्वसनीयता को इस बात से मापा जाना चाहिए कि सिद्धांत को विकसित करने में उपयोग की जाने वाली घटनाओं का अनुमान कितनी अच्छी तरह लगाया जाता है। यह आकलन करते समय कि क्या भविष्यवाणियां अच्छी थीं, विश्वसनीयता के लिए स्वतंत्र शोधकर्ताओं द्वारा प्रतिकृति की आवश्यकता होती है। वहाँ अनुभवजन्य साक्ष्य के टन है कि महत्व परीक्षण और परिकल्पना परीक्षण दोनों वास्तव में दोनों व्यवहार को हतोत्साहित करने के लिए प्रकट होते हैं, इसके बजाय प्रकाशन पूर्वाग्रह की काउंटर उत्पादक गतिविधियों को प्रोत्साहित करते हैं और एक "महत्व" कट ऑफ की "पी-हैकिंग" करते हैं।
फ्लास्क

1
@Flask - मैं कहूंगा कि पी-मान जरूरी समस्या नहीं हैं, अधिक है कि कमजोर परिकल्पना परीक्षणों का उपयोग करना समस्या है। भौतिकी पी-मूल्यों का भी उपयोग करती है, लेकिन परिकल्पना के साथ जो बिंदु भविष्यवाणियों (यानी एक वास्तविक शून्य परिकल्पना) का नेतृत्व करती है। सिद्धांत निर्माण के लिए "सकारात्मक प्रभाव" खोजना मूल रूप से बेकार है - आपको सिद्धांत की ठीक से पुष्टि करने के लिए एक बिंदु अनुमान लगाने की आवश्यकता है।
probabilityislogic

3

सांख्यिकीय विज्ञान के क्षेत्र ने शुरू से ही इन मुद्दों को संबोधित किया है। मैं कहता हूं कि सांख्यिकीविद् की भूमिका यह सुनिश्चित करना है कि टाइप 1 त्रुटि दर निश्चित बनी रहे। तात्पर्य यह है कि गलत सकारात्मक निष्कर्ष बनाने के जोखिम को समाप्त नहीं किया जा सकता है, लेकिन इसे नियंत्रित किया जा सकता है। यह सामान्य सांख्यिकीय अभ्यास के दर्शन और नैतिकता के बजाय वैज्ञानिक अनुसंधान की बहुत बड़ी मात्रा में हमारा ध्यान आकर्षित करना चाहिए। प्रत्येक अविश्वसनीय (अविश्वसनीय) परिणाम के लिए मीडिया में सतह (या सरकारी नीति में) कम से कम 19 अन्य अविश्वसनीय परिणाम उनके शून्य निष्कर्ष के लिए नीचे गोली मार दी गई।

वास्तव में, यदि आप जाते हैं, कहते हैं, Clintrials.gov, तो आप यह देखेंगे कि अमेरिका में चल रहे फार्मास्यूटिकल एजेंटों के लिए 1,000 नैदानिक ​​परीक्षणों में अच्छी तरह से (लगभग किसी भी बीमारी के संकेत के लिए) हैं। इसका मतलब है, कि 0.001 की झूठी सकारात्मक त्रुटि दर के साथ, कम से कम 1 दवा अलमारियों पर डाली जाएगी, जिसका कोई प्रभाव नहीं है। सांख्यिकीय महत्व के लिए एक वैध सीमा के रूप में 0.05 की वैधता को बार-बार चुनौती दी गई है। विडंबना यह है कि यह केवल ऐसे सांख्यिकीविद् हैं जो 1/20 झूठी सकारात्मक त्रुटि दर का उपयोग करने में असहज महसूस करते हैं जबकि वित्तीय हितधारक (जैसा कि वे पीआई या मर्क हैं) इन-विट्रो परिणामों, सैद्धांतिक प्रमाणों या पूर्व साक्ष्य की ताकत की परवाह किए बिना विश्वासों का दृढ़ता से पीछा करेंगे। सच में, वह तप कई व्यक्तियों की एक सफल और प्रशंसनीय व्यक्तिगत गुणवत्ता है जो गैर-सांख्यिकीय भूमिकाओं में सफल होते हैं। वे आम तौर पर सांख्यिकीविदों से ऊपर बैठे होते हैं, उनके संबंधित कुलदेवताओं में, जो उस तप का लाभ उठाते हैं।

मुझे लगता है कि आपने जो समय उद्धरण दिया है वह पूरी तरह से गलत है। शक्ति शून्य की परिकल्पना को खारिज करने की संभावना है, क्योंकि यह गलत है। यह अधिक महत्वपूर्ण रूप से इस बात पर निर्भर करता है कि अशक्त परिकल्पना "झूठी" कैसे है (जो बदले में एक औसत दर्जे का प्रभाव आकार पर निर्भर करता है)। मैं शायद ही कभी शक्ति के प्रभाव के संदर्भ में बात करता हूं जिसे हम पता लगाने के लिए "दिलचस्प" समझेंगे। (उदाहरण के लिए, चरण 4 अग्नाशय के कैंसर के कीमोथैरेप्यूटिक उपचार के बाद 4 महीने का अस्तित्व दिलचस्प नहीं है, इसलिए चरण 3 के परीक्षण के लिए 5,000 व्यक्तियों की भर्ती का कोई कारण नहीं है)।

आपके द्वारा पूछे गए प्रश्नों को संबोधित करने के लिए

  1. ???

  2. बहुलता मुश्किल है क्योंकि यह डेटा को कैसे संभालना है इसके बारे में एक स्पष्ट निर्णय नियम का नेतृत्व नहीं करता है। उदाहरण के लिए, मान लें कि हम माध्य अंतर के एक सरल परीक्षण में रुचि रखते हैं। मेरे सहकर्मियों के अनंत विरोध के बावजूद, डेटा के नमूना वितरण की परवाह किए बिना, अंतर का पता लगाने के लिए एक टी-टेस्ट को अच्छी तरह से कैलिब्रेट करना आसान है। मान लीजिए हमने बारी-बारी से उनका रास्ता अपनाया। वे एक प्रसिद्ध वितरण परीक्षण के कुछ प्रकार (qqplot के अंशांकन कहते हैं) का उपयोग करके सामान्यता के लिए परीक्षण करके शुरू करेंगे। यदि डेटा पर्याप्त रूप से गैर-सामान्य दिखाई दिया, तो वे तब पूछेंगे कि क्या डेटा किसी भी ज्ञात परिवर्तन का पालन करता है, और फिर एक पॉवर ट्रांसफ़ॉर्मेशन (संभवतः लॉगरिदमिक) निर्धारित करने के लिए एक बॉक्स कॉक्स परिवर्तन लागू करता है जो एन्ट्रापी को अधिकतम करता है। यदि एक स्पष्ट संख्यात्मक मान बाहर निकलता है, वे उस परिवर्तन का उपयोग करेंगे। यदि नहीं, तो वे "वितरण मुक्त" विलकॉक्सन परीक्षण का उपयोग करेंगे। घटनाओं के इस तदर्थ क्रम के लिए, मैं यह आशा करना शुरू नहीं कर सकता कि सरल, बेवकूफ टी-परीक्षण के पर्याप्त होने पर औसत अंतर के एक साधारण परीक्षण के लिए अंशांकन और शक्ति की गणना कैसे करें। मुझे संदेह है कि इस तरह मूर्खतापूर्ण कृत्यों को हॉज के व्यापक अनुमान से गणितीय रूप से जोड़ा जा सकता है: अनुमानक जो एक विशिष्ट परिकल्पना के तहत उच्च शक्ति हैं जो हम सच होना चाहते हैं। बहरहाल, यह प्रक्रिया है s superefficient अनुमान: वे अनुमानक जो एक विशिष्ट परिकल्पना के तहत उच्च शक्ति हैं, जो हम सत्य होना चाहते हैं। बहरहाल, यह प्रक्रिया है s superefficient अनुमान: वे अनुमानक जो एक विशिष्ट परिकल्पना के तहत उच्च शक्ति हैं, जो हम सत्य होना चाहते हैं। बहरहाल, यह प्रक्रिया हैसांख्यिकीय नहीं क्योंकि झूठी सकारात्मक त्रुटि दर को नियंत्रित नहीं किया गया है।

  3. अवधारणा है कि रुझान "खोजा जा सकता है" ग़लती से डेटा के किसी भी यादृच्छिक सेट में संभवत: मार्टिन द्वारा लिखित लेख "मुंचसेन के सांख्यिकीय ग्रिड" में वापस आ जाता है । मशीन लर्निंग का सुनहरा बछड़ा हमसे पहले पैदा हुआ था, यह वर्तमान समय में 1984 तक एक बहुत ही रोशन करने वाली रीडिंग और तारीख है, जैसा कि हम वर्तमान में जानते हैं। वास्तव में, एक सही कहा गया परिकल्पना मिथ्या है, लेकिन हमारे डेटा संचालित समाज में टाइप 1 त्रुटियां बहुत अधिक महंगी हो गई हैं, जैसा कि वे पहले कभी नहीं थे। उदाहरण के लिए, एंटी-वैक्सीन अनुसंधान के मिथ्या प्रमाणों के कारण, जिसमें पर्टुसिस से होने वाली मौतों का एक बड़ा अनुक्रम है। वैक्सीन के सार्वजनिक क्षय को रोकने के लिए जो परिणाम सामने आए, उन्हें एकल अध्ययन से जोड़ा गया(जो, हालांकि गलत था, न तो बाहरी अनुसंधान द्वारा पुष्टि की गई थी)। परिणामों का संचालन करने और सबूतों की ईमानदारी से अच्छाई की ताकत की रिपोर्ट करने के लिए एक नैतिक प्रेरणा है। सबूत कितना मजबूत? यह आपके द्वारा प्राप्त पी-मूल्य के साथ बहुत कम है, लेकिन आपके द्वारा कहा गया पी-मूल्य महत्वपूर्ण होगा। और याद रखें, अपने डेटा को ठगना पी के मूल्य को बदल देता है, तब भी जब अंतिम पुष्टिकरण परीक्षण कुछ अलग (अक्सर बहुत छोटा) रिपोर्ट करता है।

  4. हाँ! आप कोक्रेन रिपोर्ट जैसे पत्रिकाओं द्वारा प्रकाशित मेटा-विश्लेषणों में स्पष्ट रूप से देख सकते हैं कि परीक्षा परिणामों का वितरण नॉरमल की तुलना में अधिक द्विगुणित दिखता है, केवल सकारात्मक और नकारात्मक परिणाम ही इसे पत्रिकाओं में बनाते हैं। यह साक्ष्य नैदानिक ​​व्यवहार में किसी के लिए बिल्कुल ही भ्रामक और भ्रमित करने वाला है। अगर, इसके बजाय, हम अशक्त परिणाम प्रकाशित करते हैं (जो उन अध्ययनों से आते हैं जिनके परिणाम में हम रुचि रखते थे, चाहे वे जो भी हों ), तो हम मेटा-विश्लेषणों से वास्तव में साक्ष्य और प्रतिनिधि का प्रतिनिधित्व करने की उम्मीद कर सकते हैं।


1
" एक्शन के आधार के रूप में संभावना पर" विलियम डेमिंग "गणनात्मक" और "विश्लेषणात्मक" अध्ययनों के बीच अंतर करता है। उन्होंने कहा कि प्रयोग के सटीक वातावरण पर हर प्रयोग के परिणाम सशर्त होते हैं, इसलिए सांख्यिकीविद् "टाइप I त्रुटि दर" को नियंत्रित करने का प्रयास करते हैं, जब अलग-अलग परिस्थितियों में उपचार लागू किया जाता है तो अज्ञात राशि से हमेशा दूर रहेंगे। ।
फ्लास्क

@Flask इसी तरह अंतरराष्ट्रीय अंतरिक्ष स्टेशन पर कोई भी यांत्रिक प्रक्रिया पूरी तरह से कैलिब्रेट नहीं की जाती है, लेकिन इंजीनियरों के ध्यान और त्रुटि को कम करने के लिए सुनिश्चित करने पर ध्यान दिया गया कि हमें अपने हाथों पर स्पेस ऑडिटी नहीं मिली।
एडमो

इंजीनियर (उम्मीद है) सभी अपेक्षित परिस्थितियों में घटकों का परीक्षण करते हैं और फिर उत्पन्न होने वाले मॉडल के आधार पर त्रुटि के अतिरिक्त मार्जिन को जोड़ते हैं। यह डेमिंग द्वारा वकालत किए गए व्यवहार का प्रकार है और केवल एक अध्ययन की नमूना त्रुटि का आकलन करने से कारकों के बीच उपचार या संबंध के भविष्य के प्रदर्शन के बारे में निष्कर्ष निकालने की कोशिश करने से अलग है। यह एक बहुत ही दिलचस्प अंतर है जिसे मैंने कहीं और उल्लेख नहीं किया है।
फ्लास्क

मुझे नहीं लगता कि यह कहना असंभव है कि "प्रक्रिया सांख्यिकीय नहीं है क्योंकि झूठी सकारात्मक त्रुटि दर को नियंत्रित नहीं किया गया है।" इसकी त्रुटि दर नियंत्रण के साथ अक्सर अतिसूक्ष्मवाद की तुलना में आंकड़े अधिक होते हैं, और गैर-लगातार बिट्स विज्ञान के लिए अधिक उपयोगी बिट्स हैं। आप इस विषय पर मेरे हाल ही में लिखे गए पेपर को पढ़ना पसंद कर सकते हैं: arxiv.org/abs/1311.0081
माइकल ल्यू

1
@ अदमो लगातार विद्रोह में सबूतों के किसी भी मात्रा का अभाव अनुपस्थिति वास्तव में बायेसियन (और संभावनावादी) के बीच एक लोकप्रिय राय है, लेकिन यह अच्छी तरह से मान्य है और पहले पेपर में स्पष्ट रूप से नेयमैन और पीयरसन की राय व्यक्त की गई थी, जहां उन्होंने लगातारवादी तरीकों को तैयार किया था! शायद आपको मेरा पेपर खुले दिमाग से पढ़ना चाहिए। जानकारी तो सभी को है।
माइकल ल्यू

3

सबसे पहले, मैं एक सांख्यिकीविद् नहीं हूँ, बस एक शोधकर्ता जिसने इस पर ध्यान दिया है कि पिछले कुछ वर्षों में यह पता लगाने के लिए कि मेरे आस-पास इस्तेमाल किए जा रहे तरीकों में इतनी कमी क्यों है और क्यों "जैसी बुनियादी अवधारणाओं के बारे में इतना भ्रम है" एक पी-मूल्य है? " मैं अपना दृष्टिकोण दूंगा।

सबसे पहले, एक स्पष्टीकरण प्रश्न:

टाइम पत्रिका ने लिखा,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

डेटा;"

मुझे यकीन नहीं है कि यह पाठ्यपुस्तक में मुझे मिले शक्ति फ़ंक्शन की परिभाषा में कैसे फिट बैठता है, जो कि पैरामीटर the के फ़ंक्शन के रूप में नल को खारिज करने की संभावना है। विभिन्न have के साथ हमारे पास अलग-अलग शक्ति है, इसलिए मैं उपरोक्त उद्धरण को काफी नहीं समझता हूं।

पावर θ, भिन्नता और नमूना आकार का एक कार्य है। मुझे यकीन नहीं है कि भ्रम क्या है। इसके अलावा कई मामलों के लिए जिनमें महत्व परीक्षण का उपयोग किया जाता है नी 1 की परिकल्पना = माध्य 2 हमेशा गलत होता है। इन मामलों में महत्व केवल नमूना आकार का एक कार्य है। कृपया पॉल मेहाल की "थ्योरी-टेस्टिंग इन साइकोलॉजी एंड फिजिक्स: ए मेथेडोलॉजिकल पैराडॉक्स" पढ़ें, इसने मेरे लिए कई चीजों को स्पष्ट किया और मैंने कभी पर्याप्त प्रतिक्रिया नहीं देखी। पॉल मेहाल के पास इस पर कुछ अन्य कागजात हैं जिन्हें आप उनके नाम से खोज सकते हैं।

राजनीति विज्ञान / अर्थशास्त्र के मेरे क्षेत्र में, विद्वान उपलब्ध सभी देश-वर्ष के आंकड़ों का उपयोग करते हैं। इस प्रकार, क्या हमें यहां नमूना के साथ संबंध नहीं होना चाहिए?

यदि आप सीमन्स 2011 के पेपर पढ़ते हैं तो यह केवल "पी-हैकिंग" तकनीकों में से एक है। अगर यह सच है कि केवल एक डेटा सेट है और कोई भी इसमें से चयनात्मक नमूने नहीं निकालता है, तो मुझे लगता है कि नमूना आकार के लिए कोई जगह नहीं है।

क्या कई परीक्षणों को चलाने की समस्या है, लेकिन केवल एक मॉडल की रिपोर्टिंग करने से यह तय हो सकता है कि अनुशासन में कोई दूसरा व्यक्ति आपके कागज का फिर से परीक्षण करेगा और मजबूत परिणाम न होने के लिए आपको तुरंत हड़ताल कर देगा? यह अनुमान लगाते हुए, मेरे क्षेत्र के विद्वानों में एक सुदृढ़ता जांच अनुभाग शामिल करने की अधिक संभावना है, जहां वे बताते हैं कि कई मॉडल विनिर्देश परिणाम को नहीं बदलते हैं। क्या यह पर्याप्त है?

यदि प्रकाशन प्रकाशन पूर्वाग्रह के बिना प्रतिकृति हो रही थी, तो "शून्य परिणाम की पत्रिकाओं" की कोई आवश्यकता नहीं होगी। मैं कहूंगा कि मजबूती का चेक सेक्शन अच्छा है, लेकिन शोधकर्ताओं की मौजूदगी में यह पर्याप्त नहीं है कि वे जो नतीजे मानते हैं उसे प्रकाशित करने में नाकाम रहें। इसके अलावा, मैं एक परिणाम को मजबूत नहीं मानूंगा क्योंकि एक ही डेटा पर कई विश्लेषण तकनीक एक ही निष्कर्ष पर आती हैं। एक मजबूत परिणाम वह है जो नए डेटा पर प्रभाव / सहसंबंध / आदि की सही भविष्यवाणी करता है

एक प्रतिकृति दोनों बार पी <0.05 नहीं मिल रहा है। यदि इसे पहले अध्ययन में इस्तेमाल किया गया हो तो एक अलग प्रभाव / सहसंबंध / आदि की भविष्यवाणी करते हुए सिद्धांत को अधिक मजबूत माना जाना चाहिए। मैं एक प्रभाव या सहसंबंध की उपस्थिति का उल्लेख नहीं करता, लेकिन सटीक मान या मूल्यों की संभावित सीमा की तुलना में मूल्यों की एक छोटी श्रृंखला। बढ़े हुए / कम प्रभाव या सकारात्मक / नकारात्मक सहसंबंध की उपस्थिति 100% संभावना है कि शून्य परिकल्पना झूठी होने की स्थिति में सच है। मेंहल पढ़ें।

एंड्रयू जेलमैन और अन्य लोग इस बात को उठाते हैं कि डेटा कोई फर्क नहीं पड़ता, यह हमेशा कुछ "पैटर्न" ढूंढना और प्रकाशित करना संभव होगा जो वास्तव में वहां नहीं है। लेकिन यह एक चिंता का विषय नहीं होना चाहिए, इस तथ्य को देखते हुए कि किसी भी अनुभवजन्य "पैटर्न" को एक सिद्धांत द्वारा समर्थित होना चाहिए, और एक अनुशासन के भीतर प्रतिद्वंद्वी सिद्धांत सिर्फ एक बहस / दौड़ में संलग्न होंगे कि कौन सा शिविर अधिक "पैटर्न" खोजने में सक्षम है। विभिन्न स्थानों पर। यदि कोई पैटर्न सही मायने में सहज है, तो अन्य नमूनों / सेटिंग्स में समान पैटर्न नहीं होने पर पीछे के सिद्धांत को जल्दी से समाप्त कर दिया जाएगा। क्या यह नहीं है कि विज्ञान कैसे आगे बढ़ता है?

यदि शोधकर्ता अशक्त परिणाम प्रकाशित करने में विफल हो रहे हैं तो विज्ञान ठीक से काम नहीं कर सकता है। इसके अलावा सिर्फ इसलिए कि दूसरे नमूने / सेटिंग में पैटर्न की खोज नहीं की गई थी, इसका मतलब यह नहीं है कि यह प्रारंभिक अध्ययन की शर्तों के तहत मौजूद नहीं है।

यह मानते हुए कि अशक्त परिणाम के लिए पत्रिकाओं की वर्तमान प्रवृत्ति वास्तव में पनपेगी, क्या हमारे लिए सभी अशक्त और सकारात्मक परिणामों को एक साथ मिलाने का एक तरीका है और इस सिद्धांत पर एक अनुमान है कि वे सभी परीक्षण करने की कोशिश करते हैं?

यह मेटा-विश्लेषण होगा । इस मामले में अशक्त परिणामों के बारे में कुछ भी विशेष नहीं है, इसके अलावा शोधकर्ता उन्हें प्रकाशित नहीं करते हैं क्योंकि पी-मान मनमानी सीमा से ऊपर थे। प्रकाशन पूर्वाग्रह की उपस्थिति में मेटा-विश्लेषण अविश्वसनीय है क्योंकि प्रकाशन पूर्वाग्रह से पीड़ित संपूर्ण साहित्य है। हालांकि यह उपयोगी हो सकता है, मेटा विश्लेषण एक सिद्धांत का आकलन करने के लिए कहीं अधिक हीन है कि सिद्धांत एक सटीक भविष्यवाणी करता है जो तब परीक्षण किया जाता है। प्रकाशन पूर्वाग्रह लगभग उतने मायने नहीं रखता है जितना कि नई भविष्यवाणियां स्वतंत्र हैं और स्वतंत्र समूहों द्वारा दोहराया जाता है।


समय उद्धरण के बारे में मेरा भ्रम यह है कि जब शून्य का अर्थ होता है तो पावर फ़ंक्शन को प्रतिबंधित नहीं किया जाना चाहिए। अगर मैं गलत नहीं हूं तो पावर फंक्शन का डोमेन पूरा पैरामीटर स्पेस है। और इसलिए, कोई विशेष "शक्ति 0.8" नहीं है जो एक परीक्षण के लिए असाइन कर सकता है।
2042 पर हाइजेनबर्ग

मैं इस बात से पूरी तरह सहमत हूं कि एक सिद्धांत को नए डेटा पर परीक्षण करने की आवश्यकता है। लेकिन राजनीति विज्ञान या मैक्रो इकोनॉमिक्स के मामले में, जहाँ हमारे पास केवल इतने सारे देश हैं और इतने साल हैं, क्या यह प्रयास आवश्यक रूप से विफल है?
हाइजेनबर्ग

@ हर सेकंड में जोड़ने के लिए नया डेटा है। सिद्धांत को भविष्य की भविष्यवाणी करनी चाहिए। खगोल विज्ञान में उदाहरण के लिए धूमकेतु के पदों की भविष्यवाणी की गई थी। इसके अलावा, आप एक अपेक्षित पैरामीटर मान के लिए शक्ति की गणना करते हैं। इसलिए उद्धरण के मामले में, वे एक सिद्धांत का परीक्षण करने की शक्ति का उल्लेख करेंगे जो कम से कम r = 5 के सहसंबंध की भविष्यवाणी करता है।
फ्लास्क

आर = 0.5 को स्पष्ट करने के लिए एक सिद्धांत द्वारा अनुमानित सहसंबंध का एक उदाहरण होगा।
फ्लास्क

2

मैं इसे सीधे तौर पर अशक्त परिकल्पना के परीक्षण के रूप में रखूंगा। और आम तौर पर, शून्य परिकल्पना आमतौर पर ब्याज की नहीं होती है, और "स्थिति" भी नहीं हो सकती है - विशेष रूप से प्रतिगमन प्रकार की परिकल्पना परीक्षण में। अक्सर सामाजिक विज्ञान में कोई यथास्थिति नहीं होती है, इसलिए अशक्त परिकल्पना काफी मनमानी हो सकती है। यह विश्लेषण के लिए एक बड़ा अंतर बनाता है, चूंकि प्रारंभिक बिंदु अपरिभाषित है, इसलिए विभिन्न शोध अलग-अलग अशक्त परिकल्पना के साथ शुरू हो रहे हैं, सबसे अधिक संभावना है कि उनके पास जो भी डेटा उपलब्ध है, उसके आधार पर। इसकी तुलना न्यूटन के गति के नियमों की तरह कुछ से करें - यह समझ में आता है कि यह अशक्त परिकल्पना के रूप में है, और इस प्रारंभिक बिंदु से बेहतर सिद्धांतों को खोजने का प्रयास करें।

इसके अतिरिक्त, पी-मान सही संभावना की गणना नहीं करते हैं - हम पूंछ संभावनाओं के बारे में जानना नहीं चाहते हैं, जब तक कि वैकल्पिक परिकल्पना अधिक संभावना नहीं है क्योंकि आप पूंछ में आगे बढ़ते हैं। आप वास्तव में क्या चाहते हैं कि सिद्धांत कितनी अच्छी तरह से भविष्यवाणी करता है कि वास्तव में क्या देखा गया था। उदाहरण के लिए, मान लीजिए कि मैं भविष्यवाणी करता हूं कि "लाइट शावर" का 50% मौका है, और मेरा प्रतियोगी भविष्यवाणी करता है कि 75% मौका है। यह सही हो जाता है, और हम एक हल्की बौछार का निरीक्षण करते हैं। अब जब तय करें कि कौन सा मौसम-व्यक्ति सही है, तो आपको "थंडरस्टॉर्म" का 40% मौका देने के लिए मेरी भविष्यवाणी को अतिरिक्त क्रेडिट नहीं देना चाहिए, या "थंडरस्टॉर्म" को 0% मौका देने के लिए मेरे प्रतियोगी से क्रेडिट लेना चाहिए।

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

यह कैसे हो सकता है? बेयस फैक्टर छोटे पी-मूल्य के बावजूद अशक्त परिकल्पना का समर्थन करता है? वैसे, विकल्प को देखें - इसने के अवलोकन मूल्य के लिए एक संभावना दी - विकल्प तथ्यों के लिए एक अच्छा विवरण प्रदान नहीं करता है - इसलिए अशक्त होने की संभावना अधिक है, लेकिन केवल विकल्प के सापेक्ष । ध्यान दें कि नल केवल इससे बेहतर करता है - । लेकिन यह विकल्प के मुकाबले अभी भी बेहतर है।1n+1=0.00000000960.00000011

यह विशेष रूप से उस उदाहरण के लिए सच है जो गेलमैन की आलोचना करता है - केवल वास्तव में कभी एक परिकल्पना का परीक्षण किया गया था, और बहुत अधिक नहीं सोचा गया था कि एक) विकल्प स्पष्टीकरण क्या हैं (विशेष रूप से भ्रमित और प्रभाव के लिए नियंत्रित नहीं), बी) कितना हैं पिछले अनुसंधान द्वारा समर्थित विकल्प, और सबसे महत्वपूर्ण बात, ग) वे भविष्यवाणियों को क्या बनाते हैं (यदि कोई है) जो शून्य से अलग हैं?

लेकिन ध्यान दें कि अपरिभाषित है, और मूल रूप से पूर्व सूचना के अनुरूप अन्य सभी परिकल्पना का प्रतिनिधित्व करता है। जिस तरह से आप वास्तव में परिकल्पना परीक्षण ठीक से कर सकते हैं वह एकमात्र विकल्प है जो आप तुलना करने जा रहे हैं। और यहां तक ​​कि अगर आप ऐसा करते हैं, तो कहें कि आपके पास , आप केवल इस तथ्य पर रिपोर्ट कर सकते हैं कि डेटा आपके द्वारा निर्दिष्ट सापेक्ष समर्थन करता है । यदि आप विकल्पों के सेट से महत्वपूर्ण परिकल्पना छोड़ते हैं, तो आप निरर्थक परिणाम प्राप्त करने की उम्मीद कर सकते हैं। इसके अतिरिक्त, एक दिया गया विकल्प बहुत बेहतर साबित हो सकता है कि अन्य, लेकिन फिर भी संभावना नहीं है। यदि आपके पास एक परीक्षण है जहां एक पी-मान एच1,...,एचकश्मीरएचकश्मीर0.010.1H¯H1,,HKHk0.01लेकिन एक सौ अलग-अलग परीक्षण जहां पी-मान यह बहुत अधिक संभावना है कि "सर्वश्रेष्ठ परिकल्पना" (सबसे अच्छा सच से बेहतर अर्थ है) वास्तव में "लगभग महत्वपूर्ण" परिणामों के समूह से आता है।0.1

तनाव के लिए प्रमुख बिंदु यह है कि परिकल्पना में अलगाव के लिए एक परिकल्पना कभी भी मौजूद नहीं हो सकती है। के लिए, सिद्धांतों / मॉडल को निर्दिष्ट करने के बाद , आप हमेशा एक नई परिकल्पना जोड़ सकते हैं वास्तव में इस प्रकार की परिकल्पना मूल रूप से विज्ञान की प्रगति है - किसी के पास एक नया विचार है / किसी प्रकार के प्रभाव के लिए स्पष्टीकरण, और फिर विकल्प के वर्तमान सेट के खिलाफ इस नए सिद्धांत का परीक्षण करता है । इसका बनाम और बस बनाम । सरलीकृत संस्करण केवल तभी लागू होता है जब में बहुत दृढ़ता से समर्थित परिकल्पनाH K + 1 = कुछ और अभी तक H K + 1 H 1 , , H K H 0 H A H 1 , , H K के बारे में नहीं सोचा गया है।K

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- अर्थात, वर्तमान में हमारे पास मौजूद सभी विचारों और स्पष्टीकरणों में, एक प्रमुख सिद्धांत है जो बाहर खड़ा है। यह निश्चित रूप से सामाजिक / राजनीतिक विज्ञान, अर्थशास्त्र और मनोविज्ञान के अधिकांश क्षेत्रों के लिए सही नहीं है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.