"वैज्ञानिक सांख्यिकीय महत्व के खिलाफ उठते हैं" क्या मतलब है? (प्रकृति में टिप्पणी)


61

प्रकृति वैज्ञानिकों में टिप्पणी का शीर्षक सांख्यिकीय महत्व के खिलाफ उठता है :

वैलेंटाइन अमरेहिन, सैंडर ग्रीनलैंड, ब्लेक मैकेन और 800 से अधिक हस्ताक्षरकर्ताओं ने दावों को समाप्त करने और संभवतः महत्वपूर्ण प्रभावों को खारिज करने का आह्वान किया।

और बाद में जैसे बयान शामिल हैं:

फिर, हम पी मूल्यों, विश्वास अंतराल या अन्य सांख्यिकीय उपायों पर प्रतिबंध लगाने की वकालत नहीं कर रहे हैं - केवल यह कि हमें उनके साथ स्पष्ट व्यवहार नहीं करना चाहिए। इसमें सांख्यिकीय रूप से महत्वपूर्ण या नहीं, साथ ही बेयर्स कारकों जैसे अन्य सांख्यिकीय उपायों के आधार पर वर्गीकरण भी शामिल है।

मुझे लगता है कि मैं समझ सकता हूं कि नीचे दी गई छवि यह नहीं कहती है कि दो अध्ययन असहमत हैं क्योंकि एक "नियम" को प्रभावित करता है जबकि दूसरा नहीं करता है। लेकिन लेख मुझे लगता है की तुलना में अधिक गहराई में जाने लगता है।

अंत में चार बिंदुओं में एक सारांश प्रतीत होता है। क्या हमारे लिए उन लोगों के लिए और भी सरल शब्दों में संक्षेप में प्रस्तुत करना संभव है जो इसे लिखने के बजाय आँकड़े पढ़ते हैं ?

अनुकूलता अंतराल के बारे में बात करते समय, चार बातों को ध्यान में रखें।

  • पहला, सिर्फ इसलिए कि अंतराल मूल्यों को डेटा के साथ सबसे अधिक संगत देता है, मान्यताओं को देखते हुए, इसका मतलब यह नहीं है कि इसके बाहर के मूल्य असंगत हैं; वे सिर्फ कम संगत कर रहे हैं ...

  • दूसरा, अंदर के सभी मूल्य समान रूप से डेटा के साथ संगत नहीं हैं, इस धारणा को देखते हुए ...

  • तीसरा, जैसे 0.05 थ्रेशोल्ड से आया है, डिफ़ॉल्ट 95% अंतराल की गणना करने के लिए उपयोग किया जाता है, वह स्वयं एक मनमाना सम्मेलन है ...

  • अंतिम, और सबसे महत्वपूर्ण, विनम्र रहें: संगतता आकलन अंतराल की गणना करने के लिए उपयोग की जाने वाली सांख्यिकीय मान्यताओं की शुद्धता पर टिका है ...


प्रकृति: वैज्ञानिक सांख्यिकीय महत्व के खिलाफ उठते हैं


13
मूल रूप से, वे और भी अधिक झूठी सकारात्मक के साथ शोध पत्र भरना चाहते हैं!
डेविड

12
गेलमैन के ब्लॉग पर चर्चा देखें: statmodeling.stat.columbia.edu/2019/03/20/… । स्पष्ट रूप से लेख कुछ मान्य बिंदु उठाता है, लेकिन इस लेख के खिलाफ Ioannidis द्वारा उठाए गए टिप्पणियों को देखें (और इसके अलावा, अलग से, "याचिका" पहलू के खिलाफ), जैसा कि गेलमैन द्वारा उद्धृत किया गया है।
अमीबा का कहना है कि मोनिका

3
हालांकि यह एक नई अवधारणा नहीं है। मेटा-विश्लेषण 50 वर्षों के बेहतर हिस्से के लिए एक चीज रहा है, और कोचरन पिछले 25 वर्षों से मेडिकल / हेल्थकेयर अध्ययनों (जहां उद्देश्यों और परिणामों को मानकीकृत करना आसान है) का मेटा-विश्लेषण कर रहा है।
ग्राहम

4
मौलिक रूप से समस्या "अनिश्चितता" को कम करने की कोशिश कर रही है जो एक एकल संख्या के लिए बहुआयामी समस्या है।
19W में मैक्स डब्ल्यू

4
मूल रूप से अगर लोगों ने कहा कि "हमें एक्स और वाई के बीच एक जुड़ाव का कोई सबूत नहीं मिला" के बजाय "एक्स और वाई संबंधित नहीं हैं", जब इस लेख में मौजूद नहीं होगा। p>α
फायरबग

जवाबों:


65

पहले तीन बिंदु, जहां तक ​​मैं बता सकता हूं, एकल तर्क पर भिन्नता है।

वैज्ञानिक अक्सर अनिश्चितता माप ( , उदाहरण के लिए) को संभावना वितरण के रूप में मानते हैं जो इस तरह दिखता है:12±1

समान संभावना वितरण

जब वास्तव में, वे इस तरह दिखने की अधिक संभावना रखते हैं : यहाँ छवि विवरण दर्ज करें

एक पूर्व रसायनज्ञ के रूप में, मैं पुष्टि कर सकता हूं कि गैर-गणितीय पृष्ठभूमि (मुख्य रूप से गैर-भौतिक रसायनज्ञ और जीवविज्ञानी) के साथ कई वैज्ञानिक वास्तव में यह नहीं समझते हैं कि अनिश्चितता (या त्रुटि, जैसा कि वे इसे कहते हैं) काम करने वाली है। वे अंडरग्राउंड भौतिकी में एक समय को याद करते हैं जहां उन्हें शायद उनका उपयोग करना था, संभवतः कई अलग-अलग मापों के माध्यम से एक यौगिक त्रुटि की गणना करने के लिए, लेकिन वे वास्तव में उन्हें कभी नहीं समझ पाए । मैं भी इसके लिए दोषी था, और मान लिया कि सभी मापों को अंतराल के भीतर आना था । केवल हाल ही में (और अकादमिया के बाहर), क्या मुझे पता चला कि त्रुटि माप आमतौर पर एक निश्चित मानक विचलन का उल्लेख करते हैं, न कि पूर्ण सीमा के।±

तो लेख में गिने बिंदुओं को तोड़ने के लिए:

  1. सीआई के बाहर माप अभी भी होने का एक मौका है, क्योंकि वास्तविक (संभावित गॉसियन) संभावना गैर-शून्य है (या उस मामले के लिए कहीं भी, हालांकि वे बहुत छोटे हो जाते हैं जब आप बहुत दूर निकल जाते हैं)। यदि बाद के मान वास्तव में एक एसडी का प्रतिनिधित्व करते हैं, तो अभी भी उनके बाहर गिरने वाले डेटा बिंदु का 32% मौका है।±

  2. वितरण समरूप नहीं है (पहले शीर्ष आलेख के अनुसार सपाट है), इसे शिखर पर रखा गया है। आप किनारों पर होने की तुलना में बीच में एक मूल्य प्राप्त करने की अधिक संभावना रखते हैं। यह एक ही मरने के बजाय, पासा का एक गुच्छा रोल करने जैसा है।

  3. 95% एक मनमाना कटऑफ है, और दो मानक विचलन के साथ लगभग बिल्कुल मेल खाता है।

  4. यह बिंदु सामान्य रूप से अकादमिक ईमानदारी पर टिप्पणी का अधिक है। मेरे पीएचडी के दौरान मुझे जो अहसास हुआ, वह यह है कि विज्ञान कुछ अमूर्त शक्ति नहीं है, यह विज्ञान करने का प्रयास करने वाले लोगों का संचयी प्रयास है। ये वे लोग हैं जो ब्रह्मांड के बारे में नई चीजों की खोज करने की कोशिश कर रहे हैं, लेकिन साथ ही साथ अपने बच्चों को खिलाने और अपनी नौकरी रखने की भी कोशिश कर रहे हैं, जो दुर्भाग्य से आधुनिक समय में प्रकाशित या नष्ट होने का एक रूप है। वास्तव में, वैज्ञानिक उन खोजों पर निर्भर करते हैं जो सच और दिलचस्प दोनों हैं , क्योंकि निर्बाध परिणाम प्रकाशनों में परिणाम नहीं करते हैं।

जैसे मनमाने ढंग से थ्रेसहोल्ड अक्सर आत्म-स्थायी हो सकते हैं, खासकर उन लोगों के बीच जो आंकड़ों को पूरी तरह से नहीं समझते हैं और उन्हें अपने परिणामों पर पास / फेल स्टैम्प की आवश्यकता होती है। जैसे, लोग कभी-कभी 'टेस्ट को फिर से चलाने की बात करते हैं, जब तक आपको ' नहीं मिलता । यह बहुत लुभावना हो सकता है, खासकर अगर पीएचडी / अनुदान / रोजगार के परिणाम पर सवारी कर रहा है, इन सीमांत परिणामों के लिए, वांछित आसपास तक है विश्लेषण में दिखाता है।p<0.05p<0.05p=0.0498

इस तरह की प्रथाएं विज्ञान के लिए समग्र रूप से हानिकारक हो सकती हैं, खासकर अगर यह व्यापक रूप से किया जाता है, सभी एक संख्या की खोज में जो प्रकृति की दृष्टि में है, अर्थहीन। प्रभाव में यह हिस्सा वैज्ञानिकों को अपने डेटा और काम के बारे में ईमानदार होने के लिए प्रेरित कर रहा है, तब भी जब कि ईमानदारी उनके विरोध के लिए है।


26
+1 के लिए "... प्रकाशित या नाश होने वाला है। वास्तव में, वैज्ञानिक उन खोजों पर निर्भर करते हैं जो सत्य और दिलचस्प दोनों हैं, क्योंकि निर्बाध परिणाम प्रकाशनों में परिणाम नहीं करते हैं।" एक दिलचस्प पेपर था जो सालों पहले सामने आया था कि इस "प्रकाशन या नाश" के बारे में बात करने से शिक्षाविद्या में कंपाउंडिंग त्रुटि / पूर्वाग्रह पैदा होता है: क्यों सबसे प्रकाशित शोध निष्कर्ष गलत हैं (Ioannidis, 2005)
जे टेलर

4
मैं "वास्तविक (संभावित गाऊसी) अनिश्चितता से सहमत नहीं हूं ..." - गौसियन एक और ओवरसिप्लाइजेशन है। यह केंद्रीय सीमा प्रमेय के लिए कठिन-सीमा मॉडल की तुलना में कुछ हद तक उचित है, लेकिन वास्तविक वितरण आम तौर पर अभी भी कुछ अलग है।
लेफ्टरनबाउट

1
@leftaroundabout वास्तविक वितरण अभी भी भिन्न है, लेकिन जब तक कि मूल्य शारीरिक रूप से असंभव नहीं है, तब तक संभावना संभावित रूप से गणितीय रूप से नॉनजेरो है।
गेरिट

3
@leftaroundabout ने कहा कि अनिश्चितता की संभावना है कि गौसियन स्वाभाविक रूप से सरलीकरण नहीं है। यह एक पूर्व वितरण का वर्णन करता है, जो सीएलटी द्वारा अन्य सहायक डेटा की अनुपस्थिति में सबसे अच्छा है, लेकिन वितरण के बारे में अनिश्चितता व्यक्त करने से यह स्वीकार किया जाता है कि वितरण अच्छी तरह से नहीं हो सकता है गॉसियन पहले से ही है।
विल

7
@ आप संतुष्ट हैं, बहुत गलत है। कई वैज्ञानिक विषयों (जैसे रसायन विज्ञान और जीव विज्ञान, जैसा कि मैंने पहले कहा था) मूल अंकगणित के बगल में लगभग शून्य गणित का उपयोग करते हैं। अन्यथा वहाँ शानदार वैज्ञानिक हैं जो लगभग गणित निरक्षर हैं, और मैं उनमें से कुछ से मिला हूँ।
ingolifs

19

लेख के बहुत सारे और आपके द्वारा शामिल आंकड़ा एक बहुत ही सरल बिंदु बनाते हैं:

एक प्रभाव के लिए सबूत का अभाव सबूत नहीं है कि यह मौजूद नहीं है।

उदाहरण के लिए,

"हमारे अध्ययन में, साइनाइड दिए गए चूहे सांख्यिकीय रूप से काफी उच्च दर पर नहीं मरे" यह दावा के लिए सबूत नहीं है "साइनाइड का माउस की मौतों पर कोई प्रभाव नहीं है"।

p>0.05

लेकिन यह वही गलती है जो लेखक दावा करते हैं कि वैज्ञानिक नियमित रूप से बनाते हैं।

आपके आंकड़े में उदाहरण के लिए, लाल रेखा बहुत कम चूहों पर एक अध्ययन से उत्पन्न हो सकती है, जबकि नीली रेखा ठीक उसी अध्ययन से उत्पन्न हो सकती है, लेकिन कई चूहों पर।

[60%,70%]65%। तब हमें लिखना चाहिए कि हमारे परिणाम इस धारणा के साथ सबसे अधिक संगत होंगे कि यह खुराक 65% चूहों को मारती है, लेकिन हमारे परिणाम प्रतिशत के साथ कुछ हद तक संगत भी होंगे जितना कि 60 या 70 से कम होगा, और यह कि हमारे परिणाम कम संगत होंगे उस सीमा के बाहर की सच्चाई के साथ। (हमें यह भी वर्णन करना चाहिए कि हम इन संख्याओं की गणना करने के लिए क्या सांख्यिकीय अनुमान लगाते हैं।)


4
मैं कंबल के बयान से असहमत हूं कि "सबूतों का अभाव अनुपस्थिति का सबूत नहीं है"। शक्ति गणना आपको एक विशेष आकार के एक विशेष आकार के प्रभाव को निर्धारित करने की संभावना का निर्धारण करने की अनुमति देती है, एक विशेष नमूना आकार। बड़े प्रभाव के आकार को शून्य से काफी अलग करने के लिए कम डेटा की आवश्यकता होती है, जबकि छोटे प्रभावों के लिए बड़े नमूना आकार की आवश्यकता होती है। यदि आपका अध्ययन ठीक से संचालित है, और आप अभी भी महत्वपूर्ण प्रभाव नहीं देख रहे हैं, तो आप यथोचित निष्कर्ष निकाल सकते हैं कि प्रभाव मौजूद नहीं है। यदि आपके पास पर्याप्त डेटा है, तो गैर-महत्व वास्तव में कोई प्रभाव नहीं दिखा सकता है।
परमाणु वांग

1
@ न्यूक्लियरवेग सही है, लेकिन केवल तभी जब पावर विश्लेषण समय से पहले किया जाता है और केवल अगर यह सही मान्यताओं के साथ किया जाता है और फिर सही व्याख्याएं होती हैं (यानी, आपकी शक्ति केवल उस प्रभाव आकार के परिमाण के लिए प्रासंगिक है जो आप भविष्यवाणी करते हैं; "80% शक्ति "का मतलब यह नहीं है कि आपके पास शून्य प्रभाव का सही पता लगाने के लिए 80% संभावना है )। इसके अतिरिक्त, मेरे अनुभव में "गैर-महत्वपूर्ण" के उपयोग का अर्थ है "कोई प्रभाव नहीं" अक्सर माध्यमिक परिणामों या दुर्लभ घटनाओं पर लागू होता है , जो कि अध्ययन (उचित रूप से) वैसे भी संचालित नहीं है। अंत में, बीटा आमतौर पर >> अल्फा है।
ब्रायन क्रुसे

9
@ न्यूक्लियरवेग, मुझे नहीं लगता कि कोई भी तर्क दे रहा है "सबूतों की अनुपस्थिति कभी नहीं अनुपस्थिति के सबूत हैं", मुझे लगता है कि वे तर्क दे रहे हैं कि इसे स्वचालित रूप से इस तरह व्याख्या नहीं किया जाना चाहिए, और यही वह गलती है जो वे लोगों को बनाते हुए देखते हैं।
usul

यह लगभग ऐसा है जैसे लोगों को समतुल्यता या कुछ के लिए परीक्षणों में प्रशिक्षित नहीं किया जाता है।
एलेक्सिस

19

मै कोशिश करुॅगा।

  1. विश्वास अंतराल (जिसे वे संगतता अंतराल का नाम देते हैं) उस पैरामीटर के मूल्यों को दर्शाता है जो डेटा के साथ सबसे अधिक संगत हैं। लेकिन इसका मतलब यह नहीं है कि अंतराल के बाहर के मान डेटा के साथ बिल्कुल असंगत हैं।
  2. आत्मविश्वास (संगतता) अंतराल के बीच के मान अंतराल के सिरों के पास मूल्यों की तुलना में डेटा के साथ अधिक संगत हैं।
  3. 95% सिर्फ एक सम्मेलन है। आप 90% या 99% या किसी भी% अंतराल की गणना कर सकते हैं।
  4. यदि प्रयोग पूर्व निर्धारित योजना के अनुसार किया गया था, और डेटा विश्लेषण विधियों की धारणा के अनुरूप है, तो विश्वास / अनुकूलता अंतराल केवल सहायक होते हैं। यदि आपने खराब डेटा का बुरी तरह से विश्लेषण किया है, तो संगतता अंतराल सार्थक या सहायक नहीं है।

10

P>0.05P<0.05


8
(-1) पी-वैल्यू आपको यह नहीं दिखाते हैं कि एक परिकल्पना शायद सच है या गलत है। उसके लिए आपको पूर्व वितरण की आवश्यकता है। उदाहरण के लिए, इस xkcd को देखें । इस भ्रम की ओर ले जाने वाली समस्याग्रस्त हाथ लहराते हुए यह है कि यदि हमारे पास बड़ी संख्या में परिकल्पना के लिए समान पुजारी हैं, तो पी-मूल्य संभाव्यता के अनुपातिक होगा यह सही है या गलत। लेकिन किसी भी डेटा को देखने से पहले, कुछ परिकल्पना दूसरों की तुलना में बहुत अधिक संभावित है!
क्लिफ एबी

3
हालांकि यह प्रभाव कुछ ऐसा है जिसे छूट नहीं दी जानी चाहिए, यह संदर्भित लेख के एक महत्वपूर्ण बिंदु से दूर है।
आरएम

6

tl; dr - यह सिद्ध करना असंभव है कि चीजें असंबंधित हैं; आंकड़े केवल दिखाने के लिए जब चीजें इस्तेमाल किया जा सकता कर रहे हैं से संबंधित। इस अच्छी तरह से स्थापित तथ्य के बावजूद, लोग अक्सर रिश्ते की कमी के लिए सांख्यिकीय महत्व की कमी का गलत अर्थ लगाते हैं।


एक अच्छी एन्क्रिप्शन विधि एक सिफरटेक्स्ट उत्पन्न करना चाहिए, जहां तक ​​एक हमलावर बता सकता है, संरक्षित संदेश के लिए किसी भी सांख्यिकीय संबंध को नंगे नहीं करता है। क्योंकि यदि कोई हमलावर किसी प्रकार का संबंध निर्धारित कर सकता है, तो वे आपके सुरक्षित संदेशों के बारे में सिर्फ सिफरटेक्स्ट को देख कर जानकारी प्राप्त कर सकते हैं - जो एक बैड थिंग टीएम है

हालाँकि, सिफरटेक्स्ट और इसके संबंधित प्लेनटेक्स्ट 100% एक दूसरे को निर्धारित करते हैं। इसलिए भले ही दुनिया के सबसे अच्छे गणितज्ञ कोई भी महत्वपूर्ण रिश्ता नहीं खोज सकते हैं, चाहे वे कितनी भी कोशिश कर लें, हम अभी भी स्पष्ट रूप से जानते हैं कि रिश्ता सिर्फ वहीं नहीं है, बल्कि यह पूरी तरह से और पूरी तरह से निर्धारक है। यह नियतत्ववाद तब भी मौजूद हो सकता है जब हम जानते हैं कि संबंध बनाना असंभव है

इसके बावजूद, हम अभी भी ऐसे लोगों को प्राप्त करते हैं जो सामान पसंद करेंगे:

  1. कुछ रिश्ते चुनें जिन्हें वे " अस्वीकार " करना चाहते हैं ।

  2. इस पर कुछ अध्ययन करें जो कथित संबंध का पता लगाने के लिए अपर्याप्त है।

  3. सांख्यिकीय रूप से महत्वपूर्ण संबंध की कमी की रिपोर्ट करें।

  4. इसे रिश्ते की कमी में बदल दें।

यह " वैज्ञानिक अध्ययन " के सभी प्रकारों की ओर जाता है जो मीडिया कुछ रिश्तों के अस्तित्व को बाधित करने के रूप में (झूठी) रिपोर्ट करेगा।

यदि आप इसके चारों ओर अपना खुद का अध्ययन करना चाहते हैं, तो आप इसे करने के तरीकों का एक समूह हैं:

  1. आलसी अनुसंधान:
    सबसे आसान तरीका, अभी तक इसके बारे में अविश्वसनीय रूप से आलसी होना है। यह उस प्रश्न से जुड़ा हुआ आंकड़ा जैसा है:

    आप यह आसानी से सकते हैं कि बस छोटे नमूना आकार होने से, बहुत अधिक शोर, और अन्य विभिन्न आलसी चीजों की अनुमति होती है। वास्तव में, यदि आप इतने आलसी हैं कि नहीं। कोई भी डेटा एकत्र करें, फिर आप पहले से ही काम कर रहे हैं!'Non-significant' study(high P value)"

  2. आलसी विश्लेषण:
    किसी मूर्खतापूर्ण कारण के लिए, कुछ लोग सोचते हैं कि का पियर्सन सहसंबंध गुणांक है जिसका अर्थ है " कोई संबंध नहीं "। जो बहुत सीमित अर्थों में, सत्य है। लेकिन, यहां कुछ मामले देखने को मिलते हैं: । यह एक " रैखिक " संबंध नहीं हो सकता है , लेकिन जाहिर है कि एक अधिक जटिल हो सकता है। और इसे " एन्क्रिप्शन " -वेल कॉम्प्लेक्स होने की आवश्यकता नहीं है , बल्कि " यह वास्तव में सिर्फ एक स्क्वीजीली लाइन का एक सा है " या " दो संबंध हैं " या जो भी हो।0

  3. आलसी जवाब:
    ऊपर की भावना में, मैं यहाँ रुकने जा रहा हूँ। करने के लिए, फिर पता है, आलसी हो!

लेकिन, गंभीरता से, लेख इसे अच्छी तरह से प्रस्तुत करता है:

चलिए इस बारे में स्पष्ट होना चाहिए कि हमें क्या करना चाहिए: हमें कभी भी यह निष्कर्ष नहीं निकालना चाहिए कि 'कोई अंतर नहीं है' या 'कोई संबंध नहीं' सिर्फ इसलिए कि एक P मान 0.05 या इसके समकक्ष एक सीमा से बड़ा है, क्योंकि एक विश्वास अंतराल में शून्य शामिल है।


+1 जो आप लिखते हैं वह सच और विचार उत्तेजक दोनों है। हालांकि, मेरी विनम्र राय में, आप यह साबित कर सकते हैं कि कुछ मान्यताओं के तहत दो मात्राएँ यथोचित असंबंधित हैं। आपको पहले उनके बारे में एक निश्चित वितरण का उदाहरण देते हुए शुरुआत में संभोग करना होगा, लेकिन यह भौतिकी के नियमों पर आधारित हो सकता है, या आंकड़े (उदाहरण के लिए किसी कंटेनर में गैस के अणुओं की गति गॉसियन या इतने पर होने की उम्मीद है)
ntg

3
@ हां, यह जानना मुश्किल है कि इस सामान में से कुछ को कैसे शब्द दिया जाए, इसलिए मैंने बहुत कुछ छोड़ दिया। मेरा मतलब है, सामान्य सत्य यह है कि हम यह नहीं मना सकते हैं कि कुछ संबंध मौजूद हैं, हालांकि हम आम तौर पर प्रदर्शित कर सकते हैं कि एक विशिष्ट संबंध मौजूद नहीं है। Sorta की तरह, हम स्थापित नहीं कर सकते हैं कि दो डेटा श्रृंखला असंबंधित हैं, लेकिन हम यह स्थापित कर सकते हैं कि वे एक साधारण रैखिक फ़ंक्शन द्वारा विश्वसनीय रूप से संबंधित नहीं दिखाई देते हैं।
नेट

1
-1 "टीएल; डीआर- यह साबित करना बुनियादी रूप से असंभव है कि चीजें असंबंधित हैं": समतुल्यता परीक्षण एक मनमाना प्रभाव आकार के भीतर प्रभाव की अनुपस्थिति के प्रमाण प्रदान करते हैं।
एलेक्सिस

2
@ एलेक्सिस मुझे लगता है कि आप तुल्यता परीक्षण को गलत समझते हैं; आप एक निश्चित संबंध की अनुपस्थिति के सबूत के लिए तुल्यता परीक्षण का उपयोग कर सकते हैं, उदाहरण के लिए एक रैखिक संबंध, लेकिन किसी भी संबंध की अनुपस्थिति का सबूत नहीं है।
नट

1
@ एलेक्सिस सांख्यिकीय निष्कर्ष कुछ मॉडल के संदर्भ में एक विशिष्ट प्रभाव आकार की तुलना में बड़े प्रभाव की अनुपस्थिति के अधिक सबूत प्रदान कर सकते हैं । शायद आप यह मान रहे हैं कि मॉडल हमेशा ज्ञात होगा?
नट

4

समस्या के लिए एक व्यावहारिक परिचय के लिए, एलेक्स रेनहार्ट ने पूरी तरह से ऑनलाइन उपलब्ध एक पुस्तक लिखी और नो स्टार्च प्रेस (अधिक सामग्री के साथ) में संपादित की: https://www.statisticsdonewrong.com

यह परिष्कृत गणित के बिना समस्या की जड़ को समझाता है और विशिष्ट डेटा सेट के उदाहरणों के साथ विशिष्ट अध्याय हैं:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

दूसरे लिंक में, एक चित्रमय उदाहरण पी-मूल्य समस्या को दिखाता है। पी-मान अक्सर डेटासेट के बीच सांख्यिकीय अंतर के एक एकल संकेतक के रूप में उपयोग किया जाता है, लेकिन स्पष्ट रूप से अपने आप से पर्याप्त नहीं है।

अधिक विस्तृत उत्तर के लिए संपादित करें :

कई मामलों में, अध्ययन का उद्देश्य एक सटीक प्रकार के डेटा को पुन: पेश करना है, या तो भौतिक माप (किसी विशिष्ट प्रयोग के दौरान एक त्वरक में कणों की संख्या) या मात्रात्मक संकेतक (जैसे कि दवा परीक्षण के दौरान विशिष्ट लक्षणों को विकसित करने वाले रोगियों की संख्या)। या तो इस स्थिति में, कई कारक माप प्रक्रिया में हस्तक्षेप कर सकते हैं जैसे मानव त्रुटि या सिस्टम भिन्नता (लोग एक ही दवा पर अलग-अलग प्रतिक्रिया करते हैं)। यही कारण है कि प्रयोगों को अक्सर सैकड़ों बार किया जाता है यदि संभव हो और दवा परीक्षण किया जाता है, आदर्श रूप से, हजारों रोगियों के सहवास पर।

डेटा सेट को आँकड़ों का उपयोग करके अपने सबसे सरल मूल्यों तक कम किया जाता है: साधन, मानक विचलन और इतने पर। उनके माध्यम से मॉडल की तुलना करने में समस्या यह है कि मापा मान केवल सच्चे मूल्यों के संकेतक हैं, और व्यक्तिगत माप की संख्या और परिशुद्धता के आधार पर सांख्यिकीय रूप से भी बदल रहे हैं। हमारे पास एक अच्छा अनुमान देने के तरीके हैं, जिस पर उपाय समान होने की संभावना है और जो एक निश्चित निश्चितता के साथ ही नहीं हैं। सामान्य सीमा यह कहना है कि यदि हमारे पास बीस में से एक से भी कम गलत होने की संभावना है, तो दो मान अलग-अलग हैं, हम उन्हें "सांख्यिकीय रूप से अलग" मानते हैं (यह का अर्थ है ), अन्यथा हम निष्कर्ष नहीं निकालते हैं।P<0.05

यह प्रकृति के लेख में वर्णित विषम निष्कर्षों की ओर जाता है जहां दो समान उपाय समान अर्थ मान देते हैं लेकिन नमूने के आकार के कारण शोधकर्ताओं के निष्कर्ष भिन्न होते हैं। यह, और सांख्यिकीय शब्दावली और आदतों से अन्य ट्रॉप विज्ञान में अधिक से अधिक महत्वपूर्ण होता जा रहा है। समस्या का एक दूसरा पक्ष यह है कि लोग यह भूल जाते हैं कि वे सांख्यिकीय उपकरणों का उपयोग करते हैं और अपने नमूनों की सांख्यिकीय शक्ति के उचित सत्यापन के बिना प्रभाव के बारे में निष्कर्ष निकालते हैं।

एक अन्य उदाहरण के लिए, हाल ही में सामाजिक और जीवन विज्ञान इस तथ्य के कारण एक सच्चे प्रतिकृति संकट से गुजर रहे हैं कि बहुत सारे प्रभाव उन लोगों द्वारा दिए गए थे जो प्रसिद्ध अध्ययनों की उचित सांख्यिकीय शक्ति की जांच नहीं करते थे (जबकि अन्य ने डेटा को गलत ठहराया था लेकिन यह एक और समस्या है)।


3
केवल एक लिंक नहीं है, जबकि इस जवाब में " केवल उत्तर " लिंक की सभी मुख्य विशेषताएं हैं । इस उत्तर को बेहतर बनाने के लिए कृपया उत्तर में मुख्य बिंदुओं को शामिल करें। आदर्श रूप से, आपका उत्तर एक उत्तर के रूप में उपयोगी होना चाहिए, भले ही लिंक की सामग्री गायब हो जाए।
आरएम

2
पी-मूल्यों और आधार दर में गिरावट (आपके लिंक में उल्लिखित) के बारे में, वेरिटासियम ने इस वीडियो को बायेसियन ट्रैप नाम से प्रकाशित किया ।
जजमोंट्स

2
क्षमा करें, मैं जल्द से जल्द उत्तर को बेहतर बनाने और विकसित करने का प्रयास करूंगा। मेरा विचार जिज्ञासु पाठक के लिए उपयोगी सामग्री प्रदान करना भी था।
जी। क्लेवियर

1
@ G.Clavier और स्व-वर्णित आँकड़े नौसिखिया और जिज्ञासु पाठक इसकी सराहना करते हैं!
उहोह

1
@uhoh इसे पढ़ने के लिए खुशी है। :)
जी। क्लेवियर

4

मेरे लिए, सबसे महत्वपूर्ण हिस्सा था:

... [हम] लेखकों से बिंदु अनुमान पर चर्चा करने का आग्रह करते हैं, भले ही उनके पास एक बड़ा पी मूल्य या एक विस्तृत अंतराल हो, साथ ही साथ उस अंतराल की सीमाओं पर चर्चा करते हुए।

दूसरे शब्दों में: अनुमानों (केंद्र और विश्वास अंतराल) पर चर्चा करने पर अधिक जोर दें, और "नल-परिकल्पना परीक्षण" पर कम जोर दें।

यह कैसे व्यवहार में काम करता है? प्रभाव के आकार को मापने के लिए बहुत सारे शोध उबलते हैं, उदाहरण के लिए "हमने 1.20 का जोखिम अनुपात मापा, जिसमें 95% सीआई 0.97 से 1.33 तक था"। यह एक अध्ययन का उपयुक्त सारांश है। आप तुरंत सबसे संभावित प्रभाव का आकार और माप की अनिश्चितता देख सकते हैं। इस सारांश का उपयोग करके, आप इस अध्ययन की तुलना इसके जैसे अन्य अध्ययनों से कर सकते हैं, और आदर्श रूप से आप सभी निष्कर्षों को एक भारित औसत में जोड़ सकते हैं।

दुर्भाग्य से, इस तरह के अध्ययनों को अक्सर संक्षेप में प्रस्तुत किया जाता है क्योंकि "हमें जोखिम अनुपात का एक महत्वपूर्ण रूप से महत्वपूर्ण वृद्धि नहीं मिली"। यह उपरोक्त अध्ययन का एक वैध निष्कर्ष है। लेकिन यह अध्ययन का उपयुक्त सारांश नहीं है , क्योंकि आप इस प्रकार के सारांशों का उपयोग करके आसानी से अध्ययन की तुलना नहीं कर सकते हैं। आपको नहीं पता कि किस अध्ययन में सबसे सटीक माप था, और आप यह नहीं बता सकते कि मेटा-अध्ययन की खोज क्या हो सकती है। और जब आप अध्ययन "गैर-महत्वपूर्ण जोखिम अनुपात बढ़ने" का दावा करते हैं तो तुरंत हाजिर नहीं होते हैं, आत्मविश्वास अंतराल जो इतने बड़े होते हैं कि आप उनमें एक हाथी छिपा सकते हैं।


यह एक की परिकल्पना पर निर्भर करता है। उदाहरण के लिए, को अस्वीकार एक अनियंत्रित रूप से छोटे से बड़े प्रभाव के अभाव का प्रमाण प्रदान करता है । H0:|θ|ΔΔ
एलेक्सिस

1
हां, लेकिन ऐसी परिकल्पना पर चर्चा करने से भी क्यों कतराते हैं? आप केवल मापा प्रभाव का आकार बता सकते हैं और फिर चर्चा करें कि सबसे अच्छा / सबसे खराब स्थिति क्या है। यह आमतौर पर भौतिकी में किया जाता है, उदाहरण के लिए जब प्रोटॉन और एंटीप्रॉन के बीच बड़े पैमाने पर प्रभारी अंतर को मापते हैं । लेखकों को एक शून्य परिकल्पना तैयार करने के लिए चुना जा सकता है (हो सकता है, आपके उदाहरण का पालन करने के लिए, कि पूर्ण अंतर कुछ से अधिक है ) और इसे परीक्षण करने के लिए आगे बढ़ा , लेकिन ऐसी चर्चा में थोड़ा जोड़ा गया मूल्य है। θ±δθΔ
मार्टिन जेएच

3

यह "महत्वपूर्ण" है कि सांख्यिकीविद् , न केवल वैज्ञानिक, "महत्व" और मूल्यों के ढीले उपयोग पर उठ रहे हैं और आपत्ति कर रहे हैं । अमेरिकन स्टेटिस्टिशियन का हालिया अंक इस मामले में पूरी तरह से समर्पित है। विशेष रूप से Wasserman, Schirm, और Lazar द्वारा मुख्य संपादकीय देखें। P


लिंक के लिए आपको धन्यवाद! यह एक आंख खोलने वाला है; मुझे नहीं पता था कि इस बारे में बहुत सोचा और बहस हुई थी।
ऊह २oh

2

यह एक तथ्य है कि कई कारणों से, पी-वैल्यू वास्तव में एक समस्या बन गए हैं।

हालांकि, अपनी कमजोरियों के बावजूद, उनके पास सरलता और सहज सिद्धांत जैसे महत्वपूर्ण फायदे हैं। इसलिए, कुल मिलाकर मैं प्रकृति में टिप्पणी से सहमत हूं , लेकिन मुझे लगता है कि सांख्यिकीय महत्व को पूरी तरह से खोदने के बजाय , एक अधिक संतुलित समाधान की आवश्यकता है। यहाँ कुछ विकल्प दिए गए हैं:

1. " नई खोजों के दावों के लिए सांख्यिकीय महत्व के लिए डिफ़ॉल्ट पी-मूल्य सीमा 0.05 से 0.005 तक बदलना "। मेरे विचार में, बेंजामिन एट अल ने उच्च स्तर के साक्ष्य को अपनाने के खिलाफ सबसे सम्मोहक तर्क दिए।

2. दूसरी पीढ़ी के पी-मानों को अपनाना । ये शास्त्रीय पी-वैल्यू को प्रभावित करने वाली अधिकांश समस्याओं का एक उचित समाधान प्रतीत होता है । जैसा कि ब्लम एट अल यहां कहते हैं , दूसरी पीढ़ी के पी-मान "सांख्यिकीय विश्लेषणों में कठोरता, प्रजननशीलता और पारदर्शिता में सुधार करने में मदद कर सकते हैं।"

3. पुनर्परिभाषित पी-मूल्य के रूप में "निश्चितता का एक मात्रात्मक मापन - एक" विश्वास सूचकांक "- कि एक विदित संबंध, या दावे सच है।" यह इस आत्मविश्वास को उचित रूप से महत्व देने के लिए विश्लेषण लक्ष्य को बदलने में मदद कर सकता है।

महत्वपूर्ण रूप से, "परिणाम जो सांख्यिकीय महत्व या " आत्मविश्वास " (जो कुछ भी है) के लिए सीमा तक नहीं पहुंचते हैं, वे अग्रणी पत्रिकाओं में अभी भी महत्वपूर्ण और योग्यता प्रकाशन कर सकते हैं यदि वे महत्वपूर्ण शोध प्रश्नों को कठोर तरीकों से संबोधित करते हैं।"

मुझे लगता है कि अग्रणी पत्रिकाओं द्वारा पी-मूल्यों के साथ जुनून को कम करने में मदद मिल सकती है , जो पी-मूल्यों के दुरुपयोग के पीछे है ।


आपके उत्तर के लिए धन्यवाद, यह मददगार है। मैं ब्लम एट अल पढ़ने में कुछ समय बिताऊंगा। के बारे में दूसरी पीढ़ी के पी मान , यह काफी पठनीय हो रहा है।
ऊह २oh

1
@ ओहो, ख़ुशी है कि मेरा उत्तर आपके प्रश्न के लिए सहायक है।
क्रांति

1

एक बात जिसका उल्लेख नहीं किया गया है वह यह है कि त्रुटि या महत्व सांख्यिकीय अनुमान हैं, न कि वास्तविक भौतिक माप: वे आपके द्वारा उपलब्ध डेटा और आप इसे कैसे संसाधित करते हैं, इस पर बहुत अधिक निर्भर करते हैं। यदि आप हर संभावित घटना को माप चुके हैं तो आप केवल त्रुटि और महत्व का सटीक मूल्य प्रदान कर सकते हैं। यह आमतौर पर मामला नहीं है, इससे दूर है!

इसलिए, त्रुटि या महत्व का हर अनुमान, इस मामले में किसी भी पी-मूल्य, परिभाषा गलत है और अंतर्निहित अनुसंधान का वर्णन करने के लिए भरोसा नहीं किया जाना चाहिए - अकेले घटना! - सही ढंग से। वास्तव में, परिणामों के बारे में कुछ भी बताने के लिए इस पर भरोसा नहीं किया जाना चाहिए कि क्या प्रतिनिधित्व किया जा रहा है, कैसे त्रुटि का अनुमान लगाया गया और डेटा को नियंत्रित करने के लिए क्या किया गया। उदाहरण के लिए, अनुमानित त्रुटि को कम करने का एक तरीका आउटलेर्स को निकालना है। यदि इसे हटा दिया जाता है तो सांख्यिकीय रूप से भी किया जाता है, तो आप वास्तव में कैसे जान सकते हैं कि बाहरी मापक वास्तविक त्रुटि के बजाय वास्तविक त्रुटियां थे जिन्हें त्रुटि में शामिल किया जाना चाहिए? कैसे कम त्रुटि परिणामों के महत्व में सुधार कर सकती है? अनुमानों के पास गलत माप के बारे में क्या? उनमें सुधार होता है त्रुटि और सांख्यिकीय महत्व को प्रभावित कर सकता है लेकिन गलत निष्कर्ष के लिए नेतृत्व कर सकता है!

उस बात के लिए, मैं शारीरिक मॉडलिंग करता हूं और खुद ऐसे मॉडल तैयार किए हैं जहां 3-सिग्मा त्रुटि पूरी तरह से अप्रमाणिक है। यही है, सांख्यिकीय रूप से एक घटना के आसपास एक हज़ार (अच्छी तरह से ... अधिक बार उस से अधिक है, लेकिन मुझे पता है) कि पूरी तरह से हास्यास्पद मूल्य में परिणाम होगा। मेरे क्षेत्र में 3 अंतराल त्रुटि की परिमाण लगभग एक सेमी होने का सबसे अच्छा संभावित अनुमान होने के बराबर है, जो अब हर बार मीटर हो सकता है। हालांकि, यह वास्तव में एक स्वीकृत परिणाम है जब मेरे क्षेत्र में भौतिक, अनुभवजन्य डेटा से गणना की गई सांख्यिकीय +/- अंतराल प्रदान करते हैं। निश्चित रूप से, अनिश्चितता अंतराल की संकीर्णता का सम्मान किया जाता है, लेकिन अक्सर सर्वश्रेष्ठ अनुमान अनुमान का मूल्य तब भी अधिक उपयोगी होता है जब नाममात्र त्रुटि अंतराल बड़ा होगा।

एक साइड नोट के रूप में, मैं एक बार एक हजार आउटलेर्स में से एक के लिए व्यक्तिगत रूप से जिम्मेदार था। मैं एक उपकरण को कैलिब्रेट करने की प्रक्रिया में था जब एक घटना हुई जिसे हम मापने वाले थे। काश, डेटा बिंदु उन 100 गुना आउटलेयर में से एक होता, तो एक मायने में, वे होते हैं और मॉडलिंग त्रुटि में शामिल होते हैं!


"आप केवल सटीक माप प्रदान कर सकते हैं, यदि आपने हर संभव घटना को मापा है।" हम्म। तो, सटीकता निराशाजनक है? और अप्रासंगिक भी? कृपया सटीकता और पूर्वाग्रह के बीच अंतर पर विस्तार करें। क्या गलत अनुमान पक्षपाती या निष्पक्ष हैं? यदि वे निष्पक्ष हैं, तो क्या वे थोड़ा उपयोगी नहीं हैं? "उदाहरण के लिए, त्रुटि को कम करने का एक तरीका आउटलेर्स को हटाना है।" हम्म। यह नमूना विचरण को कम करेगा, लेकिन "त्रुटि"? "... अक्सर सर्वश्रेष्ठ अनुमान अनुमान का मूल्य तब भी अधिक उपयोगी होता है जब नाममात्र त्रुटि अंतराल बड़ा होगा" मैं इस बात से इनकार नहीं करता कि एक अच्छा पूर्व प्रयोग एक बुरे प्रयोग से बेहतर है।
पीटर लियोपोल्ड

आपकी टिप्पणी के आधार पर पाठ को थोड़ा संशोधित किया। मेरा मतलब था कि त्रुटि का सांख्यिकीय माप हमेशा एक अनुमान है जब तक कि आपके पास सभी संभव व्यक्तिगत परीक्षण न हों, इसलिए बोलने के लिए, उपलब्ध। यह शायद ही कभी होता है, सिवाय जब उदाहरण के लिए एक निर्धारित संख्या में लोगों को मतदान करना (nb बड़ी भीड़ या सामान्य आबादी से नमूने के रूप में नहीं)।
जिनीमेट्सुरी

1
मैं एक अभ्यासी हूं, जो सांख्यिकीविद् की बजाय सांख्यिकी का उपयोग करता है। मुझे लगता है कि p मानों के साथ एक मूल समस्या यह है कि बहुत से जो परिचित नहीं हैं, वे उन्हें क्या महत्व देते हैं। इस प्रकार मुझे यह निर्धारित करने के लिए कहा गया है कि ढलान बड़े हैं या नहीं, पी मानों का उपयोग करके कौन सी ढलान महत्वपूर्ण हैं। इसी तरह की समस्या उन्हें चरों के सापेक्ष प्रभाव (जो मेरे लिए महत्वपूर्ण है, का निर्धारण करने के लिए उपयोग कर रही है, लेकिन जो कि पुनर्जीवित साहित्य में आश्चर्यजनक रूप से बहुत कम मिलता है)।
user54285
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.