चुने हुए झूठे-सकारात्मक / झूठे-नकारात्मक त्रुटि दर और अंतर्निहित लागत अनुपात को कड़ाई से कैसे उचित ठहराया जाए?


12

प्रसंग

सामाजिक वैज्ञानिकों और सांख्यिकीविदों ( बेंजामिन एट अल।, 2017 ) के एक समूह ने हाल ही में सुझाव दिया है कि "सांख्यिकीय महत्व" का निर्धारण करने के लिए दहलीज के रूप में उपयोग किए जाने वाले विशिष्ट झूठी-सकारात्मक दर ( = .05) को एक अधिक रूढ़िवादी सीमा तक समायोजित करने की आवश्यकता है (# = .005)। सामाजिक वैज्ञानिकों और सांख्यिकीविदों के एक प्रतियोगी समूह ( Lakens et al।, 2018 ) ने जवाब दिया है, इस के उपयोग के खिलाफ बहस करते हुए - या किसी अन्य - मनमाने ढंग से चयनित सीमा। निम्नलिखित Lakens et al से एक उद्धरण है। (पृष्ठ १६) जो मेरे प्रश्न की विषय वस्तु को समझने में मदद करता है:ααα

आदर्श रूप से, अल्फा स्तर को निर्णय सिद्धांत का उपयोग करके एक उपयोगिता फ़ंक्शन के खिलाफ लागत और लाभों की तुलना करके निर्धारित किया जाता है। यह लागत-लाभ विश्लेषण (और इस प्रकार अल्फा स्तर) अलग-अलग मौजूदा डेटासेट का विश्लेषण करते समय अलग-अलग नमूने प्राप्त करने की तुलना में डेटा एकत्र करने के दौरान भिन्न होता है। विज्ञान विविध है, और यह वैज्ञानिकों के लिए है कि वे जिस अल्फा स्तर का उपयोग करने का निर्णय लेते हैं, उसे सही ठहराने के लिए। ... अनुसंधान को कठोर विज्ञान के सिद्धांतों द्वारा निर्देशित किया जाना चाहिए, न कि सांख्यिकी और मनमाने कंबल थ्रेसहोल्ड द्वारा।

सवाल

मैं सोच रहा हूं कि एक चुने हुए अल्फ़ा को "कठोर विज्ञान के सिद्धांतों द्वारा निर्देशित" के रूप में कैसे परिभाषित किया जा सकता है, लक्ष्मण एट अल के रूप में। सुझाव दें, अधिकांश सामाजिक विज्ञान संदर्भों में (यानी, चुनिंदा मामलों के बाहर जहां एक और अधिक ठोस गुणवत्ता है, जैसे लाभ, अनुकूलन करने के लिए)?

Lakens et al। के प्रसार के बाद, मैंने शोधकर्ताओं को यह निर्णय लेने में मदद करने के लिए घूमते हुए ऑनलाइन कैलकुलेटर देखना शुरू कर दिया है। उनका उपयोग करते समय शोधकर्ताओं को झूठे-सकारात्मक और गलत-नकारात्मक त्रुटियों के "लागत अनुपात" को निर्दिष्ट करने की आवश्यकता होती है। लेकिन, जैसा कि इस कैलकुलेटर यहाँ पता चलता है, इस तरह के एक लागत अनुपात का निर्धारण करने मात्रात्मक अनुमान-बहुत काम शामिल कर सकते हैं:

जबकि कुछ त्रुटि लागत मौद्रिक शर्तों (प्रत्यक्ष लागत) में क्वांटी के लिए आसान है, दूसरों को (अप्रत्यक्ष) के लिए एक दाढ़ राशि डालना मुश्किल है। ... मात्रा निर्धारित करने के लिए चुनौतीपूर्ण होने के बावजूद, आपको उनके लिए एक संख्या डालने का प्रयास करना चाहिए।

उदाहरण के लिए, हालांकि Lakens et al। एक कारक के रूप में हार्ड-टू-पहुंच नमूनों का अध्ययन करने का सुझाव दें, जो कि अल्फा को सही ठहराने पर विचार कर सकता है, ऐसा लगता है कि कोई अभी भी यह अनुमान लगाने से बचा है कि नमूना कितना कठिन है, और इस प्रकार, तदनुसार अल्फा के चयन को कैसे समायोजित किया जाए। एक अन्य उदाहरण के रूप में, मुझे यह गलत लग सकता है कि एक झूठे-सकारात्मक को प्रकाशित करने की लागत को निर्धारित करने में, कितना समय / पैसा दूसरों को बाद में गलत अनुमान के आधार पर अनुसंधान को आगे बढ़ाने के लिए प्रतिबद्ध होगा।

यदि इस लागत अनुपात का निर्धारण मोटे तौर पर व्यक्तिपरक सर्वश्रेष्ठ-अनुमान बनाने की बात है, तो मुझे आश्चर्य होता है कि क्या ये निर्णय कभी भी (फिर से, लाभ की तरह कुछ अनुकूलन करने से बाहर) "उचित" हो सकते हैं। यह एक तरह से नमूनाकरण, व्यापार-नापसंद, प्रभाव, आदि के बारे में बनी धारणाओं के बाहर मौजूद है? इस तरह, झूठे-सकारात्मक / गलत-नकारात्मक त्रुटियों की लागत अनुपात का निर्धारण, मुझे लगता है, बायेसियन निष्कर्ष में एक पूर्व का चयन करने के लिए कुछ समान होना चाहिए - एक निर्णय जो कुछ व्यक्तिपरक हो सकता है, परिणामों को प्रभावित कर सकता है, और इसलिए बहस- -हालांकि मुझे यकीन नहीं है कि यह एक उचित तुलना है।

सारांश

मेरी जांच को ठोस बनाने के लिए:

  1. क्या झूठी-सकारात्मक / झूठी-नकारात्मक दरें और उनकी लागत अनुपात कभी भी "कठोर" हो सकता है जो कि अधिकांश सामाजिक विज्ञान संदर्भों में उचित हो?
  2. यदि ऐसा है, तो सामान्य सिद्धांत क्या हैं जो इन विश्लेषणात्मक विकल्पों का औचित्य सिद्ध कर सकते हैं (और शायद एक उदाहरण या कार्रवाई में उनमें से दो)
  3. यदि नहीं, तो लागत अनुपात चुनने में संभावित विषय-वस्तु का मेरा सादृश्य है - बायेसियन पूर्व चयन के समान होने के नाते - एक उचित एक?

संदर्भ

बेंजामिन, डीजे, बर्जर, जे।, जोहानसन, एम।, नोसेक, बीए, वेगेनमेकर्स, ई।, ... जॉनसन, वी। (2017, 22 जुलाई)। सांख्यिकीय महत्व को फिर से परिभाषित करें। Psyarxiv.com/mky9j से लिया गया

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 जनवरी)। अपने अल्फा को सही ठहराएं। Psyarxiv.com/9s3y6 से लिया गया


4
क्या आप परिभाषित कर सकते हैं कि आप "उचित रूप से उचित" का उपयोग कैसे कर रहे हैं? टाइप I त्रुटि प्रायिकता एक शोधकर्ता वरीयता है ... जैसा कि एक प्राथमिक प्रकार II त्रुटि संभावनाएं हैं। किस तरह से एक शोधकर्ता "उद्देश्यपूर्ण रूप से उचित," कहेंगे, एक पसंदीदा शोध एजेंडा, पसंदीदा शोध सहयोगी या फंडर, या पसंदीदा अनुसंधान सहायक प्रशिक्षण और सलाह दृष्टिकोण?
एलेक्सिस

1
वस्तुनिष्ठ रूप से अधिक से अधिक मात्र में उचित है। द लकेंस एट अल।, पेपर वर्तमान में शॉर्ट-हैंड "JYA" [जस्टिफाई योर अल्फा] शीर्षक के तहत चल रहा है, और ऊपर दिए गए उद्धरणों के आधार पर उनके तर्क के बारे में मेरा पढ़ा, यह है कि कोई भी पुरानी पसंद नहीं करेगा। स्पष्ट होने के लिए: मैं जरूरी तर्क नहीं दर्ज कर रहा हूं कि कोई व्यक्ति चुने हुए प्रकार I / II त्रुटि दर का औचित्य सिद्ध कर सकता है। बल्कि, मेरी जांच का आधार Lakens et al की व्याख्या करना है। यह सुझाव देने के लिए कि आप ऐसा कर सकते हैं, और यदि ऐसा है, तो मुझे समझ नहीं आता कि कोई ऐसा कैसे करेगा।
jsakaluk

3
मुझे Lakens et al के इस उद्धरण में "उद्देश्यपूर्ण" शब्द दिखाई नहीं दे रहा है। क्या वे वास्तव में अपने पेपर में इसका इस्तेमाल करते हैं? यदि हां, तो शायद आप कुछ और विशिष्ट संदर्भ प्रदान करने के लिए एक और उद्धरण जोड़ सकते हैं? यदि नहीं, तो मुझे यकीन नहीं है कि आप "एक चुने हुए अल्फा को उचित रूप से सही ठहराने जैसी बातें कह सकते हैं, जैसा कि Lakens et का सुझाव है"।
अमीबा का कहना है कि मोनिका

2
मैंने पोस्ट को अपडेट कर दिया है, जो अब "निष्पक्षता" से छीन लिया गया है। यह तर्क को गलत तरीके से समझने का मेरा उद्देश्य नहीं था, लेकिन मैं समझ सकता हूं कि अगर पाठकों ने सोचा कि मैंने लापरवाही से लिखा है। Lakens et al। "वैज्ञानिक कठोरता के सिद्धांतों द्वारा निर्देशित" के विवरणक का उपयोग करते हैं, इसलिए मेरा प्रश्न अब सर्जनिंग पर है। मैं अभी भी आश्चर्यचकित रह गया हूं, हालांकि, इसका क्या मतलब हो सकता है; अनुमान है कि अनुमानी से अधिक कठोर कोई भी आवश्यक कैसे है? यदि इससे कोई फर्क पड़ता है, तो मैं विशेष रूप से उत्सुक हूं कि कैसे एक वैज्ञानिक यथार्थवादी अल्फा के लिए "वैज्ञानिक रूप से कठोर" औचित्य के मानक तक पहुंच जाएगा।
jsakaluk

2
α

जवाबों:


1

(ट्विटर पर भी पोस्ट किया गया है, लेकिन यहां फिर से पोस्ट किया गया है) एक उत्तर में मेरा प्रयास: मुझे नहीं लगता कि एक औचित्य "विशुद्ध रूप से" उद्देश्य हो सकता है, लेकिन यह उन मानदंडों पर आधारित हो सकता है जो तर्कसंगत / आनुभविक आधार पर रक्षात्मक हैं। मुझे लगता है कि RSS एक तरह का उदाहरण है जिसे आप कुछ विशेष प्रकार के अनुसंधानों के लिए p <.005 को सही ठहरा सकते हैं, लेकिन मुझे यह भी लगता है कि अन्य परिस्थितियां हैं जहां एक अलग अल्फा <.005 (या तो उच्च या निम्न) की तुलना में अधिक इष्टतम होगा। अल्फा व्यवहार्य है और अध्ययन का उद्देश्य क्या है। उदाहरण के लिए, यदि आपके पास 5,000 प्रतिभागी हैं और ब्याज का सबसे छोटा प्रभाव आकार .10 है, तो आप p <.001 का उपयोग करना चाह सकते हैं और 90% शक्ति (संख्याएँ सभी बना हुआ है) इसके विपरीत, कहते हैं कि आप एक छोटा प्रयोग चलाते हैं। अनुसंधान की रेखा के लिए प्रारंभिक "अवधारणा का प्रमाण" है। आपके पास N = 100, p <.10, 90% शक्ति हो सकती है,


1

मैं हाल ही में एक ही सवाल के बारे में सोच रहा हूं, और मुझे लगता है कि मनोविज्ञान में कई अन्य लोग भी हैं।

सबसे पहले, आपके प्रत्येक प्रश्न का संबंध इस बात से है कि क्या कोई विकल्प वस्तुनिष्ठ रूप से बनाम विषयवस्तु के रूप में बनाया गया है, लेकिन (जैसा कि यहां अन्य लोगों ने उल्लेख किया है) आपने पूरी तरह से यह नहीं बताया है कि एक उद्देश्य बनाम व्यक्तिपरक विकल्प क्या होगा।

आपको गेलमैन एंड हेनिग 2015 के पेपर में दिलचस्पी हो सकती है जो विज्ञान में "उद्देश्य" और "व्यक्तिपरक" लेबल के सामान्य उपयोग में लिपटे मूल्यों की एक किस्म को खोल देता है। उनके निर्माण में, "उद्देश्य" का संबंध पारदर्शिता, आम सहमति, निष्पक्षता और अवलोकन योग्य वास्तविकता से मेल खाने से है, जबकि "व्यक्तिपरक" कई दृष्टिकोणों और संदर्भ-निर्भरता के मूल्यों से संबंधित है।

अपने प्रश्न 3 से संबंधित, बेयसियन दृष्टिकोण में, दुनिया के बारे में संभावना को अनिश्चितता के रूप में परिभाषित किया गया है। मैं जो समझता हूं, उसमें "विषयवादी बायेसियन" के पार तनाव स्पष्ट है (संभावनाएं विश्वास के अलग-अलग राज्यों को दर्शाती हैं) और "ऑब्जेक्टिविस्ट बायेसियन" विचार के स्कूल (संभावनाएं सर्वसम्मति को दर्शाती हैं)। ऑब्जेक्टिविस्ट स्कूल के भीतर, पारदर्शी तरीके से पूर्व वितरण (और मॉडल को अधिक सामान्यतः) के औचित्य पर जोर दिया जाता है जो आम सहमति के साथ तैयार होता है और जिसे जांचा जा सकता है, लेकिन मॉडल की पसंद निश्चित रूप से संदर्भ-निर्भर है (यानी , एक विशेष समस्या के लिए आम सहमति ज्ञान की स्थिति पर निर्भर करता है)।

अक्सर होने वाली गर्भाधान में, संभाव्यताएं बताती हैं कि किसी घटना की अनंत स्वतंत्र प्रतिकृति होने की संख्या कितनी होगी। नेमन-पियर्सन ढांचे के भीतर, एक सटीक वैकल्पिक परिकल्पना और एक सटीक अल्फा को निर्धारित करता है, डेटा के आधार पर सटीक नल या सटीक विकल्प (जनसंख्या प्रभाव बिल्कुल निर्धारित एक के बराबर) को स्वीकार करता है और फिर रिपोर्ट करता है। त्रुटि में ऐसा करने की लंबी अवधि की आवृत्ति।

इस ढांचे के भीतर, हमारे पास शायद ही कभी जनसंख्या प्रभाव के आकार का सटीक बिंदु अनुमान होता है, लेकिन कई मूल्यवान मूल्यों की एक सीमा होती है। इसलिए, किसी दिए गए अल्फ़ा पर सशर्त, हमारे पास टाइप 2 त्रुटि दर का सटीक अनुमान नहीं है, बल्कि कई प्रकार की प्रशंसनीय टाइप 2 त्रुटि दर हैं। इसी तरह, मैं आपके सामान्य बिंदु से सहमत होना चाहता हूं कि आम तौर पर हमें इस बात की सटीक जानकारी नहीं है कि टाइप 1 त्रुटि या टाइप 2 त्रुटि की लागत और लाभ वास्तव में क्या होंगे। मतलब हमें अक्सर ऐसी स्थिति का सामना करना पड़ता है, जहाँ हमें इस बारे में बहुत अधूरी जानकारी होती है कि हमारी परिकल्पना पहले स्थान पर क्या होनी चाहिए, और इस परिकल्पना को अस्वीकार करने के विरुद्ध बनाम स्वीकार करने की सापेक्ष लागत और लाभ क्या होंगे, इसकी भी कम जानकारी।

आपके प्रश्नों के लिए:

  1. क्या झूठी-सकारात्मक / झूठी-नकारात्मक दर और उनकी लागत अनुपात कभी भी अधिकांश सामाजिक विज्ञान संदर्भों में उचित रूप से उचित हो सकते हैं?

मुझे ऐसा लगता है, कि एक औचित्य पारदर्शी हो सकता है, सर्वसम्मति के साथ समझौता कर सकता है, निष्पक्ष हो सकता है, और वास्तविकता के अनुरूप हो सकता है (इस सीमा तक कि हम लागत और लाभों के बारे में हमारे पास उपलब्ध सर्वोत्तम जानकारी का उपयोग कर रहे हैं)।

हालाँकि, मुझे लगता है कि इस तरह के औचित्य भी व्यक्तिपरक होते हैं, इसमें किसी समस्या के लिए अल्फ़ा को कैसे सेट किया जाए, इस बारे में कई मान्य दृष्टिकोण हो सकते हैं और इसमें एक उपयुक्त अल्फ़ा का गठन सार्थक संदर्भ-निर्भर हो सकता है।

उदाहरण के लिए, हाल के वर्षों में, यह स्पष्ट हो गया है कि साहित्य में कई प्रभाव टाइप एम या टाइप एस त्रुटियों को दर्शाते हैं। वे टाइप 1 त्रुटियों को भी दर्शा सकते हैं, इस हद तक कि एक प्रतिकृति अध्ययन बिल्कुल शून्य प्रभाव के नल के लिए सबूत प्रदान करने में सक्षम है।

इस अवलोकन से संबंधित, एक उभरती हुई आम सहमति है कि निश्चितता के साथ दावे के लिए पी-वैल्यू थ्रेशोल्ड को समान रखा जाना चाहिए या अधिक कठोर बनाया जाना चाहिए (अर्थात, कोई भी अल्फा के लिए कंबल वृद्धि के लिए तर्क नहीं कर रहा है ।10 या .20। । इसी तरह, एक उभरती हुई सहमति है कि पी मानों को प्रकाशन के लिए एक मानदंड के रूप में उपयोग नहीं किया जाना चाहिए (जैसे, पंजीकृत रिपोर्ट प्रारूप)।

मेरे लिए, यह सूचना के एक प्रकार के "उद्देश्य" स्रोत को दर्शाता है - यानी, मेरे पढ़ने के लिए एक आम सहमति है कि झूठे दावे क्षेत्र के लिए महंगा हैं (भले ही हम इन लागतों पर एक डॉलर की राशि नहीं डाल सकते हैं)। मेरे पढ़ने के लिए, कोई स्पष्ट आम सहमति नहीं है कि पी-मूल्य सीमा को पूरा करने में विफल क्षेत्र के लिए एक नाटकीय लागत है। यदि लागतें हैं, तो उन्हें कम किया जा सकता है यदि पी-मूल्य थ्रेशोल्ड को पूरा करने में विफल होने से यह प्रभावित नहीं होता है कि क्या अनुमान एक प्रकाशित पेपर में बनाता है।

  1. यदि ऐसा है, तो सामान्य सिद्धांत क्या हैं जो इन विश्लेषणात्मक विकल्पों का औचित्य सिद्ध कर सकते हैं (और शायद एक उदाहरण या कार्रवाई में उनमें से दो)

मुझे यकीन नहीं है, लेकिन मैं किसी तरह के सिद्धांत की ओर झुकूंगा कि निर्णय किसी विशेष संदर्भ में विभिन्न प्रकार के विश्लेषणात्मक विकल्पों की लागत और लाभों के बारे में पारदर्शी (स्थानीय या वैश्विक) सर्वसम्मति के आधार पर किए जाएं, यहां तक ​​कि इन लागतों और लाभों के बारे में बुरी तरह से अधूरी जानकारी का सामना।

  1. यदि नहीं, तो लागत अनुपात चुनने में संभावित विषय-वस्तु का मेरा सादृश्य है - बायेसियन पूर्व चयन के समान होने के नाते - एक उचित एक?

हां, अक्सरवादी और बेयसियन परंपराओं में, सांख्यिकीय मॉडल के कई अलग-अलग पहलुओं में निष्पक्षता (यानी, कई दृष्टिकोण और संदर्भ-निर्भरता) के साथ-साथ निष्पक्षता (यानी, पारदर्शिता, आम सहमति, निष्पक्षता और पत्राचार वास्तविकता के अनुरूप) के लिए जगह होती है। और उस मॉडल का उपयोग कैसे किया जाता है (चुने हुए पूर्व, चुने गए संभावना, चुने गए निर्णय सीमा, आदि)।


यह एक अच्छा जवाब है। एक टुकड़ा जिसके बारे में मैं निश्चित नहीं हूं वह पत्राचार का दावा है। यदि हम इस शब्द को उसी तरह से समझते हैं (मैं सत्य के पत्राचार सिद्धांत के संदर्भ में सोच रहा हूं), तो वास्तव में, ऐसा लगता है कि पत्राचार अस्थिर जमीन पर हो सकता है यदि हमारे पास प्रकार की लागतों का सटीक विचार नहीं है I / II त्रुटियाँ। इसके बजाय, ऐसा लगता है कि सुसंगतता के लिए एक बेहतर दावा है (इन प्रारंभिक मान्यताओं को देखते हुए, बाकी संख्याएं "समझदारी"), या व्यावहारिकता (हमारे प्रकार I / II त्रुटि लागत का अनुमान अध्ययन योजना के लिए एक उपयोगी कथा है)।
जस्सालुक

शायद मैं पत्राचार / यथार्थवादी दृष्टिकोण से "औचित्य" से शादी करने की बहुत कोशिश कर रहा हूं, और समझ के इन अन्य तरीकों से, टाइप I / II त्रुटि दर को इस तरह से चुना जा सकता है जो "उचित" है?
jsakaluk

मुझे इन विचारों की ओर इशारा करने के लिए धन्यवाद। मैं कहता हूं कि किसी भी संदर्भ में, हमारे पास भविष्य की लागतों और लाभों के बारे में अच्छी जानकारी हो सकती है, या हमारे पास बहुत कम जानकारी हो सकती है। बहुत मोटे अर्थों में, इस बात पर आम सहमति बढ़ रही है कि झूठी सकारात्मकता (पी <थ्रेसहोल्ड, सच्चा प्रभाव बिल्कुल शून्य है) एक महत्वपूर्ण सीमा को पूरा करने में विफल रहने के उदाहरणों की तुलना में क्षेत्र के लिए अधिक हानिकारक हो सकता है (लेकिन वैसे भी अनुमान प्रकाशित करना)। विशिष्ट स्थानीय परिस्थितियों में, एक महत्वपूर्ण सीमा को पूरा करने में विफल होने के साथ और अधिक गंभीर लागतें जुड़ी हो सकती हैं।
sourdough

मूर्त रूप से, "अल्फा" और "टाइप 2 त्रुटि" की अवधारणाएं केवल एनपी फ्रेमवर्क में मौजूद हैं जहां विश्लेषक ने दो सटीक परिकल्पनाएं निर्दिष्ट की हैं और प्रक्रिया के अंत में एक या दूसरे को स्वीकार करने के लिए प्रतिबद्ध है। हालांकि, आम तौर पर, विश्लेषकों को अक्सर अनिश्चित शक्ति के साथ एक निरर्थक अनुमान के आधार पर शून्य को स्वीकार नहीं करने की चेतावनी दी जाती है, अनिवार्य रूप से एक फिशर-शैली की व्याख्या पर निर्भर करता है जहां कोई नल स्वीकार नहीं करता है और कोई "टाइप त्रुटि" नहीं है।
sourdough

1
यह मेरे लिए मनोरंजक है कि सामाजिक नेटवर्क, सामाजिक वर्ग, और "आम सहमति" के आपके विवरण के पीछे सामाजिक बातचीत किसी भी तरह व्यक्तिपरक मान्यताओं और मूल्यों से तलाक लेती है जो उन सभी को रेखांकित करती है।
एलेक्सिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.