गेलमैन और कार्लिन को समझना "बिजली की गणना से परे:" (2014)


11

मैं गेलमैन एंड कार्लिन "बियॉन्ड पॉवर कैलकुलेशन: असेसमेंट टाइप एस (साइन) और टाइप एम (मैग्निट्यूड एरर्स)" (2014) पढ़ रहा हूं । मैं मुख्य विचार, मुख्य मार्ग को समझने की कोशिश कर रहा हूं, लेकिन मैं भ्रमित हूं। किसी ने मुझे सार आसवन मदद कर सकता है?

कागज कुछ इस तरह से जाता है (अगर मैंने इसे सही तरीके से समझा)।

  • मनोविज्ञान में सांख्यिकीय अध्ययन अक्सर छोटे नमूनों से ग्रस्त होते हैं।
  • किसी दिए गए अध्ययन में सांख्यिकीय रूप से महत्वपूर्ण परिणाम पर सशर्त,
    (1) सही प्रभाव का आकार गंभीर रूप से कम होने की संभावना है और
    (2) प्रभाव का संकेत उच्च संभावना के साथ विपरीत हो सकता है - जब तक कि नमूना आकार काफी बड़ा न हो।
  • ऊपर जनसंख्या में प्रभाव के आकार के पूर्व अनुमान का उपयोग करके दिखाया गया है, और यह प्रभाव आमतौर पर छोटा होने के लिए लिया जाता है।

मेरी पहली समस्या यह है कि सांख्यिकीय रूप से महत्वपूर्ण परिणाम पर स्थिति क्यों? क्या यह प्रकाशन के पूर्वाग्रह को दर्शाता है? लेकिन ऐसा लगता नहीं है। तो क्यों, फिर?

मेरी दूसरी समस्या यह है, अगर मैं खुद एक अध्ययन करता हूं, तो क्या मुझे अपने परिणामों का अलग-अलग तरीके से इलाज करना चाहिए, जिनका मैं उपयोग करता हूं (मैं लगातार आंकड़े देता हूं, बायेसियन से बहुत परिचित नहीं)? उदाहरण के लिए, मैं एक डेटा नमूना लेता हूं, एक मॉडल का अनुमान लगाता हूं और ब्याज के कुछ प्रभाव और इसके चारों ओर एक विश्वास के लिए एक बिंदु अनुमान रिकॉर्ड करता हूं। क्या मुझे अब अपने परिणाम का अविश्वास करना चाहिए? या अगर यह सांख्यिकीय रूप से महत्वपूर्ण है तो मुझे इसका अविश्वास करना चाहिए? कोई भी पूर्व परिवर्तन कैसे दिया जाता है?

सांख्यिकीय शोध के "निर्माता" और लागू सांख्यिकीय कागजों के एक पाठक के लिए (2) के लिए मुख्य टेकवे (1) क्या है?

संदर्भ:

पुनश्च मुझे लगता है कि मेरे लिए नया तत्व यहां पूर्व सूचना का समावेश है, जो मुझे यकीन नहीं है कि कैसे इलाज किया जाए (लगातार प्रतिमान से आ रहा है)।


जैसा कि आप देख सकते हैं, मैं बहुत उलझन में हूं, इसलिए मेरे सवाल सुसंगत या समझदार नहीं लग सकते हैं। मैं जो भी पेपर पढ़ रहा हूं, उससे अधिक समझ बनाने के लिए मैं किसी भी संकेत की सराहना करूंगा। मुझे उम्मीद है कि इस मुद्दे की मेरी समझ बढ़ने के साथ अधिक समझदार सवालों का सामना करने में सक्षम होगा।
रिचर्ड हार्डी

7
ध्यान दें कि उन्होंने शुरुआत में ही कागज के आधार को ठीक कर दिया था: " आपने अभी एक प्रयोग करना समाप्त किया है। आप परिणामों का विश्लेषण करते हैं, और आपको एक महत्वपूर्ण प्रभाव मिलता हैसफलता! लेकिन प्रतीक्षा करें - आपका अध्ययन वास्तव में आपको कितनी जानकारी देता है।" ? आपको अपने परिणामों पर कितना भरोसा करना चाहिए? "--- वे बता रहे हैं कि क्या होता है / जब आपके पास महत्व होता है तो क्या निहित होता है। वे उन परिणामों का उपयोग महत्व के अलावा अन्य चीजों पर ध्यान केंद्रित करने के लिए प्रेरित करने के लिए करते हैं।
Glen_b -Reinstate मोनिका

आपको अपने परिणाम का अविश्वास करना चाहिए - हाँ - यदि आप कई महत्व परीक्षण चलाते हैं और सभी को फ़िल्टर करते हैं जो कि महत्वहीन हो जाता है; यह एक "प्रकाशन पूर्वाग्रह" की तरह है, लेकिन यह बिना किसी प्रकाशन के हो सकता है, बस एक व्यक्ति की प्रयोगशाला के अंदर कई महीनों के 'या वर्षों के प्रयोगों के दौरान। हर कोई कुछ हद तक ऐसा करता है, इसलिए महत्वपूर्ण परिणामों पर कंडीशनिंग में शैक्षणिक रुचि।
अमीबा

@amoeba, ठीक है, लेकिन अगर (काल्पनिक रूप से) मैं केवल एक मॉडल का अनुमान लगाता हूं और केवल एक निर्धारित पैरामीटर (इसलिए बिल्कुल कोई एकाधिक परीक्षण) पर ध्यान केंद्रित नहीं करता है, तो क्या जेलमैन और कार्लिन का परिणाम कुछ भी बदल जाएगा? पूर्व सूचना सहित कैसे?
रिचर्ड हार्डी

2
झूठी खोज दर को परखने के लिए पूर्व सूचना की आवश्यकता है; महत्व परीक्षण के सामान्य तर्क केवल टाइप I त्रुटि दर की गारंटी देता है P (signif | null)। P (null | signif) का अनुमान लगाने के लिए आपको कुछ पूर्व आह्वान करने की आवश्यकता है। यही कारण है कि जेलमैन और कार्लिन यहां कर रहे हैं। यदि आप केवल एक मॉडल का अनुमान लगाते हैं, तो "झूठी खोज की दर" व्यर्थ है (लगातार दृष्टिकोण में); लेकिन आमतौर पर लोग कई मॉडल का अनुमान लगाते हैं :-) या कम से कम वे साहित्य पढ़ते हैं जिसमें कई मॉडल का अनुमान लगाने वाले अन्य लोग होते हैं।
अमीबा

जवाबों:


5

मैंने कागज को फिर से पढ़ा और इस बार यह बहुत स्पष्ट है। अब @Glen_b और @amoeba की उपयोगी टिप्पणियाँ भी बहुत मायने रखती हैं।

पूरी चर्चा एक प्रारंभिक बिंदु पर आधारित है जो एक सांख्यिकीय महत्वपूर्ण परिणाम प्राप्त किया गया है। उस पर सशर्त, हमारे पास अनुमानित प्रभाव आकार अलग-अलग वितरित होता है, जो कंडीशनिंग से अनुपस्थित होता है: पेपर दो समस्याओं को लक्षित करता है:

Pβ^(|β^ is statistically significant)Pβ^().
  1. प्रकाशन पूर्वाग्रह (केवल सांख्यिकीय महत्वपूर्ण परिणाम प्रकाशित होते हैं) और
  2. नए अध्ययनों के लिए डिजाइन गणना में पूर्वाग्रह (बेंचमार्क के रूप में बहुत बड़े अपेक्षित प्रभाव आकार लेना)।

अच्छी खबर यह है, दोनों समस्याओं को संतोषजनक तरीके से संबोधित किया जा सकता है।

  1. एक प्रशंसनीय अपेक्षित प्रभाव आकार को देखते हुए , एक अनुमानित प्रभाव आकार (यह मानते हुए प्रकाशित किया गया था क्योंकि यह सांख्यिकीय रूप से महत्वपूर्ण था, जबकि अन्यथा यह प्रकाशित नहीं हुआ होगा), एक अनुमानित मानक त्रुटि अनुमानक के और वितरण परिवार (जैसे सामान्य या छात्र के ), हम प्रभाव के आकार के बिना शर्त वितरण को पीछे कर सकते हैं ।β रों ( Β ) टी पी β ( )βplausibleβ^s.e.(β^)tPβ^()
  2. पिछले निष्कर्षों का उपयोग करना, 1. एक प्रशंसनीय प्रभाव आकार की मदद से अध्ययन डिजाइन में निर्धारित और उपयोग किया जा सकता है।βplausible

संक्षेप में मेरे अपने दो सवालों के जवाब देने के लिए:

  1. यह प्रकाशन के पूर्वाग्रह के बारे में है, हालांकि डेटा ड्रेजिंग के अर्थ में नहीं है, लेकिन कम अध्ययन के संदर्भ में; सांख्यिकीय रूप से महत्वपूर्ण परिणाम होने की संभावना है, कहते हैं, अशक्त के तहत 5% अस्वीकार (इस प्रकार नल वास्तव में सच है, लेकिन हम वैकल्पिक रूप से अस्वीकृति के बजाय अस्वीकृति के बजाय इसे दूर संयोग से समाप्त करने के लिए हुआ) (जहां अशक्त सत्य नहीं है और परिणाम "वास्तविक" है)।
  2. मुझे अशक्त को अस्वीकार करने के बारे में सतर्क रहना चाहिए, क्योंकि सांख्यिकीय रूप से महत्वपूर्ण परिणाम संभावना के कारण होने की संभावना है (भले ही मौका "वास्तविक" प्रभाव (कम शक्ति के कारण) के बजाय, 5% तक सीमित हो) ।

2
Glen_b का यह उत्तर भी बहुत मददगार है।
रिचर्ड हार्डी

Idk अगर वहाँ वास्तव में कुछ भी गैर-बेमानी है, लेकिन मैंने उस प्रश्न का उत्तर भी लिखा है जो सहायक हो सकता है। एक बिंदु: मुझे लगता है कि वे जरूरी नहीं कि " ( कागज में ) का उपयोग करके प्रभाव के आकार के "सही" वितरण का आकलन करने की वकालत करें , बल्कि इसका उपयोग टाइप एस या होने की संभावना का अनुमान लगाने के लिए करें। अपने वर्तमान परीक्षा परिणामों के आधार पर M त्रुटि टाइप करें। यह बायेसियन है, लेकिन आईएमएचओ "बायेसियन-लाइट";) की तरह है क्योंकि आप अभी भी इसे लगातार परीक्षण के परिणामों की व्याख्या करने के लिए उपयोग कर रहे हैं। DβplausibleD
पैट्रिक बी।

@PatrickBB, धन्यवाद। मैं थोड़ी देर बाद देखूंगा। (मैं देखता हूं कि मैंने तुम्हारा उत्तर पहले ही दे दिया था; इसका मतलब है कि मैं पहले ही इसे मददगार पाया था।)
रिचर्ड हार्डी

1
रिचर्ड, मैंने प्रभाव आकारों के अधिक सामान्य मामले के लिए टाइप "एस" और टाइप "एम" त्रुटि का अनुमान लगाने के लिए एक आर फ़ंक्शन विकसित किया है , जो सामान्य वितरण के तहत गेलमैन नहीं दिखाता है। जैसा कि आप कागज को पहले से एक सरल पुनर्प्राप्ति प्रक्रिया पढ़ते हैं, और सांख्यिकीय रूप से महत्वपूर्ण खोज करते हैं। लेकिन संपूर्ण प्रक्रिया पूरी तरह से एक शक्ति विश्लेषण पर आधारित है। संक्षेप में, छोटे शोर के अध्ययन के लिए एसई बड़ा है और अनुभवजन्य रूप से प्रशंसनीय प्रभाव के आकार द्वारा कई उचित मानकर आप उचित प्राप्त कर सकते हैं ...
rnorouzian

1
... एक भविष्य के अध्ययन के प्रकार "एस" और उच्च अतिशयोक्ति दर (यानी, "एम") के उच्च दरों से बचने के लिए आवश्यक नमूना आकार के संदर्भ में क्या शामिल होना चाहिए, इसका अनुमान है। रिकॉर्ड्स के लिए, गेलमैन का टाइप "एस" केवल अंतर्निहित प्रभाव आकार वितरण के तहत वह टुकड़ा है जो सत्ता द्वारा विभाजित अंडरलिंग प्रभाव के विपरीत पक्ष पर है। वैसे भी, फ़ंक्शन को देखें यदि यह मदद कर सकता है।
रनरॉज़ियन

2

इस पत्र का एक और कोण है जो सहायक हो सकता है यदि आप पहले से ही बायेसियन विश्लेषण लागू कर रहे हैं और सांख्यिकीय महत्व वाले हिस्से की परवाह नहीं करते हैं।

मान लीजिए कि , आपके द्वारा अनुमान लगाने में रुचि रखने वाली मात्रा के (प्रभाव आकार) के पीछे का CDF है । बायेसियन स्थिति में, संकेतन घनत्व कार्यों के बारे में बात करने के लिए अंकन और स्विचिंग के साथ कुछ स्वतंत्रता लेते हैं, तो आपके पास कुछ अवलोकन योग्य मात्रा आधार पर एक संभावना कार्य होगा , और कुछ शुद्ध से पहले :PβVβ

p(β|V)p(V|β)p(β)

यहां एक वेक्टर मात्रा होने की संभावना है, सरलतम मामले में कई स्वतंत्र टिप्पणियों का एक वेक्टर है जिसमें से संभावना शर्तों के सामान्य उत्पाद उत्पन्न होते हैं, लॉग शर्तों के योग में बदल जाते हैं, आदि उस वेक्टर की लंबाई एक होगी। नमूना आकार का पैरामीटर। अन्य मॉडलों में, पॉइसन कहा जाता है, इसे पॉइसन पैरामीटर में रोल किया जा सकता है, जो नमूना आकार के एक पैरामीटर को भी व्यक्त करता है।VVp(V|β)

अब मान लीजिए कि आप साहित्य समीक्षा या अन्य माध्यमों के आधार पर एक परिकल्पना बनाते हैं । आप अपने ग्रहण डेटा पैदा करने की प्रक्रिया का उपयोग कर सकते हैं के साथ का सिम्युलेशन और है, जो प्रतिनिधित्व करते हैं कि आप किस डेटा, अगर आपका मॉडल अच्छी तरह से निर्दिष्ट किया जाता है देखना होगा सही प्रभाव आकार है।βplausibleP(V|β)β=βplausibleVβplausible

फिर आप कुछ बेवकूफ कर सकते हैं: चारों ओर मुड़ें और उस नमूने की तरह कार्य करें, जो मनाया गया डेटा है, और समग्र रूप से पीछे से के नमूनों का एक गुच्छा खींचें । इन नमूनों से, आप कागज में वर्णित आंकड़ों की गणना कर सकते हैं।Vβ

लिंक किए गए पेपर से मात्रा, एस त्रुटि और अतिशयोक्ति अनुपात टाइप करें, पहले से ही बहुत अधिक एक ही चीज का प्रतिनिधित्व करते हैं। उस प्रभाव के आकार के लिए, आपके मॉडल के विकल्प दिए गए, ये आपको लिए चुने गए नमूने के आकार के दिए गए पैरामीटर के लिए बताएंगे कि गलत संकेत की पश्चगामी संभावना क्या है और प्रत्याशित (पीछे के) अनुपात में प्रभाव के आकार के बीच क्या होगा मॉडल द्वारा उत्पादित और प्रशंसनीय प्रभाव आकार, जैसा कि आप जो भी पहलू नमूना आकार से संबंधित हैं, भिन्न होते हैं।VV

ट्रिकिएस्ट भाग पोस्टीरियर "पावर" को पोस्टीरियर प्रायिकता के रूप में व्याख्या कर रहा है कि अनुमानित मूल्य कम से कम काल्पनिक मूल्य जितना बड़ा है । यह अशक्त परिकल्पना को अस्वीकार करने की क्षमता का एक उपाय नहीं है, क्योंकि इस संभावना के आकार का उपयोग बार-बार अर्थ में एक महत्वपूर्ण उपाय के रूप में नहीं किया जाएगा।ββplausible

मुझे वास्तव में यह नहीं पता है कि इसे क्या कहा जाए, सिवाय इसके कि मेरे पास अभ्यास में कई अनुप्रयोग हैं जहां यह अध्ययन डिजाइन के बारे में तर्क करने के लिए एक बहुत ही उपयोगी मीट्रिक है। यह मूल रूप से आप किसी तरह से देखने के लिए कि आप कितना डेटा उपलब्ध कराने की आवश्यकता (अपने डेटा संभालने के लिए एक प्रक्रिया का उपयोग से पूरी तरह से उत्पन्न होता है प्रदान करता है संभावना है और कुछ "पर्याप्त उच्च" में परिणाम से पहले आकार के बारे में एक विशेष धारणा के लिए) एक निश्चित आकार के प्रभाव की पूर्ववर्ती संभावना।βplausible

जहाँ यह व्यवहार में मेरे लिए सबसे अधिक मददगार रहा है, उन स्थितियों में जहाँ एक ही सामान्य मॉडल को बार-बार अलग-अलग डेटा सेटों पर लागू करने की आवश्यकता होती है, लेकिन जहाँ डेटा सेटों के बीच बारीकियाँ पूर्व वितरण को बदलने या साहित्य समीक्षा की एक अलग सबसेट का उपयोग करने के लिए उचित हो सकती हैं तय करें कि की व्यावहारिक पसंद क्या है , और फिर अलग-अलग डेटा सेटों के लिए इन समायोजन के बारे में पता लगाने के परिणामस्वरूप ऐसे मामले में परिणाम मिलेगा, जहां आपको पोस्ट-ऑवर में गैर-तुच्छ संभावना होने के लिए बहुत अधिक डेटा की आवश्यकता होगी वितरण के दाहिने हिस्से में केंद्रित है।βplausible

आपको सावधान रहना होगा कि कोई भी इस "पावर" मीट्रिक का दुरुपयोग नहीं करता है जैसे कि यह लगातार बिजली की गणना के समान है, जो काफी कठिन है। लेकिन ये सभी मैट्रिक्स भावी और पूर्वव्यापी डिजाइन विश्लेषण के लिए काफी उपयोगी हैं, जब पूरी मॉडलिंग प्रक्रिया बायेसियन है और किसी भी सांख्यिकीय महत्व के परिणाम का उल्लेख नहीं करेगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.