प्रभाव आकार क्या है ... और यह क्यों उपयोगी है?


18

मेरे पास एक परिचयात्मक-स्नातक स्तर की सांख्यिकी पृष्ठभूमि है (मान लें कि मैं स्नातक स्तर पर गणितीय आंकड़े और संभावना जानता हूं (उदाहरण के लिए, वैकरली एट अल।, रॉस 'प्रोबेबिलिटी), और माप सिद्धांत का कुछ ज्ञान है)।

मैंने हाल ही में शिक्षा सांख्यिकी में प्रयोगात्मक डिजाइन और सांख्यिकीय रिपोर्टिंग करने वाली नौकरी शुरू की है, और एक परियोजना पर रखा गया है, जहां मैं मूल रूप से स्कूलों के लिए जवाबदेही मैट्रिक्स का आकलन कर रहा हूं और डेटा का विश्लेषण करना है, परिवर्तन का प्रस्ताव करना है, आदि ध्यान दें कि मैं ही हूं। गणितीय सांख्यिकी पृष्ठभूमि के साथ मेरे विभाग में एक।

मेरी स्थिति में, लोगों ने कार्यक्रमों की प्रभावशीलता को मापने के लिए प्रभाव के आकार का उपयोग करके दृढ़ता से सुझाव दिया है। मेरे द्वारा प्रभाव के आकार के बारे में सुना गया एकमात्र समय मेरे मित्र का है, जिन्होंने मनोविज्ञान का अध्ययन किया है। मेरी धारणा है कि

Effect Size=Difference of MeansStandard Deviation.

पारंपरिक परिकल्पना परीक्षण पर इस मीट्रिक के बारे में क्या उपयोगी है, और मुझे इसकी परवाह क्यों करनी चाहिए? मेरे लिए, यह दो-नमूना t -est के लिए एक परीक्षण आँकड़ा से अधिक कुछ नहीं लगता है । मुझे यह सब कुछ अलग-अलग नहीं दिखता है, हो सकता है कि सब कुछ एक ही पैमाने पर रखा गया हो (यही वजह है कि कोई भी वास्तव में "कुछ भी सामान्य करता है"), लेकिन मुझे लगा कि परीक्षण के आँकड़े (जो कि मेरे लिए आकार जैसा लगता है) फैशन से बाहर थे , और p -values ​​को प्राथमिकता दी जाती है।


मैं "परिचयात्मक-स्नातक-स्तरीय सांख्यिकी पृष्ठभूमि" से थोड़ा भ्रमित हूं; पहले दो पद एक दूसरे के विपरीत प्रतीत होते हैं। क्या आप स्पष्ट कर सकते हैं कि इसमें क्या शामिल है? क्या यह स्नातक स्तर के आँकड़ों की शुरुआत जैसा है या कुछ और?
Glen_b -Reinstate मोनिका

2
@Glen_b हाँ, यह स्नातक स्तर के आंकड़े शुरू कर रहा है। मान लें कि मैं स्नातक स्तर पर गणितीय आँकड़े और संभावना जानता हूं (उदाहरण के लिए, वैकर एट अल।, रॉस 'प्रोबेबिलिटी), और माप सिद्धांत का कुछ ज्ञान है।
शहनाई

3
मैं सहानुभूति रख सकता हूं, ओ.पी. गणित / स्टेट बैकग्राउंड से आने वाले, अक्सर समाजशास्त्र या मनोविज्ञान पीएचडी कार्यक्रमों में प्रशिक्षित लोगों के साथ आंकड़ों पर चर्चा करना बहुत ही भयावह होता था, क्योंकि उनके पास हर चीज के लिए अलग-अलग शब्द होते हैं :) और कभी-कभी चीजों के बारे में कठोर विचार होते हैं कि वे कैसे भी करें, चाहे कुछ भी करें सर्वोत्तम सांख्यिकीय अभ्यास, जैसे कि एक जिद्दी समीक्षक / संपादक को समझाने की कोशिश करना कि संरचनात्मक समीकरण मॉडलिंग सभी समस्याओं का समाधान नहीं है, या यह कि रैखिकता हमेशा एक अच्छी धारणा नहीं है! हालाँकि, मैंने कई वर्षों के बाद, उस समुदाय के साथ अच्छा तालमेल करना सीखा है!
क्रोकगिल

जवाबों:


20

यह प्रभाव आकार का एक माप है, लेकिन कई अन्य हैं। यह निश्चित रूप से है नहीं परीक्षण आंकड़ा। प्रभाव के आकार के आपके माप को अक्सर कोहेन का डी कहा जाता है (कड़ाई से बोलना सही है, यदि एसडी केवल MLE के माध्यम से अनुमानित है - यानी, बेसेल के सुधार के बिना ); अधिक उदारता से, इसे 'मानकीकृत माध्य अंतर' कहा जाता है। शायद यह कर देगा यह स्पष्ट है कि टी : tdtd
है यही कारण है कि, "/

d=x¯2x¯1SDt=x¯2x¯1SEt=x¯2x¯1SDN
"मानकीकृत माध्य अंतर के सूत्र से गायब है। /N

अधिक आम तौर पर, नमूना आकार को मूल्य से बाहर ले जाने से वास्तविक जानकारी मिलती है। सही मान लेना अनंत दशमलव स्थानों पर ठीक नहीं है , आप पर्याप्त एन के साथ किसी भी स्तर के महत्व को प्राप्त कर सकते हैं । P -value इस बारे में जानकारी प्रदान करता है कि हम अशक्त परिकल्पना को खारिज करने में कितने आश्वस्त हो सकते हैं, लेकिन ऐसा करने से यह पता चलता है कि आपके डेटा का कितना बड़ा प्रभाव है। यह जानना निश्चित रूप से अच्छा है कि क्या हमें अशक्त परिकल्पना को अस्वीकार करना चाहिए, लेकिन यह जानना भी अच्छा होगा कि क्या आपके शैक्षिक हस्तक्षेप का प्रभाव स्कूली बच्चों के लिए बड़े लाभ पैदा करता है या तुच्छ है और केवल बड़े एन के कारण महत्वपूर्ण है । 0NpN


15

मैं एक अधिक प्रासंगिक क्षेत्र (मनोविज्ञान या शिक्षा, पृष्ठभूमि) में पृष्ठभूमि वाले किसी व्यक्ति से अपेक्षा करता हूं कि वह बेहतर उत्तर के साथ झंकार करेगा, लेकिन मैं इसे एक शॉट दूंगा।

" प्रभाव का आकार " एक से अधिक अर्थों वाला शब्द है - जो कि पिछले कुछ वर्षों में कुछ उलझे हुए वार्तालापों का नेतृत्व करता है जब तक कि मैं अंततः उस अहसास तक नहीं आया। यहां हम स्पष्ट रूप से स्केल-फॉर-स्टैंडर्ड-विचलन संस्करण के साथ काम कर रहे हैं ("कितने मानक विचलन ने इसे बदल दिया?")

विषय क्षेत्रों में "प्रभाव आकार" के उस प्रकार को देखने के कारण का एक हिस्सा वे आम हैं कि वे अक्सर चर होते हैं जिनके विशेष मूल्य स्वाभाविक रूप से सार्थक नहीं होते हैं, लेकिन कुछ अंतर्निहित चीज़ों को मापने के प्रयास के लिए निर्मित होते हैं जो प्राप्त करना कठिन होता है पर।

उदाहरण के लिए, कल्पना करें कि आप नौकरी की संतुष्टि को मापने की कोशिश कर रहे हैं (शायद एक मॉडल के लिए जो इसे स्वतंत्र चर के कुछ सेट से संबंधित है, शायद ब्याज के कुछ उपचार सहित, उदाहरण के लिए)। आपके पास इसे सीधे प्राप्त करने का कोई तरीका नहीं है, लेकिन आप (उदाहरण के लिए) इसके विभिन्न पहलुओं पर प्राप्त करने के लिए कुछ प्रश्नावली का निर्माण करने का प्रयास कर सकते हैं, शायद एक लिकट पैमाने की तरह कुछ का उपयोग कर।

एक अलग शोधकर्ता के पास नौकरी की संतुष्टि को मापने के लिए एक अलग दृष्टिकोण हो सकता है, और इसलिए "संतुष्टि" माप के आपके दो सेट सीधे तुलनीय नहीं हैं - लेकिन अगर उनके पास वैधता के विभिन्न रूप हैं और इसी तरह इन चीजों की जांच की जाती है (ताकि) वे यथोचित रूप से संतुष्टि को मापते हुए) हो सकते हैं, फिर उन्हें बहुत समान प्रभाव वाले आकारों की आशा की जा सकती है; कम से कम प्रभाव आकार में लगभग अधिक होने जा रहा है।


3
तकनीकी के बिना एक 'निर्माण' के विचार को शुरू करने का एक बहुत अच्छा काम करता है। लेकिन अपने काम में, क्लैरिनेटिस्ट, आपको इस विचार को कुछ गहराई से समझने की आवश्यकता होगी। मैं मनोवैज्ञानिक बुलेटिन में 'निर्माण वैधता', क्रोनबेक और मीहल के 1955 के लेख पर मूल स्रोत की अत्यधिक अनुशंसा करता हूं: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
डेविड सी। नॉरिस

7

उपरोक्त सूत्र है कि आप संबंधित नमूनों के लिए कोहेन के डी की गणना कैसे करते हैं (जो कि संभवतः आपके पास है?), यदि वे असंबंधित हैं तो आप इसके बजाय पूल किए गए विचरण का उपयोग कर सकते हैं। अलग-अलग आँकड़े हैं जो आपको प्रभाव के आकार के बारे में बताएंगे, लेकिन कोहेन का डी एक मानकीकृत उपाय है जो 0 और 3 के बीच भिन्न हो सकता है। यदि आपके पास बहुत से भिन्न चर हैं, तो जब आप सोच रहे हों तो मानकीकृत उपाय करना अच्छा हो सकता है। उन सभी को एक साथ। दूसरी ओर, कई लोग मापी जा रही इकाइयों के संदर्भ में प्रभाव के आकार को समझना पसंद करते हैं। जब आप पहले से ही p मान रखते हैं तो d की गणना क्यों करें? वर्तमान में मैं जिस डेटासेट के साथ काम कर रहा हूं, उसका एक उदाहरण है। मैं स्कूलों में आयोजित एक व्यवधानपूर्ण हस्तक्षेप को देख रहा हूं, जिसे मान्य मनोवैज्ञानिक प्रश्नावली (लिकर डेटा का उत्पादन) का उपयोग करके मापा जाता है। लगभग मेरे सभी चर सांख्यिकीय रूप से महत्वपूर्ण परिवर्तन दिखाते हैं, शायद इसलिए कि मैं एक बड़ा नमूना (n = ~ 250) है। हालांकि, कुछ चरों के लिए, कोहेन के डीकाफी कम है, 0.12 कहते हैं, जो इंगित करता है कि हालांकि निश्चित रूप से परिवर्तन है, यह एक नैदानिक ​​रूप से महत्वपूर्ण बदलाव नहीं हो सकता है और इसलिए यह चर्चा और व्याख्या करना महत्वपूर्ण है कि डेटा में क्या हो रहा है। यह अवधारणा व्यापक रूप से मनोविज्ञान और स्वास्थ्य विज्ञान में उपयोग की जाती है जहां चिकित्सकों (या आपके मामले में) को उपचार की वास्तविक नैदानिक ​​उपयोगिता (या जो भी वे प्रयोग कर रहे हैं) पर विचार करने की आवश्यकता है। कोहेन की डी हमें सवालों के जवाब देने में मदद करती है कि क्या वास्तव में एक हस्तक्षेप करने लायक है (पी मूल्यों की परवाह किए बिना)। चिकित्सा विज्ञान में वे NNT पर विचार करना पसंद करते हैं , और प्रश्न में स्थिति की गंभीरता के संदर्भ में इसका मूल्यांकन करते हैं। @Krstoffr http://rpsychologist.com/d3/cohend/ से इस महान संसाधन पर एक नज़र डालें



2

वास्तव में, पी-वैल्यू अब अंत में 'आउट ऑफ फैशन' भी हैं: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 । नल की परिकल्पना महत्व परीक्षण (NHST) आपके नमूने के आकार के विवरण की तुलना में बहुत कम पैदा करता है। (*) किसी भी प्रयोगात्मक हस्तक्षेप का कुछ प्रभाव होगा, जो यह कहना है कि 'नो इफेक्ट' की सरल नल परिकल्पना एक सख्त अर्थ में हमेशा झूठी है। । इसलिए, एक 'गैर-महत्वपूर्ण' परीक्षण का सीधा मतलब है कि आपका नमूना आकार काफी बड़ा नहीं था; 'महत्वपूर्ण' परीक्षण का अर्थ है कि आपने कुछ 'खोजने' के लिए पर्याप्त डेटा एकत्र किया है।

'प्रभाव आकार' समस्या के प्राकृतिक पैमाने पर एक उपाय पेश करके, इसे मापने के प्रयास का प्रतिनिधित्व करता है। चिकित्सा में, जहां उपचारों का हमेशा कुछ प्रभाव होता है (भले ही यह एक प्लेसबो प्रभाव हो), एक 'नैदानिक ​​रूप से सार्थक प्रभाव' की धारणा को 50% पूर्व संभावना के खिलाफ गार्ड करने के लिए पेश किया जाता है कि एक 'उपचार' के लिए 'ए' पाया जाएगा सांख्यिकीय रूप से) महत्वपूर्ण सकारात्मक प्रभाव '(हालांकि ऋणात्मक) एक मनमाने ढंग से बड़े अध्ययन में।

यदि मैं आपके कार्य की प्रकृति को समझता हूं, तो क्लैरिनिस्ट, दिन के अंत में, इसका वैध उद्देश्य ऐसे कार्यों / हस्तक्षेपों को सूचित करना है जो आपके दायरे में स्कूलों में शिक्षा में सुधार करते हैं। इस प्रकार, आपकी सेटिंग एक निर्णय-सिद्धांत है, और बेयसियन तरीके सबसे उपयुक्त (और विशिष्ट रूप से सुसंगत [1] ) दृष्टिकोण हैं।

वास्तव में, निरंतरवादी तरीकों को समझने का सबसे अच्छा तरीका बेयसियन तरीकों के रूप में अनुमानित है । बायेसियन पोस्टीरियर डिस्ट्रीब्यूशन के लिए केंद्रीयता को मापने के लक्ष्य के रूप में अनुमानित प्रभाव आकार को समझा जा सकता है , जबकि पी-वैल्यू को उस पोस्टीरियर की एक पूंछ को मापने के लक्ष्य के रूप में समझा जा सकता है। इस प्रकार, एक साथ इन दो मात्राओं में बायेसियन के कुछ खुरदरे होते हैं, जो आपकी समस्या पर निर्णय-सिद्धांत दृष्टिकोण के लिए प्राकृतिक इनपुट का गठन करते हैं। (वैकल्पिक रूप से, प्रभाव के आकार पर एक निरंतर विश्वास अंतराल को इसी तरह से एक वानाबे विश्वसनीय अंतराल के रूप में समझा जा सकता है ।)

मनोविज्ञान और शिक्षा के क्षेत्र में, बेयसियन तरीके वास्तव में काफी लोकप्रिय हैं। इसका एक कारण यह है कि बेयस्टियन मॉडल में 'कंस्ट्रक्शन' को अव्यक्त चर के रूप में स्थापित करना आसान है। मनोवैज्ञानिक जॉन के। क्रूसके द्वारा 'पिल्ला किताब' की जाँच करना आपको पसंद आ सकता है । शिक्षा में (जहां आपके पास छात्रों को कक्षाओं में नेस्टेड है, स्कूलों में नेस्टेड है, जिलों में नेस्टेड है ...), पदानुक्रमित मॉडलिंग अपरिहार्य है। और बायेसियन मॉडल पदानुक्रमित मॉडलिंग के लिए भी महान हैं। इस खाते पर, आप जेलमैन एंड हिल [2] को देखना पसंद कर सकते हैं।

[१]: रॉबर्ट, क्रिश्चियन पी। द बायेसियन च्वाइस: फ्रॉम डिसीजन-थिओरेटिक फाउंडेशंस टू कम्प्यूटेशनल इंप्लीमेंटेशन। दूसरा संस्करण। सांख्यिकी में स्प्रिंगर ग्रंथ। न्यूयॉर्क: स्प्रिंगर, 2007।

[२]: गेलमैन, एंड्रयू और जेनिफर हिल। प्रतिगमन और बहुस्तरीय / पदानुक्रमित मॉडल का उपयोग कर डेटा विश्लेषण। सामाजिक अनुसंधान के लिए विश्लेषणात्मक तरीके। कैम्ब्रिज; न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस, 2007।


एक अनिवार्य रूप से पिटाई-आप-के-सिर-पर-एक-बायेसियन-ईंट के परिप्रेक्ष्य से 'सुसंगतता' के लिए , [3] देखें।

[३]: रॉबिन्स, जेम्स और लैरी वासरमैन। "कंडीशनिंग, संभावना और जुटना: कुछ मूलभूत अवधारणाओं की समीक्षा।" अमेरिकन स्टेटिस्टिकल एसोसिएशन के जर्नल 95, नं। 452 (1 दिसंबर, 2000): 1340–46। डोई: 10.1080 / 01621459.2000.10474344।

(*) [४] में, Meehl ने NHST को बहुत अधिक सुंदर ढंग से उकसाया, लेकिन इससे कम नहीं, जितना कि मैं

चूंकि शून्य परिकल्पना अर्ध-हमेशा झूठी होती है, इसलिए "महत्वपूर्ण अंतर" के पैटर्न के संदर्भ में अनुसंधान को सारांशित करने वाले तालमेल, सांख्यिकीय शक्ति कार्यों के जटिल, परिणामी व्याख्यात्मक परिणामों की तुलना में थोड़ा अधिक हैं।

[४]: Meehl, पॉल ई। "सैद्धांतिक जोखिम और सारणीबद्ध तारांकन: सर कार्ल, सर रोनाल्ड, और सॉफ्ट मनोविज्ञान की धीमी प्रगति।" जर्नल ऑफ़ कंसल्टिंग एंड क्लिनिकल साइकियाट्री ४६ (१ ९ 1978 1978): 6०६-३४। http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


और यहाँ Tukey से संबंधित उद्धरण है: /stats//a/728/41404


1
" किसी भी प्रयोगात्मक हस्तक्षेप का कुछ प्रभाव होगा" (मेरा जोर) एक मजबूत बयान है, जैसा कि बाद में "हमेशा" है। अध्ययन के कुछ क्षेत्रों में यह संभवतः अंगूठे का एक उत्कृष्ट नियम है, लेकिन मुझे लगता है कि बहुत व्यापक होने के खतरे हैं। मैं यह भी सुझाव था कि "[NHST] छोटे से अधिक का उत्पादन अपने नमूना आकार का एक विवरण की तुलना में" विवादास्पद है: पी-मूल्य के बीच एक परस्पर क्रिया से उभर रहे दोनों नमूने का आकार और प्रभाव के आकार।
सिल्वर फिश

@Silverfish, आपके उत्तर के लिए धन्यवाद। मैं आपको एक उदाहरण प्रदान करने के लिए आमंत्रित करूँगा जहाँ पी-मूल्यों पर मेरा दृष्टिकोण 'खतरनाक' होगा। (BTW, मैंने कुछ इटैलिक्स में डाल दिया था , और वाक्यांश "सख्त अर्थ में" का उपयोग किया था जैसे कि आपकी जैसी शिकायत की प्रत्याशा में। मेरा दावा अभी भी खड़ा है।) इसके अलावा, हालांकि पी-मूल्य वास्तव में "एक अंतर से निकलता है" दो अन्य कारक, उनमें से एक (नमूना आकार) मोटे तौर पर एक मुफ्त डिजाइन पैरामीटर है, जिसे मनमाने ढंग से चुना गया है। यह मनमाना विकल्प है जो पी-मूल्य इसलिए दर्शाता है। दो नंबर स्पष्ट रूप से आवश्यक हैं; विश्वास अंतराल का समापन क्यों नहीं?
डेविड सी। नोरिस

2
एक उदाहरण के रूप में: कोई भी उदाहरण जहां हम यथोचित रूप से शून्य परिकल्पना के सही होने की उम्मीद कर सकते हैं, या कम से कम जहां हम स्पष्ट रूप से यह नहीं कह सकते हैं कि हम निश्चित हैं कि यह एक प्रयोग संचालित करने या डेटा को देखने के लिए परेशान किए बिना गलत है। सभी नल झूठे नहीं हैं: परामनोविज्ञान में अनुसंधान पर विचार करें, जैसे कि टेलीपैथी और मान्यता के प्रयोग, लेकिन कई नल ऐसे क्षेत्रों में सच हैं जिन्हें आप जीनोमिक्स जैसे "वैज्ञानिक रूप से मान्य" अधिक मान सकते हैं।
सिल्वरफिश नोव

5
-1, यहाँ बहुत सारी समस्याएं हैं, IMO। तथ्य यह है कि 1 मामूली मनोविज्ञान पत्रिका ने पी-मूल्यों पर प्रतिबंध लगा दिया है, इसका मतलब यह नहीं है कि "पी-मूल्य अब 'आउट ऑफ फैशन' हैं।" प्रतिबंध की व्यापक रूप से आलोचना की गई है ( एएसए द्वारा एक विनम्र बयान सहित और महीनों के बाद से किसी भी अन्य पत्रिकाओं द्वारा नहीं लिया गया है। मैं ध्यान देता हूं कि पत्रिका को बायेसियन विधियों के स्विच की आवश्यकता नहीं है) , लेकिन केवल एक मामला-दर-मामला आधार पर यह विचार करेगी।
फिर से बहाल करते मोनिका - गुंग

3
हालांकि, एक सच्चे प्रयोग में, इकाइयों को रैंडमाइज़ करने की प्रक्रिया X से Y तक एक प्रत्यक्ष कारण पथ का परीक्षण करने वाले अंतर्जात मार्गों को तोड़ती है। यह दावा करने के लिए एक अजीब रूपात्मक दावा है कि सभी चर दोनों दिशाओं में सीधे जुड़े हुए हैं, लेकिन यदि आप इसे धारण न करें, यह दावा करने के लिए असंगत है कि "कोई प्रभाव नहीं है" की अशक्त परिकल्पना हमेशा झूठी है।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.