"सांख्यिकीय रूप से महत्वपूर्ण" पर्याप्त क्यों नहीं है?


46

मैंने अपना डेटा विश्लेषण पूरा कर लिया है और "सांख्यिकीय महत्वपूर्ण परिणाम" प्राप्त किया है जो मेरी परिकल्पना के अनुरूप है। हालांकि, आंकड़ों में एक छात्र ने मुझे बताया कि यह एक समय से पहले निष्कर्ष है। क्यों? क्या मेरी रिपोर्ट में शामिल होने के लिए कुछ और आवश्यक है?


4
यह बहुत कुछ इस बात पर निर्भर करता है कि "परिकल्पना के अनुरूप सांख्यिकीय महत्वपूर्ण परिणाम प्राप्त किए गए" से आपका क्या मतलब है। यदि आपकी परिकल्पना यह है कि हवा पेड़ों से पैदा होती है और आपके प्रयोग से पता चलता है कि 100% टिप्पणियों में जब पेड़ अपनी शाखाओं को स्थानांतरित कर रहे थे, तो हवा थी, आपको यह सांख्यिकीय रूप से महत्वपूर्ण लगता है और आपके निष्कर्ष को साबित किया जाता है। जो स्पष्ट रूप से गलत है। तो, यह उन मामलों में से एक हो सकता है।
साश्केलो

1
आपको वास्तव में विश्वसनीयता के साथ "महत्वपूर्ण खोज" घोषित करने के लिए एक अनुवर्ती अध्ययन की आवश्यकता होगी - एक अच्छी तरह से डिज़ाइन किए गए डेटा संग्रह, समान मॉडल और उसी परिकल्पना परीक्षण का उपयोग करके। इसके अलावा, आपको यह सुनिश्चित करने की आवश्यकता है कि आपका वर्तमान डेटा सेट "सामान्य जनसंख्या" का प्रतिनिधित्व करता है जिसके बारे में आप एक महत्वपूर्ण खोज के साथ दावा कर रहे हैं (यह "बड़े डेटा" के साथ अनुमान के लिए एक महत्वपूर्ण समस्या है)
प्रायिकतालोगिक

1
निश्चित रूप से इसका उत्तर उतना ही सरल है जितना कि 'सहसंबंध कार्य-कारण नहीं है'?
भिन्नात्मक

1
यहाँ मेरा पसंदीदा एक है: जो लोग अधिक चावल खाते हैं वे अधिक बच्चों को भूल जाते हैं। पूरी दुनिया की आबादी की जाँच , आप सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्राप्त करेंगे ...
Karoly Horvath

4
महान जवाब, लेकिन मुझे आश्चर्य है कि किसी ने भी स्पष्ट समाधान का सुझाव नहीं दिया: उससे पूछें / उसे। जब भी कोई आपको बताता है कि आप अपने काम के बारे में गलत हैं या कुछ और जिसकी आप परवाह करते हैं, बस पूछें। किसी को यह बताना कि वह गलत है क्योंकि X, y और Z शांत है - यह सीखने का अवसर है। लेकिन सिर्फ किसी को बताना कि वह गलत है और डास करना एक चाल है।
सिल्वरड्रैग

जवाबों:


53

परिकल्पना परीक्षण बनाम पैरामीटर अनुमान

आमतौर पर, परिकल्पनाओं को एक द्विआधारी तरीके से बनाया जाता है। मैं एक तरफ दिशात्मक परिकल्पना रखूंगा, क्योंकि वे मुद्दे को ज्यादा नहीं बदलते हैं। यह आम है, कम से कम मनोविज्ञान में, परिकल्पना के बारे में बात करने के लिए जैसे: समूह साधनों के बीच का अंतर शून्य है या नहीं है; सहसंबंध शून्य है या नहीं है; प्रतिगमन गुणांक शून्य है या नहीं है; आर-स्क्वायर शून्य है या नहीं है। इन सभी मामलों में, बिना किसी प्रभाव के एक शून्य परिकल्पना है, और एक प्रभाव की एक वैकल्पिक परिकल्पना है।

यह द्विआधारी सोच आमतौर पर वह नहीं होती है जिसमें हम सबसे अधिक रुचि रखते हैं। एक बार जब आप अपने शोध प्रश्न के बारे में सोचते हैं, तो आप लगभग हमेशा पाएंगे कि आप वास्तव में मापदंडों का आकलन करने में रुचि रखते हैं। आप समूह साधनों, या सहसंबंध के आकार, या प्रतिगमन गुणांक के आकार, या विचरण की मात्रा के बीच वास्तविक अंतर में रुचि रखते हैं।

बेशक, जब हमें डेटा का नमूना मिलता है, तो पैरामीटर का नमूना अनुमान जनसंख्या पैरामीटर के समान नहीं होता है। इसलिए हमें पैरामीटर की कीमत क्या हो सकती है, इस बारे में अपनी अनिश्चितता को निर्धारित करने का एक तरीका चाहिए। एक निरंतर दृष्टिकोण से, आत्मविश्वास अंतराल करने का एक साधन प्रदान करता है, हालांकि बेयसियन शुद्धतावादियों का तर्क हो सकता है कि वे कड़ाई से अनुमति नहीं देते हैं जो आप बनाना चाहते हैं। बायेसियन परिप्रेक्ष्य से, पश्च घनत्व पर विश्वसनीय अंतराल जनसंख्या पैरामीटर के मूल्य के बारे में आपकी अनिश्चितता को निर्धारित करने का एक अधिक प्रत्यक्ष साधन प्रदान करते हैं।

पैरामीटर / प्रभाव आकार

द्विआधारी परिकल्पना परीक्षण दृष्टिकोण से दूर जाना आपको निरंतर तरीके से सोचने के लिए मजबूर करता है। उदाहरण के लिए, समूह के आकार में अंतर सैद्धांतिक रूप से कितना दिलचस्प होगा? आप व्यक्तिपरक भाषा या व्यावहारिक निहितार्थ पर समूह साधनों के बीच अंतर कैसे कर पाएंगे? संदर्भ के मानदंडों के साथ प्रभाव के मानकीकृत उपाय विभिन्न पैरामीटर मानों का अर्थ निर्धारित करने के लिए एक भाषा बनाने का एक तरीका है। इस तरह के उपायों को अक्सर "प्रभाव आकार" (जैसे, कोहेन के डी, आर, , आदि) लेबल किया जाता है । हालांकि, यह पूरी तरह से उचित है, और अक्सर बेहतर होता है, अस्वास्थ्यकर उपायों का उपयोग करके प्रभाव के महत्व के बारे में बात करने के लिए (उदाहरण के लिए, समूह में अंतर का अर्थ सार्थक स्तरहीन चर जैसे आय स्तर, जीवन प्रत्याशा, आदि) है।आर2

मनोविज्ञान (और अन्य क्षेत्रों) में एक विशाल साहित्य है जो पी-मूल्यों, अशक्त परिकल्पना महत्व परीक्षण, और इसी तरह (इस Google विद्वान खोज को देखें ) पर ध्यान केंद्रित करता है । यह साहित्य अक्सर संकल्प के रूप में आत्मविश्वास अंतराल के साथ प्रभाव के आकार की रिपोर्टिंग की सिफारिश करता है (उदाहरण के लिए, विल्किंसन, 1999 द्वारा एपीए टास्क बल)।

बाइनरी परिकल्पना परीक्षण से दूर जाने के लिए कदम

यदि आप इस सोच को अपनाने के बारे में सोच रहे हैं, तो मुझे लगता है कि उत्तरोत्तर अधिक परिष्कृत दृष्टिकोण हैं जिन्हें आप ले सकते हैं:

  • दृष्टिकोण 1 ए। अपने नमूना प्रभाव के बिंदु अनुमान की रिपोर्ट करें (जैसे, समूह का मतलब अंतर) कच्चे और मानकीकृत दोनों शब्दों में। जब आप अपने परिणामों की रिपोर्ट करते हैं तो चर्चा करते हैं कि सिद्धांत और व्यवहार के लिए इस तरह के परिमाण का क्या अर्थ होगा।
  • दृष्टिकोण 1 बी। 1a में जोड़ें, कम से कम एक बहुत ही बुनियादी स्तर पर, आपके नमूने के आकार के आधार पर आपके पैरामीटर अनुमान के आसपास अनिश्चितता की कुछ भावना।
  • दृष्टिकोण 2. प्रभाव के आकार पर विश्वास अंतराल की रिपोर्ट करें और ब्याज के पैरामीटर के प्रशंसनीय मूल्यों के बारे में अपनी सोच में इस अनिश्चितता को शामिल करें।
  • दृष्टिकोण 3. बायेसियन विश्वसनीय अंतरालों की रिपोर्ट करें, और उस विश्वसनीय अंतराल पर विभिन्न मान्यताओं के निहितार्थ की जांच करें, जैसे कि पहले की पसंद, आपके मॉडल द्वारा निहित डेटा उत्पन्न करने की प्रक्रिया, और इसी तरह।

कई संभावित संदर्भों के बीच, आप देखेंगे कि एंड्रयू जेलमैन ने अपने ब्लॉग पर और अपने शोध में इन मुद्दों के बारे में बहुत सारी बातें कीं

संदर्भ

  • निकर्सन, आरएस (2000)। अशक्त परिकल्पना महत्व परीक्षण: एक पुराने और निरंतर विवाद की समीक्षा। मनोवैज्ञानिक तरीके, 5 (2), 241।
  • विल्किंसन, एल। (1999)। मनोविज्ञान पत्रिकाओं में सांख्यिकीय तरीके: दिशानिर्देश और स्पष्टीकरण। अमेरिकी मनोवैज्ञानिक, 54 (8), 594. पीडीएफ

12
जेरेमी की टिप्पणी के आगे, क्या मैं यह सिफारिश कर सकता हूं कि आपके पास सांख्यिकीय महत्व के पंथ पर एक ज़िलियाक और मैक्लोस्की का निबंध है। यह सबसे अधिक दिमाग उड़ाने वाले आँकड़े नहीं हैं, लेकिन यह विचारशील - और मनोरंजक - क्यों प्रभाव आकार, व्यावहारिक महत्व और नुकसान कार्यों की चर्चा अत्यंत महत्वपूर्ण हैं। deirdremccloskey.com/docs/jsm.pdf
जिम

मुझे लगता है कि कभी-कभी p को .05 से कम सेट किया जाना चाहिए। आप सभी को धन्यवाद: गूँग, जेरोम और जिम
जिम वॉन

1
Ziliak [NB] और McCloskey पर: यदि आप व्यस्त हैं, तो phil.vt.edu/dmayo/personal_website/… को पहले पढ़ें । यदि आप व्यस्त नहीं हैं, तब भी इसे पहले पढ़ें।
निक कॉक्स

आपका स्वागत है, @JimVon। FWIW, मुझे लगता है कि कभी-कभी p को .05 से अधिक सेट किया जाना चाहिए । यह सिर्फ निर्भर करता है।
गंग -

1
खुशी होती है कि डॉ। गेलमैन यहां पर जमे हुए हैं। जाहिर तौर पर वह पी-वैल्यू की रिपोर्टिंग करना भी पसंद नहीं करते हैं, अकेले उन्हें गंभीर अनुमान के लिए इस्तेमाल करते हैं। वह निश्चित रूप से आपके सभी चर को मानकीकृत करने के लिए एक अच्छा मामला बनाता है।
छायाकार

26

बस मौजूदा उत्तरों को जोड़ने के लिए (जो कि शानदार हैं, वैसे)। यह जानना महत्वपूर्ण है कि सांख्यिकीय महत्व नमूना आकार का एक कार्य है

जब आप अधिक से अधिक डेटा प्राप्त करते हैं, तो आप जहां भी देखते हैं, सांख्यिकीय रूप से महत्वपूर्ण अंतर पा सकते हैं। जब डेटा की मात्रा बड़ी होती है, तब भी सबसे अधिक प्रभाव सांख्यिकीय महत्व को जन्म दे सकता है। इसका मतलब यह नहीं है कि प्रभाव किसी भी व्यावहारिक तरीके से सार्थक हैं।

पीपी


यह मेरी स्लाइड 13:
स्टीफन लॉरेंट

6
इसके लिए +1। लोगों को महत्व का एहसास नहीं होना नमूना आकार का एक कार्य है जो मुझे पागल कर देता है।
Fomite

12

यदि आपके अध्ययन को चलाने से पहले आपकी परिकल्पना पर संदेह करने का उचित आधार हो सकता है; और आपने एक अच्छा अध्ययन किया (उदाहरण के लिए, आपने किसी भी उलझन को प्रेरित नहीं किया); और आपके परिणाम आपकी परिकल्पना और सांख्यिकीय रूप से महत्वपूर्ण थे; फिर मुझे लगता है कि आप ठीक हैं, जहाँ तक जाता है।

हालाँकि, आपको यह नहीं सोचना चाहिए कि महत्व आपके परिणामों में महत्वपूर्ण है। सबसे पहले, आपको प्रभाव आकार को भी देखना चाहिए (मेरा जवाब यहां देखें: महत्व आकार परीक्षण महत्व के लिए परिकल्पना के रूप में )। आप अपने डेटा को थोड़ा एक्सप्लोर करना चाहते हैं और देख सकते हैं कि क्या आपको कोई संभावित दिलचस्प आश्चर्य मिल सकता है, जो निम्नलिखित पर ध्यान देने योग्य हो।


आपका मतलब है कि परिकल्पना उचित होनी चाहिए? और कैसे आंकें कि क्या मेरी परिकल्पना व्यर्थ डेटा विश्लेषण का नेतृत्व करेगी? "संभावित रूप से दिलचस्प आश्चर्य" पोस्ट-हॉक द्वारा प्रकट किया जाना चाहिए?
जिम वॉन

मेरा मतलब है, संभवतः 1 स्थान पर अध्ययन को चलाने के लिए कुछ वैध कारण था। वर्तमान सैद्धांतिक ज्ञान और / या हाल के अध्ययनों ने सुझाव दिया कि आपकी परिकल्पना सच हो सकती है। आपकी परिकल्पना "व्यर्थ डेटा विश्लेषण के लिए नेतृत्व" की संभावना नहीं है जब तक कि यह असंगत न हो। संभावित रूप से दिलचस्प आश्चर्य / आपके डेटा की विशेषताएं बहुत अच्छी तरह से पोस्ट-हॉक की खोज की जा सकती हैं; तथ्य यह है कि वे आश्चर्यचकित हैं इसका मतलब है कि आपको नहीं पता था कि वे तब होंगे जब आपने अध्ययन की योजना बनाई थी। "पोस्ट-हॉक" के बारे में मुद्दा यह है कि क्या आश्चर्य पर विश्वास करना है - उन्हें भविष्य के शोध से पुष्टि करने की आवश्यकता है।
गंग -

7

यह और यह और यह और यह रिपोर्ट करने से पहले, यह निर्धारित करके शुरू करें कि आप प्रायोगिक डेटा से क्या सीखना चाहते हैं। सामान्य परिकल्पना परीक्षणों के साथ मुख्य समस्या (ये परीक्षण हम स्कूल में सीखते हैं ...) द्वैधता नहीं है: मुख्य समस्या यह है कि ये परिकल्पना के लिए परीक्षण हैं जो कि ब्याज की परिकल्पना नहीं हैं। यहां स्लाइड 13 देखें (एनिमेशन की सराहना के लिए पीडीएफ डाउनलोड करें)। प्रभाव आकारों के बारे में, इस धारणा की कोई सामान्य परिभाषा नहीं है । स्पष्ट रूप से मैं गैर-विशेषज्ञ सांख्यिकीविदों के लिए इसका उपयोग करने की सिफारिश नहीं करूंगा, ये तकनीकी हैं, प्राकृतिक नहीं, "प्रभाव" के उपाय। आपकी रुचि की परिकल्पना आम लोगों द्वारा समझे जाने वाले शब्दों में तैयार की जानी चाहिए।


1
एक छोटा सा जोड़ - शून्य परिकल्पना वास्तव में लागू करने के लिए मानक HT के लिए वर्तमान डेटा विश्लेषण के संदर्भ के बाहर कुछ मतलब होना चाहिए। इसे "आविष्कार" नहीं किया जाना चाहिए ताकि आपके पास अपने सिद्धांत / खोज के पक्ष में अस्वीकार करने के लिए कुछ हो।
probabilityislogic

2

मैं आँकड़ों के विशेषज्ञ से बहुत दूर हूँ, लेकिन एक बात जिस पर मैंने आज तक आँकड़ों के पाठ्यक्रम में ज़ोर दिया है, वह है "व्यावहारिक महत्व" का मुद्दा। मेरा मानना ​​है कि जेरेमी और गंग क्या बात करते हैं, जब "प्रभाव आकार" का जिक्र होता है।

हमारे पास 12 सप्ताह के आहार के वर्ग में एक उदाहरण था, जिसमें सांख्यिकीय रूप से महत्वपूर्ण वजन घटाने के परिणाम थे, लेकिन 95% विश्वास अंतराल ने 0.2 और 1.2 किलोग्राम के बीच वजन घटाने का मतलब दिखाया (ठीक है, डेटा शायद बना था लेकिन यह एक बिंदु दिखाता है) । जबकि "सांख्यिकीय रूप से महत्वपूर्ण" "शून्य से अलग, 12 सप्ताह में 200 ग्राम वजन कम होता है" स्वस्थ रूप से महत्वपूर्ण एक परिणाम के लिए एक अधिक वजन वाले व्यक्ति स्वस्थ होने की कोशिश कर रहा है?


यह मेरी स्लाइड 13 के बाद की बात है :)
स्टीफन लॉरेंट

2
यह "गलत" अशक्त परिकल्पना का परीक्षण करने का एक उदाहरण भी है। इसका निष्कर्ष यह नहीं है कि आप किसमें रुचि रखते हैं। एक बेहतर परिकल्पना परीक्षण होगा कि वजन कम 5kg बनाम 5kg से अधिक हो।
संभाव्यता

1

आपके अध्ययन के अधिक विवरण और व्यक्ति की आलोचना को जाने बिना सटीक उत्तर देना असंभव है। लेकिन यहां एक संभावना है: यदि आपने कई परीक्षण चलाए हैं, और आप उस पर ध्यान केंद्रित करने का विकल्प चुनते हैं p<0.05और दूसरों को अनदेखा करते हैं, तो यह "महत्व" आपके चयनात्मक ध्यान के तथ्य से पतला हो गया है। इसके लिए एक अंतर्ज्ञान पंप के रूप में, p=0.05इसका मतलब है कि याद रखें "यह परिणाम संयोग से होगा (केवल) 5% समय भले ही शून्य परिकल्पना सच हो"। तो जितने अधिक परीक्षण आप चलाते हैं, उतनी ही संभावना है कि उनमें से कम से कम एक "महत्वपूर्ण" परिणाम होगा बस संयोग से - भले ही वहां कोई प्रभाव न हो। Http://en.wikipedia.org/wiki/Multiple_comparison और http://en.wikipedia.org/wiki/Post-hoc_analysis देखें


0

मेरा सुझाव है कि आप निम्नलिखित पढ़ें:

एंडरसन, डीआर, बर्नहैम, केपी, थॉम्पसन, डब्ल्यूएल, 2000. शून्य परिकल्पना परीक्षण: समस्याएं, व्यापकता और एक विकल्प। जे। वाइल्ड। प्रबंधन करें। 64, 912-923। गिगेरेंजर, जी।, 2004. माइंडलेस आँकड़े। जर्नल ऑफ सोशियो-इकोनॉमिक्स 33, 587-606। जॉनसन, डीएच, 1999. सांख्यिकीय महत्व परीक्षण का महत्व। जर्नल ऑफ़ वाइल्डलाइफ़ मैनेजमेंट 63, 763-772।

अशक्त परिकल्पनाएं शायद ही कभी इस अर्थ में दिलचस्प होती हैं कि, किसी भी प्रयोग या टिप्पणियों के सेट से, दो परिणाम हैं: नल को सही ढंग से खारिज करना या टाइप II त्रुटि करना। प्रभाव का आकार वह है जो आप शायद निर्धारित करने में दिलचस्प हैं और, एक बार किए जाने पर, आपको उस प्रभाव आकार के लिए आत्मविश्वास अंतराल उत्पन्न करना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.