गैर-महत्वपूर्ण परिणामों की व्याख्या "रुझान" के रूप में


16

हाल ही में, दो अलग-अलग सहकर्मियों ने स्थितियों के बीच मतभेदों के बारे में एक तरह के तर्क का इस्तेमाल किया है जो मुझे गलत लगता है। ये दोनों सहकर्मी सांख्यिकी का उपयोग करते हैं, लेकिन वे सांख्यिकीविद् नहीं हैं। मैं आंकड़ों में नौसिखिया हूं।

दोनों मामलों में, मैंने तर्क दिया कि, क्योंकि एक प्रयोग में दो स्थितियों के बीच कोई महत्वपूर्ण अंतर नहीं था, इन समूहों के हेरफेर के संबंध में सामान्य दावा करना गलत था। ध्यान दें कि "सामान्य दावा करना" का अर्थ है कि कुछ लिखना: "ग्रुप ए ने समूह बी की तुलना में अधिक बार एक्स का उपयोग किया"।

मेरे सह-कार्यकर्ता इस बात से मुकर गए: "हालांकि कोई महत्वपूर्ण अंतर नहीं है, फिर भी प्रवृत्ति अभी भी है" और "हालांकि कोई महत्वपूर्ण अंतर नहीं है, फिर भी एक अंतर है"। मेरे लिए, एक समीकरण की तरह ये दोनों ध्वनि, अर्थात, उन्होंने "अंतर" का अर्थ बदल दिया है: "एक अंतर जो संभावना के अलावा किसी और चीज का परिणाम है" (यानी, सांख्यिकीय महत्व), "किसी भी गैर के लिए" समूहों के बीच माप में अंतर-अंतर "।

क्या मेरे सहकर्मियों की प्रतिक्रिया सही थी? मैंने इसे उनके साथ नहीं लिया क्योंकि वे मुझसे आगे निकल गए।


जवाबों:


26

यह एक बड़ा सवाल है; उत्तर संदर्भ पर बहुत कुछ निर्भर करता है।

सामान्य तौर पर मैं कहूंगा कि आप सही हैं : "समूह ए का उपयोग किया गया एक्स समूह की तुलना में अधिक बार इस्तेमाल किया जाता है" जैसे अयोग्य सामान्य दावा करना गलत है। कुछ कहना बेहतर होगा

हमारे प्रयोग समूह ए में समूह बी की तुलना में अक्सर एक्स का उपयोग किया जाता है, लेकिन हम बहुत अनिश्चित हैं कि यह सामान्य आबादी में कैसे खेलेंगे

या

हालाँकि समूह A ने अपने प्रयोग में समूह B की तुलना में X 13% का अधिक बार उपयोग किया है, लेकिन सामान्य जनसंख्या में अंतर का हमारा अनुमान स्पष्ट नहीं है : प्रशंसनीय मान A से लेकर X 5% तक होता है, जो समूह B से A तक X 21% का उपयोग करते हुए कम होता है। समूह बी से अधिक बार

या

समूह ए ने समूह बी की तुलना में अधिक बार एक्स 13% का उपयोग किया, लेकिन अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं था (95% सीआई -5% से 21%; पी = 0.75)

दूसरी ओर: आपके सहकर्मी सही हैं कि इस विशेष प्रयोग में , समूह ए, समूह बी की तुलना में अधिक बार एक्स का उपयोग करता है। हालांकि, लोग किसी विशेष प्रयोग में प्रतिभागियों की परवाह नहीं करते हैं; वे जानना चाहते हैं कि आपके परिणाम एक बड़ी आबादी के लिए कैसे सामान्य हो जाएंगे, और इस मामले में सामान्य उत्तर यह है कि आप विश्वास के साथ नहीं कह सकते हैं कि क्या एक यादृच्छिक रूप से चयनित समूह ए एक यादृच्छिक रूप से चयनित समूह बी की तुलना में अधिक या कम बार उपयोग करेगा।

यदि आपको इस बात का विकल्प चुनने की आवश्यकता है कि क्या X का उपयोग बढ़ाने के लिए उपचार A या उपचार B का उपयोग करना है, किसी अन्य जानकारी या लागतों के अंतर के अभाव में आदि, तो A चुनना आपका सबसे अच्छा दांव होगा। लेकिन अगर आप चाहते हैं कि आप आराम से सही विकल्प बना रहे हैं, तो आपको अधिक जानकारी की आवश्यकता होगी।

ध्यान दें कि आपको "X के उनके उपयोग में समूह A और समूह B के बीच कोई अंतर नहीं है" या "समूह A और समूह B समान राशि का उपयोग करें" में कोई अंतर नहीं होना चाहिए । यह सच है कि आपके प्रयोग में प्रतिभागियों में से कोई भी (जहां ए ने एक्स 13% अधिक प्रयोग किया है) या सामान्य आबादी में; अधिकांश वास्तविक दुनिया के संदर्भों में, आप जानते हैं कि ए बनाम बी के वास्तव में कुछ प्रभाव (चाहे कितना मामूली) हो; आपको अभी पता नहीं है कि यह किस दिशा में जाता है।


5
सुंदर प्रतिक्रिया, बेन! मुझे आश्चर्य है कि अगर आपके दूसरे उदाहरण के बयान को स्पष्टता के लिए संशोधित किया जा सकता है, तो पहला उदाहरण कथन के सार को प्रतिबिंबित करने के लिए: "हालांकि समूह ए ने हमारे निर्यातक में समूह बी की तुलना में अधिक बार एक्स 13% का उपयोग किया, सामान्य में एक्स बैटन के विकास में अंतर। POPULATION स्पष्ट नहीं था : THAT DIFFERENCE की प्रशंसनीय सीमा A से X 5% कम हो गई , जो कि समूह B से A की तुलना में X 21% अधिक बार समूह B की तुलना में अधिक थी। "
इसाबेला घीम

3
धन्यवाद, आंशिक रूप से निगमित (संक्षिप्तता / स्पष्टता और सटीकता को संतुलित करने की कोशिश ...)
बेन बोल्कर

8
+1 मुझे लगता है कि बहुत से लोग यह महसूस करने में विफल रहते हैं कि सांख्यिकीय साक्ष्य के अभाव में, मनाया गया अंतर बहुत अच्छी तरह से इसके विपरीत हो सकता है जो आबादी के साथ चल रहा है!
डेव

@ क्या: भले ही "सांख्यिकीय साक्ष्य" (सांख्यिकीय रूप से महत्वपूर्ण पी-मूल्य?) की उपस्थिति, "मनाया मतभेद बहुत अच्छी तरह से आबादी के साथ क्या हो रहा है के विपरीत हो सकता है"
बोसोविच

@boscovich ज़रूर, मैं आंकड़ों पर काम कर रहा था जब हम निरपेक्षता में बात कर रहे थे, लेकिन मैं इसे एक महत्वहीन पी-मान के रूप में समझता हूं कि आप वास्तव में कोई सुराग नहीं लगा रहे हैं कि आबादी के साथ क्या हो रहा है। कम से कम एक महत्वपूर्ण पी-मूल्य के साथ आप कुछ स्थापित करने के लिए सबूतों की कुछ सीमा तक पहुंच गए हैं ताकि आप कुछ जान सकें। लेकिन निश्चित रूप से एक महत्वपूर्ण पी-मूल्य प्राप्त करना संभव है जब यह दिशा गलत हो। वह त्रुटि समय-समय पर होनी चाहिए।
डेव

3

यह एक कठिन सवाल है!

पहले चीजें, सांख्यिकीय महत्व को निर्धारित करने के लिए आप चुन सकते हैं किसी भी दहलीज मनमाना है। तथ्य यह है कि ज्यादातर लोगों को एक का उपयोग 5% पी -value यह किसी भी अन्य की तुलना में अधिक सही नहीं है। इसलिए, कुछ अर्थों में, आपको एक काले या सफेद विषय के बजाय "स्पेक्ट्रम" के रूप में सांख्यिकीय महत्व के बारे में सोचना चाहिए।

मान लें कि हमारे पास एक शून्य परिकल्पना एच0 (उदाहरण के लिए, समूह और बी चर एक्स लिए समान माध्य दिखाते हैं , या चर Y लिए जनसंख्या का मान 5 से कम है)। आप अशक्त परिकल्पना को "नो ट्रेंड" परिकल्पना के रूप में सोच सकते हैं। हम क्या हम कर सकते हैं की जाँच करने के लिए कुछ डेटा इकट्ठा खंडन एच0 (शून्य परिकल्पना है कभी नहीं "साबित कर दिया सच")। हमारे नमूना के साथ, हम कुछ आंकड़े बनाने के लिए और अंत में एक मिल पी -value । कुछ ही समय में, पी -value संभावना है कि शुद्ध मौका समान रूप से (या अधिक) परिणाम देगा जो हमें मिला, एच 0 के मान से अधिक।एच0 सच होना (यानी, कोई प्रवृत्ति नहीं)।

यदि हमें "कम" पी -value मिलता है, तो हम कहते हैं कि मौका शायद ही कभी उन लोगों के रूप में परिणाम उत्पन्न करता है, इसलिए हम एच0 को अस्वीकार करते हैं (यह सांख्यिकीय महत्वपूर्ण सबूत है कि एच0 गलत हो सकता है)। यदि हमें "उच्च" पी -value मिलता है, तो परिणाम वास्तविक प्रवृत्ति के बजाय भाग्य का परिणाम होने की अधिक संभावना है। हम कहते हैं कि एच0 सच नहीं है, बल्कि यह है कि इसे अस्वीकार करने के लिए आगे की पढ़ाई होनी चाहिए।

पी23%23%23%एच0: =0.5% पी-

एक्सβएच0: β=0β0

β=0

4%

मुझे आशा है कि यह बहुत ही चिंताजनक स्पष्टीकरण आपको अपने विचारों को क्रमबद्ध करने में मदद करेगा। सारांश यह है कि आप बिल्कुल सही हैं! हमें अपनी रिपोर्ट नहीं भरनी चाहिए, चाहे वह शोध के लिए हो, व्यवसाय के लिए हो या जो भी हो, जंगली सबूतों के साथ कम साक्ष्य द्वारा समर्थित हैं। यदि आप वास्तव में सोचते हैं कि एक प्रवृत्ति है, लेकिन आप सांख्यिकीय महत्व तक नहीं पहुंचे, तो अधिक डेटा के साथ प्रयोग को दोहराएं!


1
+1 यह इंगित करने के लिए कि किसी भी महत्व की सीमा मनमानी है (और निहितार्थ यह संभव नहीं है कि एक नमूने में परिणामों से सामान्य आबादी के बारे में पूर्ण दावों का अनुमान लगाया जा सके - आप सभी बेहतर संभावनाएं हैं)।
पीटर - मोनिका

0

महत्वपूर्ण प्रभाव का मतलब सिर्फ इतना है कि आपने एक असंभावित विसंगति को मापा है (यदि अशक्त परिकल्पना, प्रभाव की अनुपस्थिति, तो सत्य होगा)। और परिणामस्वरूप इसे उच्च संभावना के साथ संदेह किया जाना चाहिए (हालांकि यह संभावना पी-मूल्य के बराबर नहीं है और पूर्व के विश्वासों पर भी निर्भर करता है)।

प्रयोग की गुणवत्ता के आधार पर आप एक ही प्रभाव के आकार को माप सकते हैं , लेकिन यह एक विसंगति नहीं हो सकती है (यदि एक अशक्त परिकल्पना सच होगी तो यह असंभावित परिणाम नहीं होगा)।

जब आप एक प्रभाव का निरीक्षण करते हैं, लेकिन यह महत्वपूर्ण नहीं होता है, तो वास्तव में यह (प्रभाव) अभी भी हो सकता है, लेकिन यह केवल महत्वपूर्ण नहीं है (माप से संकेत नहीं मिलता है कि अशक्त परिकल्पना को उच्च संभावना के साथ संदेह / अस्वीकार किया जाना चाहिए)। इसका अर्थ है कि आपको अपने प्रयोग में सुधार करना चाहिए, अधिक सुनिश्चित करने के लिए, अधिक डेटा इकट्ठा करना चाहिए।

इसलिए डाइकोटॉमी प्रभाव बनाम नो-इफेक्ट के बजाय आपको निम्नलिखित चार श्रेणियों के लिए जाना चाहिए :

चार श्रेणियां

Https://en.wikipedia.org/wiki/Equivalence_test से छवि दो एक तरफा टी-परीक्षण प्रक्रिया (TOST) की व्याख्या करती है

आप श्रेणी डी में लग रहे हैं, परीक्षण अनिर्णायक है। आपके सहकर्मियों को यह कहना गलत हो सकता है कि एक प्रभाव है। हालाँकि, यह कहना भी उतना ही गलत है कि इसका कोई असर नहीं है!


पी

@ डेविड, मैं आपसे पूरी तरह सहमत हूं कि पी-वैल्यू अधिक सटीक रूप से 'प्रायिकता के लिए एक उपाय है कि हम एक त्रुटि सशर्त बनाते हैं कि अशक्त परिकल्पना सच है' (या इस तरह के चरम परिणाम देखने की संभावना), और यह नहीं है सीधे-सीधे 'संभावना व्यक्त करें कि अशक्त परिकल्पना गलत है'। हालाँकि, मुझे लगता है कि इस 'आधिकारिक' अर्थ में पी-मूल्य का उपयोग करने के लिए नहीं है। पी-मान का उपयोग अशक्त परिकल्पना में संदेह व्यक्त करने के लिए किया जाता है, यह व्यक्त करने के लिए कि परिणाम एक विसंगति का संकेत देते हैं और विसंगतियों से हमें शून्य पर संदेह करना चाहिए ....
सेक्स्टस एम्पिरिकस

.... आपके मामले में, जब आप अशक्त प्रभाव को चुनौती देने के लिए दिखाते हैं (इस विचार को चुनौती देते हैं कि कोई सिक्के का अनुमान नहीं लगा सकता है) एक दुर्लभ मामला (बस चाय चखने वाली महिला की तरह) प्रदान करके तो हमें वास्तव में अशक्त में संदेह होना चाहिए परिकल्पना। व्यवहार में हमें इसके लिए एक उचित पी-मान सेट करने की आवश्यकता होगी (क्योंकि वास्तव में कोई व्यक्ति केवल मौका द्वारा नल को चुनौती दे सकता है), और मैं 1% स्तर का उपयोग नहीं करेगा। शून्य पर संदेह करने की उच्च संभावना को समान नहीं किया जाना चाहिए, एक-से-एक, पी-मूल्य के साथ (क्योंकि वह संभावना अधिक बायेसियन अवधारणा है)।
सेक्सटस एम्पिरिकस

मैंने इस गलत व्याख्या को दूर करने के लिए पाठ को अनुकूलित किया है।
सेक्सटस एम्पिरिकस

0

ऐसा लगता है कि वे "ट्रेंड" की परिभाषा बनाम पी-वैल्यू पर बहस कर रहे हैं।

यदि आप डेटा को रन चार्ट पर प्लॉट करते हैं, तो आपको एक ट्रेंड दिखाई दे सकता है ... प्लॉट का एक पॉइंट जो समय के साथ ऊपर या नीचे एक ट्रेंड को दर्शाता है।

लेकिन, जब आप इस पर आंकड़े देते हैं .. तो p- मान बताता है कि यह महत्वपूर्ण नहीं है।

पी-वैल्यू के लिए थोड़ा महत्व दिखाने के लिए, लेकिन उनके लिए डेटा की श्रृंखला में एक प्रवृत्ति / रन देखना ... जो कि बहुत मामूली प्रवृत्ति होगी।

इसलिए, अगर ऐसा होता, तो मैं पी-वैल्यू पर वापस आ जाता .. IE: ठीक है, हाँ, डेटा में एक प्रवृत्ति / रन है .. लेकिन यह इतना मामूली और महत्वहीन है कि आंकड़े बताते हैं कि यह आगे बढ़ने लायक नहीं है। का विश्लेषण।

एक तुच्छ प्रवृत्ति एक ऐसी चीज है जो अनुसंधान में किसी प्रकार के पूर्वाग्रह के कारण हो सकती है .. शायद कुछ बहुत ही मामूली .. कुछ ऐसा जो प्रयोग में सिर्फ एक बार घटित हो सकता है जो कि मामूली प्रवृत्ति पैदा करने के लिए हुआ है।

अगर मैं समूह का प्रबंधक होता, तो मैं उनसे कहता कि समय और धन की बर्बादी को रोकने के लिए नगण्य रुझानों में, और अधिक महत्वपूर्ण लोगों की तलाश करें।


0

ऐसा लगता है कि इस मामले में उनके दावे के लिए बहुत कम औचित्य है और वे निष्कर्ष पर पहुंचने के लिए केवल आंकड़ों का दुरुपयोग कर रहे हैं। लेकिन ऐसे समय होते हैं जब पी-वैल कटऑफ के साथ इतना सख्त नहीं होना ठीक होता है। यह (सांख्यिकीय महत्व और पावेल कटऑफ का उपयोग कैसे करें) एक बहस है जो फिशर, नेमन के बाद से उग्र हो गई है, और पियर्सन ने पहले सांख्यिकीय परीक्षण की नींव रखी।

मान लीजिए कि आप एक मॉडल का निर्माण कर रहे हैं और आप यह तय कर रहे हैं कि शामिल किए गए चर क्या हैं। संभावित चर में कुछ प्रारंभिक जांच करने के लिए आप थोड़ा सा डेटा इकट्ठा करते हैं। अब यह एक चर है जिसे व्यापार टीम वास्तव में रुचि रखती है, लेकिन आपकी प्रारंभिक जांच से पता चलता है कि चर सांख्यिकीय रूप से महत्वपूर्ण नहीं है। हालांकि, वैरिएबल की 'दिशा' इस बात की पुष्टि करती है कि व्यावसायिक टीम को क्या उम्मीद थी, और यद्यपि यह महत्व के लिए सीमा को पूरा नहीं करता था, यह करीब था। शायद इसके परिणाम के लिए सकारात्मक सहसंबंध होने का संदेह था और आपको एक बीटा गुणांक मिला जो सकारात्मक था, लेकिन पेल .05 कटऑफ से थोड़ा ऊपर था।

उस स्थिति में, आप आगे बढ़ सकते हैं और इसे शामिल कर सकते हैं। यह एक अनौपचारिक बायेसियन आंकड़ों की तरह है - एक मजबूत पूर्व विश्वास था कि यह एक उपयोगी चर है और इसमें प्रारंभिक जांच ने उस दिशा में कुछ सबूत दिखाए (लेकिन सांख्यिकीय रूप से महत्वपूर्ण सबूत नहीं!) इसलिए आप इसे संदेह का लाभ देते हैं। और इसे मॉडल में रखें। शायद अधिक डेटा के साथ यह अधिक स्पष्ट होगा कि ब्याज के परिणाम के साथ इसका क्या संबंध है।

एक अन्य उदाहरण यह हो सकता है कि आप एक नया मॉडल बना रहे हैं और आप पिछले मॉडल में उपयोग किए जाने वाले चर को देखते हैं - आप मॉडल से कुछ निरंतरता बनाए रखने के लिए एक मामूली चर (जो कि महत्व के शिखर पर है) को शामिल करना जारी रख सकते हैं। मॉडल के लिए।

मूल रूप से, आप जो कर रहे हैं, उसके आधार पर इस प्रकार की चीजों के बारे में कम और सख्त होने के कारण हैं।

दूसरी ओर, यह भी ध्यान रखना जरूरी है कि सांख्यिकीय महत्व का व्यावहारिक महत्व नहीं है! याद रखें कि इस सब के दिल में नमूना आकार है। पर्याप्त डेटा एकत्र करें और अनुमान की मानक त्रुटि 0. सिकुड़ जाएगी। इससे किसी भी प्रकार का अंतर हो जाएगा, चाहे वह कितना भी छोटा, 'सांख्यिकीय रूप से महत्वपूर्ण' हो, भले ही वह अंतर वास्तविक दुनिया में किसी भी चीज के लिए राशि न हो। उदाहरण के लिए, मान लीजिए कि सिर पर किसी विशेष सिक्के के उतरने की संभावना 500500000000000001 थी। इसका मतलब यह है कि सैद्धांतिक रूप से आप एक प्रयोग डिजाइन कर सकते हैं जो यह निष्कर्ष निकालता है कि सिक्का उचित नहीं है, लेकिन सभी इरादों और उद्देश्यों के लिए सिक्के को उचित सिक्का माना जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.