पी-वैल्यू की एक-दूसरे से तुलना करने में क्या समझदारी है?


20

मेरे पास दो आबादी (पुरुष और महिलाएं) हैं, जिनमें से प्रत्येक में नमूने हैं। प्रत्येक नमूने के लिए मेरे पास दो गुण हैं A & B (प्रथम वर्ष ग्रेड प्वाइंट औसत, और SAT स्कोर)। मैंने ए एंड बी के लिए अलग से एक टी-टेस्ट का उपयोग किया है: दोनों को दो समूहों के बीच महत्वपूर्ण अंतर मिला; के साथ एक और बी- ।पी = 0.008 पी = 0.0021000p=0.008p=0.002

क्या यह दावा करना ठीक है कि संपत्ति बी बेहतर भेदभाव (अधिक महत्वपूर्ण) है तो संपत्ति ए? या यह है कि एक टी-टेस्ट सिर्फ एक हाँ या नहीं (महत्वपूर्ण या महत्वपूर्ण नहीं) उपाय है?

अपडेट : यहां टिप्पणियों के अनुसार और विकिपीडिया पर मैंने जो कुछ भी पढ़ा है , उसके अनुसार, मुझे लगता है कि इसका उत्तर होना चाहिए: व्यर्थ पी-मूल्य को छोड़ दें और अपने प्रभाव का आकार रिपोर्ट करें । कोई विचार?


+ मुझे माफ कर दीजिए कि मैं एक देशी अंग्रेजी वक्ता नहीं हूँ :)
डोव

कोई समस्या नहीं है: यदि आपको लगता है कि (मामूली) संपादन मैंने आपके प्रश्न को किसी भी सार्थक तरीके से बदल दिया है, तो कृपया उन्हें सुधारने के लिए स्वतंत्र महसूस करें।
whuber

आपके द्वारा मापा गया परिणाम क्या है? (यानी वह क्या है जो ए / न ए, या बी / बी नहीं द्वारा परिभाषित समूहों के बीच भिन्न है?) क्या यह सभी 1000 नमूनों पर मापा जाता है, या कुछ गायब हैं?
अतिथि

3
दो अलग-अलग प्रभाव आकारों की रिपोर्टिंग, या दो अलग-अलग प्रभाव आकारों के लिए आत्मविश्वास अंतराल, एक अच्छा विचार होगा। यह व्याख्या करना आसान होगा यदि आपके प्रत्येक दो डेटासेट में परिणाम समान था (क्या यह है?)।
पीटर एलिस

2
आप वन प्लाट के उपयोग से सांख्यिकीय महत्व और प्रभाव के आकार को बहुत आसानी से दिखा सकते हैं ! 95% CI को प्रस्तुत करने का अर्थ है कि आप 2 के बजाय 4 संख्याओं का उपयोग कर रहे हैं, लेकिन जैसा कि हर कोई इसे स्वीकार कर रहा है, यह पर्याप्त रूप से प्रयोगों की तुलना करने के लिए आवश्यक जानकारी की सीमा का प्रतिनिधित्व करता है।
एडम

जवाबों:


20

बहुत से लोग तर्क देंगे कि एक -value या तो महत्वपूर्ण (हो सकता है पी < α ) या नहीं, और नहीं (कभी) मेकअप भावना दोनों के बीच तुलना करने के लिए तो यह होता है पी दूसरे के बीच -values। ये गलत है; कुछ मामलों में यह करता है।pp<αp

आपके विशेष मामले में इस बात में कोई संदेह नहीं है कि आप सीधे -values ​​की तुलना कर सकते हैं । यदि नमूना आकार तय किया गया है ( n = 1000 ), तो पी- अंतराल मोनोटोनिक रूप से टी- वैल्यू से संबंधित हैं, जो बारी-बारी से कोऑन के डी द्वारा मापा गया प्रभाव के आकार से संबंधित हैं । विशेष रूप से, = 2 टी / pn=1000pटीd । इसका मतलब यह है कि आपकेपी-अंतराल प्रभाव आकार के साथ एक-से-एक पत्राचार में हैं, और इसलिए आप यह सुनिश्चित कर सकते हैं कि यदिसंपत्ति ए के लिएपी-अंतराल संपत्ति बी से बड़ा है, तो ए के लिए प्रभाव का आकार छोटा है संपत्ति बी की तुलना में।d=2t/npp

मेरा मानना ​​है कि यह आपके प्रश्न का उत्तर देता है।

कई अतिरिक्त बिंदु:

  1. यह केवल सच है कि नमूना आकार निश्चित है। यदि आप एक नमूने के आकार के साथ एक प्रयोग में संपत्ति A के लिए p = 0.008 प्राप्त करते हैं, और दूसरे नमूने के आकार के साथ किसी अन्य प्रयोग में गुण B के लिए p = 0.002 हैं, तो उनकी तुलना करना अधिक कठिन है।np=0.008p=0.002

    • यदि प्रश्न विशेष रूप से है कि क्या जनसंख्या में A या B बेहतर "भेदभाव" है (यानी: A या B मानों को देखकर आप लिंग की कितनी अच्छी भविष्यवाणी कर सकते हैं?), तो आपको प्रभाव आकार देखना चाहिए। साधारण मामलों में, प्रभाव आकार की गणना करने के लिए और n को जानना पर्याप्त है।pn

    • यदि प्रश्न अधिक अस्पष्ट है: क्या प्रयोग अशक्त के खिलाफ अधिक "सबूत" प्रदान करता है? (यह सार्थक हो सकता है जैसे अगर ए = बी) - तो यह मुद्दा जटिल और विवादास्पद हो जाता है, लेकिन मैं कहूंगा कि परिभाषा द्वारा -value शून्य के खिलाफ सबूतों का एक स्केलर सारांश है, इसलिए p -value को कम करें मजबूत, सबूत, भले ही नमूना आकार अलग हैं।pp

  2. यह कहना कि B के लिए प्रभाव का आकार A से बड़ा है, इसका मतलब यह नहीं है कि यह काफी बड़ा है। ऐसा दावा करने के लिए आपको A और B के बीच कुछ प्रत्यक्ष तुलना की आवश्यकता है।

  3. यह हमेशा एक अच्छा विचार है कि (और व्याख्या) प्रभाव के आकार और आत्मविश्वास अंतराल को -values ​​के अलावा रिपोर्ट करें।p


3
नीरसता के बारे में अच्छे अंक और अच्छे अंतिम 3 अंक। अब, फिर से: "आप सुनिश्चित हो सकते हैं" कथन: नमूने के लिए पर्याप्त है, लेकिन "महत्वपूर्ण रूप से"? (यानी, जनसंख्या के लिए भरोसेमंद निहितार्थ के साथ?) आपने इसे संक्षेप में # 2 में संबोधित किया। इसका पूर्ण उपचार स्वागतयोग्य होगा। चीयर्स ~
rolando2

4
यह सही है, लेकिन मैंने यह भी स्पष्ट करने की कोशिश की कि यह केवल इस मामले में ही सही है (आप इस पर भी ध्यान दें)। मुझे लगता है कि मिशेल एक सार्थक बिंदु बना रहे थे कि आपको इस तरह से पी-वैल्यू का सामान्य उपयोग नहीं करना चाहिए।
गूँग - मोनिका

1
(-1) इस पद का शरीर सही है, लेकिन शुरुआती वाक्य ("बहुत से लोग तर्क देंगे कि ... यह एक दूसरे के बीच दो अंतराल की तुलना करने का कोई मतलब नहीं है । यह गलत है।") बहुत आसानी से है। सामान्य सलाह के रूप में गलत, जब वास्तव में यह केवल विशेष मामलों में होता है, जैसे कि यहां। p
एंड्रयू एम

1
@AndrewM शायद। मैंने अपने उत्तर की शुरुआत को संपादित किया है। देखें कि क्या आपको यह बेहतर लगता है।
अमीबा का कहना है कि

0

धन्यवाद, जिसने भी मुझे नीचा दिखाया, जैसा कि अब मेरे पास इस प्रश्न का एक बिल्कुल अलग उत्तर है। मैंने तदनुसार अपने मूल उत्तर को हटा दिया है क्योंकि यह इस दृष्टिकोण से गलत है।

इस सवाल के संदर्भ में, जो केवल इस सवाल से निपट रहा है "मेरे अध्ययन में एक बेहतर ए या बी था", हम एक जनगणना के साथ काम कर रहे हैं, न कि एक नमूना। इस प्रकार, पी-मान उत्पन्न करने के लिए उपयोग किए जाने वाले हीनतापूर्ण आँकड़ों का उपयोग अप्रासंगिक है। बांझ आँकड़ों का उपयोग उन लोगों के अनुमानों का अनुमान लगाने के लिए किया जाता है जिन्हें हम अपने नमूने से प्राप्त करते हैं। अगर हम किसी आबादी के सामान्यीकरण की इच्छा नहीं रखते हैं, तो वे तरीके अनावश्यक हैं। (जनगणना में लापता मूल्यों के आसपास कुछ विशिष्ट मुद्दे हैं, लेकिन वे इस स्थिति में अप्रासंगिक हैं।)

जनसंख्या में परिणाम प्राप्त करने की कोई संभावना नहीं है। हमें जो परिणाम मिला, वह हमने प्राप्त किया। इसलिए, हमारे परिणामों की संभावना 100% है। विश्वास अंतराल बनाने की कोई आवश्यकता नहीं है - नमूना के लिए बिंदु अनुमान सटीक है। हम बस कुछ भी अनुमान नहीं लगा रहे हैं।

"किस वेरिएबल ने मेरे पास मौजूद डेटा के साथ बेहतर काम किया है" के विशिष्ट मामले में, सभी को सरल सारांश रूप में परिणामों को देखना होगा। एक टेबल पर्याप्त हो सकती है, शायद एक बॉक्स प्लॉट जैसा ग्राफ।


-1

आपको पी में अंतर मिलता है, लेकिन यह स्पष्ट नहीं है कि अंतर का क्या मतलब है (क्या यह बड़ा, छोटा, महत्वपूर्ण है?)

शायद बूटस्ट्रैपिंग का उपयोग करें:

अपने डेटा से चयन (प्रतिस्थापन के साथ), अपने परीक्षण फिर से करें, p's (p_a - p_b) के अंतर की गणना करें, 100-200 बार दोहराएं

जांच करें कि आपके डेल्टा p का क्या अंश है <0 (A का अर्थ P, B के नीचे है)

नोट: मैंने ऐसा किया है, लेकिन मैं विशेषज्ञ नहीं हूं।


1
यह उत्तर पी-मानों की तुलना करने का एक तरीका बताता है , लेकिन मूल प्रश्न अनुत्तरित प्रतीत होता है: क्या प्रक्रिया का कोई अर्थ है और कोई परिणामों की व्याख्या कैसे करता है?
whuber

-1

एक उत्तर जोड़ा गया क्योंकि यह एक टिप्पणी के लिए बहुत लंबा था!

मिशेल की अच्छी प्रतिक्रिया है, लेकिन कई टिप्पणियां कुछ सामान्य चर्चाओं को दिखाती हैं जो पी-मूल्यों के बारे में सामने आती हैं। मूल विचार निम्नलिखित हैं:

1) एक छोटे पी-मूल्य का मतलब यह नहीं है कि परिणाम कम या ज्यादा महत्वपूर्ण है। इसका मतलब सिर्फ इतना है कि कम से कम चरम पर परिणाम मिलने की संभावना कम है। महत्व आपके चुने हुए महत्व स्तर (जो आप परीक्षण चलाने से पहले चुनते हैं) के आधार पर एक द्विआधारी परिणाम है।

2) प्रभाव आकार (अक्सर मानक विचलन के # मानकीकृत) "दो अलग-अलग" संख्याओं को निर्धारित करने का एक अच्छा तरीका है। इसलिए अगर क्वांटिटी ए में .8 मानक विचलन और क्वांटिटी बी का प्रभाव आकार है। 5 मानक विचलन का प्रभाव आकार है, तो आप कहेंगे कि क्वांटिटी ए में दो समूहों के बीच एक बड़ा अंतर है, मात्रा बी मानक माप की तुलना में। :

.2 मानक विचलन = "छोटा" प्रभाव

.5 मानक विचलन = "मध्यम" प्रभाव

.8 मानक विचलन = "बड़े" प्रभाव


1
लेकिन दिए गए सैंपल साइज़ को देखते हुए, पी-वैल्यू सीधे तौर पर प्रभाव के आकार से संबंधित है!
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.