पी-मूल्य हैकिंग


6

पी-वैल्यू हैकिंग अलग-अलग परिणामों और विशिष्टताओं को देखने की "कला" है जब तक कि आपको "झूठी पॉजिटिव" न मिले, यानी एपी मान के तहत, 0.05, जो केवल शोर और डेटा जनरेटिंग प्रक्रिया के तहत सही नहीं है।

मान लें कि मेरा आकार साथ एक उपचारित समूह है और आकार , परिणाम चर के साथ एक नियंत्रण समूह है , और मैं के मान को लक्षित कर रहा हूं: मैं कम से कम एक गलत सकारात्मक महत्वपूर्ण परिणाम प्राप्त करने की पूर्व-पूर्व संभावना की गणना कैसे कर सकता हूं तहत ?एम के पी पीNMKpp

आप मान सकते हैं कि विशेषताओं को स्वतंत्र रूप से और सामान्य रूप से वितरित किया गया है, और यदि यह बहुत सरल करता है, तो वह ।एम = एनKM=N


पूर्ण प्रकटीकरण: मैं एक काफी दिलचस्प परिणाम से प्रभावित हूं जहां । मुझे लगता है कि उनके दिलचस्प परिणाम ब्याज के कई चर से उपजी होने की संभावना है। M+N=50
फूबर

वास्तव में आपकी अशक्त परिकल्पना क्या है? यह कि दी गई विशेषता का औसत दोनों समूहों के लिए समान है? (और यह सभी चर के लिए दोहराया जाता है ।) मुझे यकीन नहीं है लेकिन मुझे लगता है कि आपको अंतर्निहित संभाव्यता वितरण के प्रकार के बारे में भी कुछ कहना होगा। K
जिस्कार्ड

संभवतः एक दिलचस्प और प्रासंगिक लेख । लेख के एक उद्धरण, "फ़ूजी की बाद की बर्खास्तगी के बाद जल्द ही उनके काम के बारे में गंभीर सबूतों की बाढ़ आ गई थी। 8 मार्च को, एनेस्थेसिया ने जॉन कार्लिसल, जो टॉर्के, यूके के टोरबे अस्पताल में सलाहकार एनेस्थेटिस्ट थे, ने एक विश्लेषण प्रकाशित किया था। फ़ूजी के कागजात में 'संभावनाएं हैं जो असीम रूप से छोटी हैं।' "सारांश: एक आदमी ने
योशिताका

1
बंद विषय => आंकड़े.stackexchange.com

2
Foobar, हाँ, यही कारण है कि मैंने संभवतः प्रासंगिक हा कहा - यह बिल्कुल सीधे संबंधित नहीं है, लेकिन आपके प्रश्न ने मुझे इसकी याद दिला दी। आपका लेख थोड़ा और संबंधित लगता है :) @ AndréPeseur, मुझे लगता है कि हमारी वेबसाइट और क्रॉस-वैलिडेटेड विषयों के बीच कुछ ओवरलैप होने जा रहे हैं। मेरा विचार है कि इकोनोमेट्रिक्स यहाँ विषय पर होना चाहिए - एसई प्रो या कुछ भी नहीं। हो सकता है कि आप असहमत होने पर आगे चर्चा करने के लिए एक मेटा पोस्ट शुरू करें।
cc7768

जवाबों:


9

आईआईडी सामान्य विशेषताओं की धारणा के तहत, वर्णित स्थिति को अलग-अलग वेल्च के टी-परीक्षणों द्वारा ध्यान में रखा जाता है जो संभवतः अलग-अलग नमूना आकार और अलग - अलग संस्करण के लिए खाते हैं। इन परीक्षणों के आंकड़ों को निरूपित । प्रत्येक के साथ जुड़ा पी-मूल्य हैtj,j=1,...,K

pj=Pr(|tj|t(α)H0)

जहां परिकल्पना है कि इलाज और नियंत्रित समूह के बीच आबादी का मतलब समान है, और महत्व स्तर पर निर्भर करता है । H0t1α

हम संबंधित संचयी वितरण फ़ंक्शन के संदर्भ में संभावना लिख ​​सकते हैं,

Pr(|tj|t(α)H0)=1F(|tj|)

इसलिये

pj=1F(|tj|)1pj=F(|tj|)

यदि हम डेटा को देखने से पहले स्थिति को प्राथमिकता देते हैं, तो भविष्य में पी-वैल्यू झूठ है और इसे यादृच्छिक चर के रूप में मॉडल किया जा सकता है। एक यादृच्छिक चर के रूप में देखे जाने की संभावना अभिन्न परिवर्तन हमें बताता है कि एक वर्दी वितरण का अनुसरण करता है , और इस वितरण के गुणों से ऐसा करता है ।1pjU(0,1)pj

सभी एकत्रित करते हुए , हमारे पास स्वतंत्र वर्दी के आकार का एक नमूना है । संभावना है कि उनमें से कम से कम एक छोटा है कि एक विशिष्ट मान, , इस संभावना के बराबर है कि उनमें से न्यूनतम इस सीमा से कम है। इसे निम्नलिखित रूप से समझा जा सकता है:pjKU(0,1)p

Pr(At least one pjp)=Pr(Not all pj>p)

=1Pr(All pj>p)=1j=1KPr(pj>p)

स्वतंत्रता के कारण, और इसलिए, जब से वे पहचान में वितरित होते हैं,

Pr(At least one pjp)=1[1Pr(pp)]K=1[1FU(p)]K

लेकिन इस की न्यूनतम का संचयी बंटन फ़ंक्शन है यादृच्छिक परिवर्तनीय आईआईडी।K

इस न्यूनतम निरूपित करें ।p(1)

न्यूनतम स्वतंत्र चर का CDF हैKU(0,1)

Fp(1)(p(1))=1[1p(1)]K

हम संभावना चाहते हैं

Pr(p(1)p)=1[1p]K

सांकेतिक मूल्य:

यहां छवि विवरण दर्ज करें


" वेल्च के टी-टेस्ट जो संभवतः अलग-अलग नमूना आकार और अलग-अलग संस्करण के लिए खाते हैं "। मेरे पास अब तक उत्तर को स्किम करने के लिए केवल समय था, लेकिन मैं यह नहीं पा सकता हूं कि नमूना आकार , तस्वीर में कहां है । अंतिम तालिका नमूना आकार के साथ कैसे बदलती है? MN
फुआबर

2
यह नहीं है यादृच्छिक चर के रूप में, पी-मान यूनिफ़ॉर्म (0,1) हैं जो भी स्थिति के अन्य पहलू हैं। केवल बात यह है कि मायने रखती है के आकार है । K
एलेकोस पापादोपोलोस

वह अजीब है। यह लिंक कुछ और दावा करता है: " यदि आप बड़ी संख्या में लोगों के बारे में बड़ी संख्या में मापते हैं, तो आपको" सांख्यिकीय रूप से महत्वपूर्ण "परिणाम प्राप्त करने की गारंटी है। हमारे अध्ययन में 18 अलग-अलग माप शामिल थे- वजन, कोलेस्ट्रॉल, सोडियम, रक्त प्रोटीन। स्तर, नींद की गुणवत्ता, कल्याण, आदि - 15 लोगों से। ”। यहां अंतर्निहित धारणाएं क्या हैं जो अलग परिणाम देती हैं?
फुआबर

1
बयान का महत्वपूर्ण हिस्सा "बड़ी संख्या में" है, अर्थात एक बड़ा । लिंक पर वापस जाएं और उप-अध्याय "द हुक" के ठीक नीचे पढ़ें। आपको मेरे उत्तर के समान सूत्र और मेरी तालिका के अनुरूप प्रतिशत दिखाई देगा। K
एलेकोस पापाडोपोलोस

समझा। तो उनका सूत्रीकरण "बड़ी संख्या में लोगों की छोटी संख्या के बारे में" का अर्थ गलत बात है, यह "छोटी संख्या में लोगों" के बिना होना चाहिए
फूबर

3

मैं @AlecosPapadopoulos से सहमत हम जैसे कुछ हैं: लेकिन मैं नहीं दिख रहा है कि कैसे और उचित परीक्षण आँकड़ा में प्रवेश नहीं कर सका। उदाहरण के लिए, यदि अंतर्निहित डेटा सामान्य रूप से iid डेटा वितरित किया जाता है तो और कोई फर्क नहीं पड़ता।

Pr(p(1)p)=1[1p]K
nMNM

उस शोर का मतलब पर विचार करें और विचरण , जो, धारणा द्वारा नियंत्रण और "इलाज" समूह के लिए समान है। आकार एन के साथ इलाज समूह का मतलब नियंत्रण के लिए और वितरित किया जाएगा । अतः अंतर का अर्थ वितरित किया जाएगाμσN(μ,σ2/n)N(μ,σ2/M)

N(0,σ2/n+σ2/m)

लेकिन आप या को नहीं जानेंगे , इसलिए हमें , और साथ इसका अनुमान , और एक टी-टेस्ट का उपयोग करना होगा। यह सेटअप इस तरह से एक t-tatistic देता है: जहां एसआरसी: विकिपीडिया पर छात्र का टी-टेस्टσμX1X2sX1X2

t=X¯1X¯2sX1X21n+1m
sX1X2=(n1)sX12+(m1)sX22n+m.

इस अंतर के लिए अनपेक्षित नमूना टी-टेस्ट में स्वतंत्रता की डिग्री है । इसलिए अस्वीकृति क्षेत्र को n और m दोनों पर निर्भर होना चाहिए, दोनों उस परीक्षण की स्वतंत्रता की डिग्री और परीक्षण सांख्यिकीय गणना के माध्यम से उपयोग करने के लिए परीक्षण के महत्वपूर्ण मूल्य में दोनों।NM2


1
निश्चित रूप से नमूना आकार परीक्षण-सांख्यिकीय में प्रवेश करता है, लेकिन यह ओपी के बारे में पूछे जाने वाले विशिष्ट संभावना को प्रभावित नहीं करता है (यानी एक प्राथमिकता की संभावना है कि हम किसी दिए गए सीमा से कम से कम एक पी-मूल्य प्राप्त करेंगे)।
एलेकोस पापाडोपोलोस

ठीक से निर्दिष्ट परीक्षण में कई तुलनाओं को शामिल किया जाएगा जैसे कि यह आकार और स्वतंत्रता की डिग्री का नमूना होगा - सही? तो क्या यह केवल कई तुलनात्मक आयामों के साथ गलत परीक्षण सांख्यिकीय का उपयोग करने के बारे में एक प्रश्न है, लेकिन व्यक्तिगत तुलना आयाम पर ठीक से निर्दिष्ट है? क्योंकि परीक्षण आँकड़ा में m और n की उपस्थिति ठीक-ठीक है क्योंकि एक छोटे नमूने का आकार अशक्त परिकल्पना के तहत एक बड़ा अंतर होने की संभावना है।
बीके

1
यहाँ महत्वपूर्ण बिंदु यह है कि एक प्राथमिकताओं, क) एक पी-मान में सीमांत यू (0,1) वितरण है, भले ही कुछ भी हो (नमूना आकार या जो भी हो)। यह किसी भी तरह की स्थिति में एक सामान्य परिणाम है। यह सहज होना चाहिए: यदि पी-मूल्य में एक गैर-समान वितरण था तो क्या होगा? Contd
Alecos पापाडोपौलोस

1
नियंत्रण का मतलब यह होगा कि इसके कुछ मूल्य दूसरों की तुलना में अधिक होने की संभावना है, फिर भी स्थिति की बारीकियों के बावजूद । लेकिन यह पूरी परीक्षण प्रक्रिया को अमान्य कर देगा, ठीक है क्योंकि इसका अर्थ यह होगा कि "इससे कोई फर्क नहीं पड़ता कि आप क्या परीक्षण करते हैं, नमूना आकार क्या है आदि - पी-मान के लिए यह मान दूसरों की तुलना में अधिक संभावित है"।
एलेकोस पापाडोपोलोस

विस्तारित चर्चा के लिए आप दोनों को धन्यवाद, मुझे इसके बारे में और जानने की आवश्यकता है और मुझे लगता है कि यह निश्चित रूप से स्नातक अध्ययन पाठ्यक्रम का हिस्सा होना चाहिए।
फुआबर

2

अन्य उत्तर अच्छे हैं, लेकिन मैंने सोचा कि अलग-अलग फोकस के साथ एक और उत्तर एक अच्छा पूरक हो सकता है।

क्या नमूना आकार आमतौर पर झूठी-सकारात्मक दर को प्रभावित करता है?

टिप्पणियों से देखते हुए, मुझे लगता है कि इस लेख से सवाल पूछा गया है , जिसमें कुछ गलतियों (या कम से कम गलतफहमी) शामिल हैं।

सबसे पहले (और सामान्य रूप से सबसे अधिक चिंताजनक) यह गलत तरीके से पी-मानों को परिभाषित करता है, लेकिन अधिक प्रासंगिक रूप से इसमें वाक्य शामिल है "यदि आप बड़ी संख्या में लोगों के बारे में बड़ी संख्या में चीजों को मापते हैं, तो आपको" सांख्यिकीय रूप से महत्वपूर्ण "परिणाम प्राप्त करने की गारंटी है। । "

पी-वैल्यू संभावना है, यह मानते हुए कि अशक्त परिकल्पना सच है, परिणाम को देखने के रूप में कम से कम उतना ही चरम है जितना कि वास्तव में मनाया गया था। जैसा कि अन्य उत्तरों में बताया गया है, इसका मतलब है कि इसे नमूना आकार, अंतर्निहित वितरण आदि की परवाह किए बिना 0 और 1 के बीच समान रूप से वितरित किया जाना चाहिए।

इसलिए वाक्य को पढ़ना चाहिए "यदि आप बड़ी संख्या में लोगों के बारे में बड़ी संख्या में मापते हैं, तो आपको" सांख्यिकीय रूप से महत्वपूर्ण "परिणाम प्राप्त करने की गारंटी है।"

जैसा कि लेख में सही ढंग से गणना की गई है, भले ही चॉकलेट वास्तव में कुछ भी नहीं करता है एक महत्वपूर्ण परिणाम प्राप्त करने का 60% मौका (स्वतंत्रता, आदि) था।

उन्हें वास्तव में तीन महत्वपूर्ण परिणाम मिले, जो काफी आश्चर्यजनक है (पी = 0.06 के तहत - शायद अवास्तविक - स्वतंत्रता की धारणा)।

क्या नमूना आकार कभी भी झूठी-सकारात्मक दर को प्रभावित करता है?

वास्तव में कभी-कभी ऐसा होता है, हालांकि यह वास्तव में केवल एक फर्क पड़ता है अगर नमूना आकार वास्तव में छोटा है।

मैंने कहा कि (यह मानना ​​कि अशक्त परिकल्पना सत्य है) पी-मूल्य को समान रूप से वितरित किया जाना चाहिए। लेकिन समान वितरण निरंतर है, जबकि बहुत सारे डेटा केवल सूक्ष्म रूप से कई संभावित परिणामों के साथ असतत हैं।

यदि मैं यह जांचने के लिए कि क्या यह पक्षपातपूर्ण है, यह जांचने के लिए कुछ समय के लिए एक सिक्का टॉस किया जाता है, तो केवल कुछ संभावित परिणाम हैं और इसलिए कुछ संभावित पी-मान हैं, इसलिए संभावित पी-वैल्यू का वितरण समान वितरण के लिए एक बहुत खराब सन्निकटन है। यदि मैं इसे कुछ समय के लिए फ्लिप करता हूं, तो एक महत्वपूर्ण परिणाम प्राप्त करना असंभव हो सकता है।

यहां एक ऐसे मामले का उदाहरण दिया गया है जहां वास्तव में ऐसा हुआ था।

तो आपके पास कुछ ऐसा होगा "यदि आप पर्याप्त रूप से कम संख्या में लोगों के बारे में कुछ प्रकार की चीजों को मापते हैं, तो आप कभी भी" सांख्यिकीय रूप से महत्वपूर्ण "परिणाम प्राप्त नहीं करेंगे, चाहे आप कितनी भी कोशिश करें।"

क्या इसका मतलब यह है कि यदि परिणाम सकारात्मक है तो आपको नमूना आकार के बारे में चिंता नहीं करनी चाहिए?

नहीं। कुछ सकारात्मक परिणाम गलत सकारात्मक हैं और कुछ सच सकारात्मक हैं। जैसा कि ऊपर चर्चा की गई है, यह आमतौर पर यह मान लेना सुरक्षित है कि झूठी-सकारात्मक दर निश्चित है (आमतौर पर 5%)। लेकिन एक छोटा नमूना आकार हमेशा सही सकारात्मकता को कम संभावना बनाता है (एक छोटे नमूना आकार का मतलब है कि परीक्षण में कम शक्ति है )। और यदि आपके पास झूठी सकारात्मकता की संख्या कम है, लेकिन कम सच सकारात्मक है, तो एक यादृच्छिक रूप से चुना गया सकारात्मक परिणाम गलत होने की अधिक संभावना है।


मैं आपके दो आखिरी पैराग्राफ से भ्रमित हूं। क्या यह सही है कि जैसे-जैसे नमूना आकार घटता है, सकारात्मकता की संभावना कम होती जाती है, और सही सकारात्मक की संभावना झूठी सकारात्मक की संभावना से अधिक घटती जाती है ? यदि ऐसा है, तो "उस समय के साथ कैसे मेल खाता है" जबकि एक छोटा सा नमूना झूठी सकारात्मकता को अधिक संभावना नहीं बना सकता है, यह उन्हें कम संभावना बना सकता है। "
FooBar

किसी भी उचित नमूना आकार के लिए, यह मान लेना सुरक्षित है कि झूठी-सकारात्मक दर 5% तय की गई है। लेकिन हालांकि आपका नमूना बड़ा है, अधिक लोगों को जोड़ने से वास्तविक-सकारात्मक दर बढ़ जाती है। मेरे पास अब ज्यादा समय नहीं है, इसलिए मैं केवल बहुत जल्दी संपादन कर सकता हूं, लेकिन मौका मिलने पर मैं शब्दों को बेहतर ढंग से सुधारने की कोशिश करूंगा।
राउल

2

ऊपर दिए गए उत्कृष्ट उत्तरों को जोड़ने के लायक शायद एक चीज है, जो अनिवार्य रूप से एक मेटा-नंबरों का खेल है। आइए बताते हैं कि 20 वैज्ञानिक सभी प्रयोगों का एक ही सेट करते हैं जो संभवतः किसी चीज़ की तलाश में कमजोर रूप से सहसंबद्ध होते हैं जैसे "चॉकलेट दिल का दौरा पड़ता है", और पी मान को स्वीकार करेगा <0.05 महत्वपूर्ण जो स्पष्ट रूप से उन्हें नहीं करना चाहिए। संचयी संभावना यह है कि एक वैज्ञानिक को एक महत्वपूर्ण खोज मिलेगी, जो कि एक प्रयोग है जो प्रकाशित हो जाएगा, क्योंकि नकारात्मक परिणाम शायद ही कभी स्वीकार किए जाते हैं। इसके बाद 100% संभावना है कि खोज इस दुनिया के Bild Zeitungs द्वारा उठाई जाएगी और गलत रिपोर्ट की जाएगी।

दुर्भाग्य से, क्योंकि हम निष्कर्षों की अनुपस्थिति की रिपोर्ट नहीं करते हैं, हम अनिवार्य रूप से सभी प्रयोगों की रिपोर्टिंग में एक ग्रह व्यापक अभ्यास में लगे हुए हैं जो भाग्यशाली हैं - शब्द के गलत अर्थ में।

एक मजबूत सैद्धांतिक आधार वाले विषयों के लिए, अच्छा प्रयोगात्मक डिजाइन इसके खिलाफ कुछ सुरक्षा प्रदान करता है - उन विषयों के लिए जो पूर्व-मुख्य रूप से अवलोकन डेटा के साथ काम करने के लिए हैं, और अर्थशास्त्र की तरह सिद्धांत को काम करने की कोशिश करते हैं - यह एक प्रमुख मुद्दा है।

जोड़ा गया: एक व्यापक के लिए - और बहुत अच्छी तरह से लिखा - पूरे मुद्दे पर चर्चा, हाल ही में बहस शुरू करने वाले कागज देखें:

झूठी खोज दर और पी-मान डेविड कोलक्वाउन की गलत व्याख्या की जांच


यह बहुत अच्छी टिप्पणी है। समस्या पहले के कागजात के आधार पर निष्कर्षों और मेटा निष्कर्षों को भी हल करती है। हालाँकि, मुझे लगता है कि यह इस विशेष प्रश्न के साथ सिंक से बाहर है, क्योंकि सोचा प्रयोग एक व्यक्तिगत हैक वैज्ञानिक के बारे में लगता है कि उसकी संभावनाओं को मापता है?
जिस्कार्ड

मैं असहमत नहीं हूँ, हालाँकि जब से फ़ॉबर एक कागज के संदर्भ में पूछ रहा था जिसे वह देख रहा था, मैंने सोचा कि यह सबसे खराब स्थिति विश्लेषण में फेंकने के लिए चोट नहीं पहुंचाएगा।
लूमी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.