एक्सकॉन्ड जेली बीन कॉमिक को समझाएं: क्या यह मज़ेदार है?


59

मैं देखता हूं कि बीस में से एक बार वे कुल परीक्षण करते हैं, , इसलिए वे गलत तरीके से मानते हैं कि बीस परीक्षणों में से एक के दौरान, परिणाम महत्वपूर्ण है ( )।0.05 = 1 / 20p<0.050.05=1/20

xkcd जेली बीन कॉमिक - "महत्वपूर्ण"

  • शीर्षक: महत्वपूर्ण
  • होवर पाठ: "तो, उह, हमने फिर से हरा अध्ययन किया और कोई लिंक नहीं मिला। यह शायद एक था - '' ग्रेट जेली बीन / ऐसनी लिंक पर ध्यान केंद्रित! अधिक अध्ययन योग्य! '"

xkcd कॉमिक 882 - "महत्वपूर्ण"


8
95% आत्मविश्वास का मतलब यह होगा कि औसतन 5% प्रयोगों में (20 में से एक) हमें एक विपरीत निष्कर्ष मिलेगा। जो वास्तव में यहाँ हुआ है। यानी, यदि आप 1000 बार नारंगी जेली बीन्स के साथ एक ही प्रयोग करते हैं, तो उनमें से ~ 50 सकारात्मक परिणाम देंगे। :)
साश्केलो

19
किसने कहा कि यह हास्यास्पद है?
whuber

3
यहाँ पर अन्य 59 मतदाताओं के अलावा, स्वयं, इसलिए इसका कम से कम! ; -पी (यह टिप्पणी निश्चित रूप से सामान्य रूप से एक्सकेसीडी की मेरी राय का प्रतिनिधित्व नहीं करती है।) जब तक कि जैसी कोई चीज नहीं होती है , उस स्थिति में हम शायद बेहतर डेटा चाहते हैं। किसी ने इसे अभी तक कम नहीं किया है, फिर भी, "नकारात्मक फ़ननेस" के उपलब्ध संचालन के रूप में एफडब्ल्यूआईडब्ल्यू ... और इसके साथ, मैंने संभवतः इस टिप्पणी को नकारात्मक फ़ननेस क्षेत्र में ले लिया है ...फ़ननेस < 0 ( पी < .05 )funniness>0funniness<0(p<.05)
निक स्टॉनर


3
@Glen_b, पसंदीदा डेटा विश्लेषण कार्टून धागा उचित सीडब्ल्यू है, हालांकि, मुझे लगता है कि कोई कारण नहीं होना चाहिए। 'क्यों मजाकिया' एक तरफ, सवाल कार्टून में मुद्दे पर सांख्यिकीय बिंदु की समझ के लिए पूछता है, जिसका उत्तर है और विषय पर होना चाहिए और सीडब्ल्यू नहीं (और मुझे लगता है कि आपने नीचे अच्छी तरह से संभाला है)।
गंग - मोनिका

जवाबों:


68

हास्य एक बहुत ही निजी चीज है - कुछ लोगों को यह मनोरंजक लगेगा, लेकिन यह हर किसी के लिए मज़ेदार नहीं हो सकता है - और यह समझाने का प्रयास करता है कि जो चीज़ कुछ मज़ेदार होती है वह अक्सर मज़ाक को व्यक्त करने में विफल होती है, भले ही वे अंतर्निहित बिंदु की व्याख्या करें। वास्तव में सभी xkcd वास्तव में मजाकिया होने के इरादे से नहीं हैं। हालांकि, कई लोग महत्वपूर्ण बिंदुओं को इस तरह से बनाते हैं जो कि उत्तेजक साबित होते हैं, और कम से कम कभी-कभी वे ऐसा करते समय खुश होते हैं। (मुझे व्यक्तिगत रूप से यह अजीब लगता है, लेकिन मुझे यह स्पष्ट रूप से स्पष्ट करना मुश्किल है कि क्या, वास्तव में, यह मुझे मजाकिया बनाता है। मुझे लगता है कि यह आंशिक रूप से उस तरह की मान्यता है जो एक संदिग्ध, या यहां तक ​​कि संदिग्ध परिणाम एक मीडिया सर्कस में बदल जाता है ( जिस पर) इस पीएचडी कॉमिक को भी देखें ), और शायद आंशिक रूप से कुछ शोध वास्तव में किए जाने के तरीके की मान्यता हो सकती है - यदि आमतौर पर सहमति से।)

हालांकि, कोई भी इस बिंदु की सराहना कर सकता है कि क्या यह आपके फनीबोन को गुदगुदी करता है या नहीं।

बिंदु कुछ मध्यम महत्व के स्तर पर 5% की तरह कई परिकल्पना परीक्षण करने के बारे में है, और फिर जो महत्वपूर्ण निकला उसे प्रचारित करना। बेशक, यदि आप 20 ऐसे परीक्षण करते हैं, जब वास्तव में कोई महत्व नहीं होता है, तो महत्वपूर्ण परिणाम देने के लिए उन परीक्षणों की अपेक्षित संख्या 1 है। महत्व के स्तर पर परीक्षणों के लिए एक मोटा सिर सन्निकटन करना , लगभग 37% संभावना है कि कोई महत्वपूर्ण परिणाम नहीं है, लगभग 37% एक का मौका है और लगभग 26% से अधिक का मौका है (मैं सिर्फ सटीक उत्तरों की जांच कर रहा हूं; वे उस के करीब हैं)।n1n

कॉमिक में, रान्डेल ने 20 परीक्षणों का चित्रण किया है, इसलिए यह कोई संदेह नहीं है कि उनकी बात (कि जब आपको कुछ भी नहीं चल रहा है तब भी आपको एक महत्वपूर्ण प्राप्त होने की उम्मीद है)। काल्पनिक अखबार के लेख में भी उपसमूह के साथ समस्या पर जोर दिया गया है "संयोग का केवल 5% मौका!"। (यदि कागजों में समाप्त होने वाली एक परीक्षा केवल एक ही हुई, तो ऐसा हो सकता है।)


बेशक, वहाँ भी है सबटॉलर मुद्दा यह है कि एक व्यक्ति शोधकर्ता बहुत अधिक उचित व्यवहार कर सकता है, लेकिन झूठी सकारात्मक के व्यापक प्रचार की समस्या अभी भी होती है। मान लीजिए कि ये शोधकर्ता केवल 5 परीक्षण करते हैं, प्रत्येक 1% के स्तर पर, इसलिए उनके फर्जी परिणाम की खोज करने का कुल मौका लगभग पांच प्रतिशत ही है।

अब तक सब ठीक है। लेकिन अब कल्पना कीजिए कि 20 ऐसे शोध समूह हैं, जिनमें से प्रत्येक परीक्षण में रंगों का यादृच्छिक उपसमूह है जो उन्हें लगता है कि उनके पास प्रयास करने का कारण है। या 100 शोध समूह ... अब कॉमिक में एक जैसे शीर्षक का क्या मौका?

इसलिए अधिक मोटे तौर पर, कॉमिक प्रकाशन पूर्वाग्रह को अधिक सामान्यतः संदर्भित कर सकता है। यदि केवल महत्वपूर्ण परिणामों को तुरही दी जाती है, तो हम उन दर्जनों समूहों के बारे में नहीं सुनेंगे, जिन्होंने हरे रंग के जेलीबीन के लिए कुछ भी नहीं पाया, केवल उसी ने किया था।

वास्तव में, यह इस लेख में बनाए जा रहे प्रमुख बिंदुओं में से एक है , जो पिछले कुछ महीनों में चर्चा में रहा है ( जैसे यहां , भले ही यह 2005 का लेख है)।

एक है कि लेख के जवाब प्रतिकृति के लिए की जरूरत पर जोर देती है। ध्यान दें कि यदि प्रकाशित किए गए अध्ययन के कई प्रतिकृति होने थे, तो "ग्रीन जेलीबीन को मुँहासे से जोड़ा गया" परिणाम खड़े होने की बहुत संभावना नहीं होगी।

(और वास्तव में, हास्य के लिए हॉवर पाठ उसी बिंदु पर एक चतुर संदर्भ बनाता है।)


11

प्रकाशित करने के निर्णय पर परिकल्पना परीक्षण के प्रभाव को 1959 के जेएएसए पेपर प्रकाशन निर्णयों और उनके संभावित प्रभावों पर वर्णित परीक्षणों से अधिक पचास साल पहले वर्णित किया गया है, जो कि टेस्ट के महत्व पर आधारित हैं - या इसके विपरीत (भुगतानकर्ता के लिए खेद है)।

कागज का अवलोकन कागज के सबूत बताते हैं कि वैज्ञानिक पत्रों के प्रकाशित परिणाम सभी अध्ययनों से परिणामों के प्रतिनिधि नमूने नहीं हैं। लेखक ने चार प्रमुख मनोविज्ञान पत्रिकाओं में प्रकाशित पत्रों की समीक्षा की। समीक्षा किए गए 97% पत्रों ने अपने प्रमुख वैज्ञानिक परिकल्पनाओं के लिए सांख्यिकीय रूप से महत्वपूर्ण परिणामों की सूचना दी।

लेखक इस अवलोकन के लिए एक संभावित स्पष्टीकरण को आगे बढ़ाता है: वह शोध जो निरर्थक परिणाम देता है, प्रकाशित नहीं होता है। इस तरह के अनुसंधान अन्य जांचकर्ताओं के लिए अज्ञात होते हुए भी अंततः स्वतंत्र रूप से दोहराया जा सकता है जब तक कि संयोग से एक महत्वपूर्ण परिणाम नहीं होता (टाइप 1 त्रुटि) और प्रकाशित होता है। यह इस संभावना के द्वार को खोलता है कि प्रकाशित वैज्ञानिक साहित्य में सांख्यिकीय महत्व परीक्षणों में टाइप 1 त्रुटियों के परिणामस्वरूप गलत परिणामों का अति-प्रतिनिधित्व शामिल हो सकता है - वास्तव में यह परिदृश्य कि मूल XKCD कॉमिक मज़ाक उड़ा रहा था।

यह सामान्य अवलोकन बाद में सत्यापित किया गया है और हस्तक्षेप के वर्षों में फिर से खोजा जा सकता है। मेरा मानना ​​है कि 1959 का जेएएसए पेपर सबसे पहले परिकल्पना को आगे बढ़ाने वाला था। उस पत्र के लेखक मेरे पीएचडी पर्यवेक्षक थे। हमने 35 साल बाद उनके 1959 के पेपर को अपडेट किया और उसी निष्कर्ष पर पहुंचे। प्रकाशन निर्णय पुन: प्रकाशित: प्रकाशन और उपाध्यक्ष के निर्णय पर सांख्यिकीय परीक्षणों के परिणाम का प्रभाव। अमेरिकन स्टेटिस्टिशियन, वॉल्यूम 49, नंबर 1, फरवरी 1995


ज़रूर - मैंने कागज के अवलोकन को शामिल करने के लिए अपने उत्तर को ऊपर संपादित किया।
विल्फ रोसेनबौम


-2

लोग क्या अनदेखी करते हैं कि हरी जेली बीन मामले के लिए वास्तविक पी-मूल्य .05 नहीं बल्कि आसपास है ।64। केवल दिखावा (नाममात्र) पी-मूल्य .05 है। वास्तविक और ढोंग पी-मूल्यों के बीच अंतर है। 20 में से 1 को खोजने की संभावना जो नाममात्र के स्तर तक पहुंच जाती है, भले ही सभी नल सही न हों, .05 नहीं, लेकिन .64 है। दूसरी ओर, यदि आप तुलनात्मक संभावना को देखते हुए सबूतों को मूल्यांकित करते हैं - त्रुटि सांख्यिकीय एक से अलग सबसे लोकप्रिय दृश्य (जिसके भीतर पी-मान रहते हैं) आप कहेंगे कि एच के लिए सबूत हैं: हरी जेली बीन्स वास्तव में मुँहासे से सहसंबद्ध हैं। ऐसा इसलिए है क्योंकि P (x; कोई प्रभाव नहीं) <P (x; H)। बाईं ओर <.05 है, जबकि दाईं ओर काफी अधिक है: यदि हरी जेली बीन्स ने मुँहासे का कारण बनाया, तो पाया गया कि एसोसिएशन का पता लगाना संभावित होगा। अकेले संभावनाएँ त्रुटि संभावनाओं पर लेने में विफल रहती हैं क्योंकि वे वास्तविक डेटा पर स्थिति प्राप्त कर लेते हैं। हरे जेली की फलियों और मुंहासों का सिर्फ एक ही परीक्षण हुआ है, तो मूल्यांकन में कोई अंतर नहीं है। इसलिए हालाँकि इस कार्टून को अक्सर पी-वैल्यू का मज़ाक बनाते हुए देखा जाता है, लेकिन इसके बारे में जो मज़ेदार बात है वह यह दर्शाता है कि हमें समग्र त्रुटि संभावना (जैसा कि गैर-प्री-पी मान करते हैं) पर विचार करने की आवश्यकता है और न केवल संभावना। त्रुटि की संभावनाओं को अनदेखा करते हुए, परिणाम पर बायेसियन निष्कर्ष भी वातानुकूलित किया जाता है। एच के लिए साक्ष्य खोजने से बचने का एक ही तरीका है, एक बायेसियन के लिए एच में पहले से कम होना चाहिए। लेकिन हम पी-मान को समायोजित करेंगे चाहे विषय वस्तु और पुजारियों पर भरोसा किए बिना, शिकार प्रक्रिया के कारण। परीक्षण करने के लिए परिकल्पना खोजने के लिए। यहां तक ​​कि अगर H जो शिकार किया गया था, वह विश्वसनीय था, ' अभी भी एक घटिया परीक्षा है। Errorstatistics.com


2
यह पोस्ट वास्तव में क्या कहना चाह रही है, यह बताना बहुत कठिन है। मुझे इसके एक हिस्से पर ध्यान केंद्रित करने की उम्मीद है, यह स्पष्ट करते हुए कि बाकी का अर्थ स्पष्ट हो सकता है: वास्तव में "समग्र त्रुटि संभावना" से आपका क्या अभिप्राय है?
whuber

2
@ मैं मानता हूं कि पोस्ट कई तुलनाओं की समस्या का जिक्र कर रहा है।
मैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.