एक कठिन सांख्यिकीय अवधारणा के लिए आपके पसंदीदा आम आदमी की व्याख्या क्या है?


36

मैं वास्तव में जटिल समस्याओं के लिए सरल स्पष्टीकरण सुनने का आनंद लेता हूं। आपका पसंदीदा सादृश्य या किस्सा क्या है जो एक कठिन सांख्यिकीय अवधारणा की व्याख्या करता है?

मेरा पसंदीदा एक शराबी और उसके कुत्ते का उपयोग कर मुरैना का स्पष्टीकरण है। मरे बताते हैं कि कैसे दो यादृच्छिक प्रक्रियाओं (एक भटकने वाले नशे में और उसके कुत्ते, ओलिवर) की इकाई जड़ें हो सकती हैं लेकिन अभी भी संबंधित (संयोगित) हो सकते हैं क्योंकि उनके संयुक्त पहले अंतर स्थिर हैं।

शराबी बार से बाहर निकलता है, बेतरतीब ढंग से चलने वाले फैशन में घूमने के लिए। लेकिन समय-समय पर वह "ओलिवर, तुम कहाँ हो?" का परिचय देती है, और ओलिवर अपने लक्ष्यहीन भटकने को रोक देता है। वह उसकी सुनता है; वह उसे सुनती है। वह सोचता है, "ओह, मैं उसे बहुत दूर नहीं जाने दे सकता; वह मुझे बाहर बंद कर देगा।" वह सोचती है, "ओह, मैं उसे बहुत दूर नहीं जाने दे सकती; वह मुझे रात के बीच में अपने भौंकने के साथ जगा देगा।" प्रत्येक का आकलन है कि दूसरा कितना दूर है और आंशिक रूप से उस अंतर को बंद कर देता है।

जवाबों:


18

एक पी वैल्यू इस बात का माप है कि डेटा अशक्त परिकल्पना के लिए कितना शर्मनाक है

निकोलस मैक्सवेल, डेटा मैटर्स: एक रैंडम वर्ल्ड एमरीविले सीए के लिए वैचारिक सांख्यिकी: की कॉलेज प्रकाशन, 2004।


15
  1. यदि आपने अपने वितरण (हिस्टोग्राम) को लकड़ी से बाहर किया है, और इसे अपनी उंगली पर संतुलित करने की कोशिश की है, तो संतुलन बिंदु का मतलब होगा, वितरण का आकार कोई फर्क नहीं पड़ता।

  2. यदि आप अपने स्कैटर प्लॉट के बीच में एक स्टिक रखते हैं, और स्टिक को स्प्रिंग के साथ प्रत्येक डेटा पॉइंट से जोड़ते हैं, तो स्टिक का रेस्टिंग पॉइंट आपकी रिग्रेशन लाइन होगी। [1]

[१] यह तकनीकी रूप से प्रमुख घटक प्रतिगमन होगा। आपको स्प्रिंग्स को केवल "लंबवत" स्थानांतरित करने के लिए कम से कम वर्ग के लिए मजबूर करना होगा, लेकिन उदाहरण दोनों तरह से उदाहरण है।


2
वसंत बल विरूपण के लिए आनुपातिक है, इसलिए यह कम से कम वर्ग प्रतिगमन नहीं है!
shabbychef

1
अच्छा प्रयास! वसंत पर निर्भर करता है। उदाहरण के लिए, यदि वसंत स्थिरांक 1 / सिग्मा है, महान काम करता है;)
नील मैकगिगन

2
नहीं, नहीं, मुद्दा यह है कि स्थिर संतुलन में, बलों का योग शून्य होगा; समान वसंत स्थिरांक मानकर, आप पूर्ण विचलन का योग कम से कम करेंगे, यानी प्रतिगमन, कम से कम वर्ग नहीं। यह इस तथ्य को नजरअंदाज करता है कि स्प्रिंग्स को स्टिक पर स्वतंत्र रूप से तैरना होगा, इसलिए वे शिफ्ट हो जाएंगे ताकि विरूपण पूरी तरह से y दिशा में न हो , जिसके परिणामस्वरूप एक प्रिंसिपल कंपोनेंट की तरह कुछ फिट बैठता है, लेकिन पूर्ण त्रुटियों के साथ। L1y
shabbychef

@ शब्बीशेफ: वसंत बल विरूपण के लिए आनुपातिक मतलब वसंत ऊर्जा विरूपण वर्ग के लिए आनुपातिक है। वसंत ऊर्जा वास्तव में संतुलन में कम से कम क्या है। शून्य होने का योग बलों या को न्यूनतम नहीं किया जा रहा है। एल 1 पूर्ण मूल्यों का योग कम करता है। L1L1
21

12

मैंने रैंडम वॉक के लिए पहले शराबी के चलने का इस्तेमाल किया है, और नशे में और उसके कुत्ते ने संयोग के लिए; वे बहुत सहायक हैं (आंशिक रूप से क्योंकि वे मनोरंजक हैं)।

मेरे पसंदीदा आम उदाहरणों में से एक है जन्मदिन का विरोधाभास ( विकिपीडिया प्रविष्टि ), जो संभाव्यता की कुछ महत्वपूर्ण अवधारणाओं को दर्शाता है। आप लोगों से भरे कमरे के साथ इसका अनुकरण कर सकते हैं।

संयोग से, मैं एंड्रॉइड जेलमैन के "टीचिंग स्टैटिस्टिक्स: ए बैग ऑफ ट्रिक्स" को सांख्यिकीय अवधारणाओं को सिखाने के कुछ रचनात्मक तरीकों के लिए दृढ़ता से सलाह देता हूं ( सामग्री की तालिका देखें )। पाठ्यक्रम के बारे में उनके पेपर को भी देखें जो वह शिक्षण सांख्यिकी पर सिखाता है: "विश्वविद्यालय स्तर पर शिक्षण सांख्यिकी पर एक कोर्स" । और "राजनीति विज्ञान, समाजशास्त्र, सार्वजनिक स्वास्थ्य, शिक्षा, अर्थशास्त्र, ..." में स्नातक छात्रों को अध्यापन बे

बेइज़ियन विधियों का वर्णन करने के लिए, एक अनुचित सिक्के का उपयोग करना और इसे कई बार फ़्लिप करना एक बहुत ही सामान्य / प्रभावी दृष्टिकोण है।


1
: वहाँ अनुचित सिक्का के रूप में कोई ऐसी बात है stat.columbia.edu/~gelman/research/published/diceRev2.pdf
टिम

11

मैं एक "इन-क्लास" अभ्यास के माध्यम से नमूना भिन्नता और अनिवार्य रूप से केंद्रीय सीमा प्रमेय का प्रदर्शन करना पसंद करता हूं। कहने को 100 छात्रों की कक्षा में हर कोई कागज के एक टुकड़े पर अपनी उम्र लिखता है। कागज के सभी टुकड़े एक ही आकार के हैं और एक ही फैशन में मुड़े होने के बाद मैंने औसत गणना की है। यह आबादी है और मैं औसत आयु की गणना करता हूं। फिर प्रत्येक छात्र बेतरतीब ढंग से कागज के 10 टुकड़ों का चयन करता है, उम्र लिखता है और उन्हें बैग में लौटाता है। (एस) वह माध्य की गणना करता है और बैग को अगले छात्र के पास भेजता है। आखिरकार हमारे पास 10 छात्रों के 100 नमूने हैं, जिनमें से प्रत्येक का अनुमान है कि हम हिस्टोग्राम और कुछ वर्णनात्मक आंकड़ों के माध्यम से वर्णन कर सकते हैं।

फिर हम इस बार 100 "राय" के एक सेट का उपयोग करके प्रदर्शन को दोहराते हैं जो हाल के चुनावों से कुछ हाँ / नहीं का सवाल दोहराते हैं जैसे कि यदि (ब्रिटिश जनरल) चुनाव को कल कहा जाता था तो क्या आप ब्रिटिश नेशनल पार्टी को वोट देने पर विचार करेंगे। छात्रों ने इनमें से 10 राय का नमूना लिया।

अंत में हमने निरंतर और बाइनरी डेटा दोनों के साथ नमूना भिन्नता, केंद्रीय सीमा प्रमेय आदि का प्रदर्शन किया है।


10

निश्चित रूप से मोंटी हॉल समस्या। http://en.wikipedia.org/wiki/Monty_Hall_problem


1
+1 कि समस्या ने मेरे दिमाग को घुमा दिया जब मैंने पहली बार इसके बारे में पढ़ा और सोचा- और समाधान बहुत सरल है, लेकिन संभावना के बारे में बहुत कुछ सिखाता है।
शार्प

1
मुझे लगता है कि मोंटी हॉल की समस्या कुछ भी हो लेकिन एक साधारण से व्यक्ति की संभावना की व्याख्या है। मैं इसे समझता हूं, लेकिन मुझे अभी भी इसके चारों ओर अपना सिर लपेटने में कठिनाई है, अकेले इसे एक गैर-आँकड़े व्यक्ति को समझाने के लिए इसे अच्छी तरह से समझने दें और क्या वे इससे कुछ सीखते हैं ... वैसे भी, आप यह निर्दिष्ट नहीं करते हैं कि क्या समस्या है आपकी कठिन अवधारणा है , या आपके स्तर की व्याख्या है । -1 जब तक आप करते हैं।
n

2
मोंटी हॉल समस्या की व्याख्या करने का आसान तरीका उसी समस्या की कल्पना करना है, लेकिन 1000 दरवाजों के साथ - उनमें से 999 में उनके पीछे एक बकरी है और उनमें से केवल 1 के पीछे एक कार है। कहते हैं कि आप एक दरवाजा चुनते हैं, और गेम शो होस्ट 998 अन्य दरवाजे खोलता है और आपसे पूछता है कि क्या आप अपने फैसले को उस एक दरवाजे पर बदलना चाहते हैं जो उसने नहीं खोला। जानते हुए कि वह इसके पीछे कार के साथ दरवाजा खोला नहीं हो सकता था, तुम होगा है अन्य दरवाजा करने के लिए स्विच करने के लिए (या है कि आप अपने प्रारंभिक चुनाव में सही थे हास्यास्पद आश्वस्त हो)।
बर्क यू।

10

1) कुछ घटनाओं की संभावना को पूरा करने के लिए "यादृच्छिक" को कैसे परिभाषित किया जाना चाहिए, इसका एक अच्छा प्रदर्शन:

मौका क्या है कि एक वृत्त के पार खींची गई यादृच्छिक रेखा त्रिज्या से अधिक लंबी होगी?

सवाल पूरी तरह से निर्भर करता है कि आप अपनी रेखा कैसे खींचते हैं। संभावनाएं जिन्हें आप जमीन पर तैयार किए गए सर्कल के लिए वास्तविक दुनिया में बता सकते हैं, उनमें शामिल हो सकते हैं:

सर्कल के अंदर दो यादृच्छिक बिंदु बनाएं और उन के माध्यम से एक रेखा खींचें। (देखें दो मक्खियां / पत्थर कहां गिरते हैं ...)

परिधि पर एक निश्चित बिंदु चुनें, फिर सर्कल में एक यादृच्छिक कहीं और उन में शामिल हों। (वास्तव में यह किसी दिए गए बिंदु के माध्यम से एक चर कोण पर सर्कल के पार एक छड़ी बिछा रहा है और एक यादृच्छिक उदाहरण है, जहां एक पत्थर गिरता है।)

एक व्यास खींचें। बेतरतीब ढंग से इसके साथ एक बिंदु चुनें और उसके माध्यम से लंबवत बनाएं। (एक छड़ी को एक सीधी रेखा में रोल करें ताकि वह पूरे घेरे में रहे।)

किसी ऐसे व्यक्ति को दिखाना अपेक्षाकृत आसान है, जो कुछ ज्यामिति (लेकिन जरूरी नहीं कि आँकड़े) कर सकता है, प्रश्न का उत्तर काफी व्यापक रूप से (2/3 से लगभग 0.866 या तो) तक भिन्न हो सकता है।

(1210)

3) यह बताते हुए कि चिकित्सकीय निदान वास्तव में त्रुटिपूर्ण हो सकता है। रोग फू के लिए एक परीक्षण जो 99.9% सटीक है उन लोगों की पहचान करने पर जो .1% गलत-सकारात्मक निदान करते हैं जो वास्तव में ऐसा नहीं करते हैं यह वास्तव में गलत हो सकता है जब रोग की व्यापकता वास्तव में कम है (तब उदाहरण के लिए 1000 में 1) लेकिन कई रोगियों को इसके लिए परीक्षण किया जाता है।

यह वह है जिसे वास्तविक संख्याओं के साथ सबसे अच्छा समझाया गया है - कल्पना करें कि 1 मिलियन लोगों का परीक्षण किया जाता है, इसलिए 1000 को बीमारी है, 999 को सही ढंग से पहचाना जाता है, लेकिन 999,000 में से 0.1% 999 हैं जिन्हें बताया जाता है कि उनके पास यह है लेकिन नहीं। तो जिन लोगों को बताया गया है उनमें से आधे के पास वास्तव में यह नहीं है, उच्च स्तर की सटीकता (99.9%) और निम्न स्तर की झूठी सकारात्मकता (0.1%) के बावजूद। एक दूसरा (आदर्श रूप से अलग) परीक्षण तब इन समूहों को अलग कर देगा।

[संयोग से, मैंने संख्याएँ चुनीं क्योंकि वे साथ काम करना आसान हैं, निश्चित रूप से उन्हें 100% तक जोड़ना नहीं है क्योंकि परीक्षण में सटीकता / झूठी सकारात्मक दरें स्वतंत्र कारक हैं।]


2
मुझे लगता है कि आपका पहला उदाहरण बर्ट्रेंड के विरोधाभास को दर्शाता है। एक संभाव्य स्थान को परिभाषित करने के विभिन्न तरीकों का बहुत अच्छा चित्रण!
chl

9

सैम सैवेज की पुस्तक फ़ॉल्स ऑफ़ एविएर्स सांख्यिकीय अवधारणाओं की अच्छी आम व्याख्याओं से भरी हुई है। विशेष रूप से, जेन्सन की असमानता की उनकी अच्छी व्याख्या है। यदि किसी निवेश पर आपकी वापसी का ग्राफ उत्तल है, अर्थात यह "आप पर मुस्कुराता है", तो यादृच्छिकता आपके पक्ष में है: आपका औसत रिटर्न आपके औसत से अधिक है।



6

Behar et al में अध्यापन आँकड़ों के लिए 25 उपमाओं का संग्रह है। यहाँ दो उदाहरण हैं:

2.9 सभी मॉडल सैद्धांतिक हैं: ब्रह्माण्ड में कोई भी परिपूर्ण क्षेत्र नहीं है ऐसा प्रतीत होता है कि ब्रह्मांड में सबसे आम ज्यामितीय रूप गोला है। लेकिन ब्रह्मांड में कितने गणितीय रूप से परिपूर्ण क्षेत्र हैं? जवाब कोई नहीं है। न तो पृथ्वी, न ही सूर्य, और न ही एक बिलियर्ड गेंद एक आदर्श क्षेत्र है। तो, अगर कोई वास्तविक क्षेत्र नहीं हैं, तो क्षेत्र के क्षेत्रफल या आयतन का पता लगाने के लिए क्या सूत्र हैं? तो यह सामान्य रूप से सांख्यिकीय मॉडल के साथ है और, विशेष रूप से, एक सामान्य वितरण के साथ। हालांकि सबसे आम उदाहरणों में से एक ऊंचाई वितरण है, अगर हमारे पास हमारे निपटान में ग्रह पर हर वयस्क की ऊंचाई है, तो हिस्टोग्राम प्रो fi le एक गाऊसी बेल वक्र के अनुरूप नहीं होगा, भले ही डेटा लिंग द्वारा str एड ’न हो। दौड़, या कोई अन्य विशेषता।

2.25 अवशिष्टों में जानकारी नहीं होनी चाहिए: डेटा से सभी सूचनाओं को हटाने के बाद एक कचरा बैग अवशिष्ट हैं। चूंकि उन्हें कोई जानकारी नहीं होनी चाहिए, इसलिए हम उन्हें "कचरा" मानते हैं। यह सुनिश्चित करने के लिए आवश्यक है कि हम किसी भी कचरे को बाहर न फेंकें जिसका मूल्य (जानकारी) है और जिसका उपयोग आश्रित चर के व्यवहार को बेहतर ढंग से समझाने के लिए किया जा सकता है।

अन्य उदाहरणों में शामिल हैं

  • "उपचारों की तुलना पर नमूना आकार का प्रभाव: दूरबीन का मैगनी on अंकन"
  • "सैंपल साइज बनाम जनसंख्या का आकार: सूप चखने के लिए एक चम्मच"

संदर्भ

  • बेहार, आर।, ग्रिमा, पी।, और मार्को-अल्माग्रो, एल। (2012)। सांख्यिकीय अवधारणाओं को समझाने के लिए पच्चीस एनालॉग्स। द अमेरिकन स्टेटिस्टिशियन, (बस-स्वीकृत)।

3

मजेदार सवाल।

किसी ने पाया कि मैं बायोस्टैटिस्टिक्स में काम करता हूं, और उन्होंने मुझसे (मूल रूप से) पूछा "क्या आंकड़े झूठ बोलने का एक तरीका नहीं है?"

(जो झूठ, लानत झूठ, और सांख्यिकी के बारे में मार्क ट्वेन उद्धरण वापस लाता है।)

मैंने यह समझाने की कोशिश की कि आँकड़े हमें 100 प्रतिशत सटीकता के साथ यह कहने की अनुमति देते हैं कि, मान्यताओं और दिए गए आंकड़ों के अनुसार, इस तरह के और इस तरह की संभावना बिल्कुल ऐसी थी।

वह प्रभावित नहीं थी।


1
"हमें 100% सटीकता के साथ कहने की अनुमति देता है, ठीक हमारी सटीकता की कमी कितनी बड़ी है"
n

यदि एक सटीक प्रतिनियुक्ति नहीं है, तो @ जेरोमी का जवाब बताता है कि "100% सटीक" धारणा को क्यों खत्म किया जाना चाहिए।
rolando2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.