आप केंद्रीय सीमा प्रमेय की सुंदरता को एक गैर-सांख्यिकीविद् तक कैसे पहुंचाते हैं?


33

मेरे पिता एक गणित उत्साही हैं, लेकिन आंकड़ों में ज्यादा दिलचस्पी नहीं रखते हैं। यह आँकड़ों के कुछ अद्भुत बिट्स को चित्रित करने का प्रयास करना अच्छा होगा , और CLT एक प्रमुख उम्मीदवार है। आप एक गैर-सांख्यिकीविद को केंद्रीय सीमा प्रमेय के गणितीय सौंदर्य और प्रभाव को कैसे बताएंगे?


एक त्वरित विचार यह है कि 68-95-99.7 नियम ( en.wikipedia.org/wiki/68-95-99.7_rule ) को किसी तरह चर्चा में लाया जाए ।
राएगटिन

जवाबों:


16

सीएलटी के साथ मुझे जो सबसे ज्यादा पसंद था वह मामला है जब यह लागू नहीं होता है - इससे मुझे एक उम्मीद है कि जीवन थोड़ा और दिलचस्प है जो गॉस वक्र सुझाव देता है। तो उसे कॉची वितरण दिखाएं।


कॉची वितरण और सीएलटी या सीएलटी के बीच संबंध क्या है?
रॉबिन जिरार्ड


CLT के लिए आवश्यक है कि MGF का पड़ोस 0. में हो। कॉची वितरण में वह संपत्ति नहीं है। CLT विन। कॉची सीएलटी के एक मजबूत संस्करण की कमजोर आवश्यकताओं को भी संतुष्ट नहीं करता है जहां यह आवश्यक है कि इसका मतलब और विचरण मौजूद है। कॉची वितरण से पता चलता है कि CLT को धारण करने के लिए माध्य की आवश्यकता है। यह CLT को विफल नहीं बनाता है।
बाल्टीमार्क

@Baltimark आपने मेरी पोस्ट को गलत समझा है - यह स्पष्ट है कि Cach CLT मान्यताओं के कारण CLT द्वारा कवर नहीं किया गया है, अन्यथा CLT साबित करना असंभव होगा। मैंने यह उदाहरण दिया है क्योंकि लोगों का मानना ​​है कि CLT सभी वितरणों के लिए काम करता है; शायद "विफल" एक सही शब्द नहीं है, लेकिन फिर भी मुझे नहीं लगता कि यह पतन का एक कारण है। ठीक है, मैंने इसे लागू नहीं करने के लिए बदल दिया है।

मुझे आपका संपादन पसंद है। कॉची वितरण निश्चित रूप से बहुत अच्छा है।
बाल्टीमार्क

14

सीएलटी की पूरी तरह से सराहना करने के लिए, इसे देखा जाना चाहिए।

इसलिए बीन मशीन की धारणा और चित्रण के लिए बहुत सारे यूट्यूब वीडियो हैं


मैंने सोचा कि यह द्विपद वितरण को दर्शाता है; मुझे नहीं लगता है कि इसके स्पर्शोन्मुख पदार्थों का सीएलटी के साथ सीधा संबंध है।

2
पैकेज एनीमेशन के लेखक द्वारा बीन मशीन ... yihui.name/en/wp-content/uploads/2010/07/…
रॉबिन


@robin मैंने इसके बारे में लिखा है, समस्या क्या है?

1
@ श्रीवत्सआर बिंदु यह है कि एक अच्छा चित्रण किसी चीज़ के "कोर" को दिखाना चाहिए, और (IMO कम से कम) CLT का "कोर" इस ​​तथ्य में निहित होता है कि यह कई चर को एक अजीबोगरीब वितरण में एक गॉसियन में पिघलाता है, ऐसा नहीं है कि यह नहीं है एक द्विपद वितरण की सिर्फ एक सीमा।

7

अक्सर जब गणितज्ञ संभावना के बारे में बात करते हैं तो वे एक ज्ञात संभावना वितरण के साथ शुरू करते हैं फिर घटनाओं की संभावना के बारे में बात करते हैं। केंद्रीय सीमा प्रमेय का सही मूल्य यह है कि यह उन मामलों में सन्निकटन के रूप में सामान्य वितरण का उपयोग करने की अनुमति देता है जहां हमें सही वितरण नहीं पता है। आप अपने पिता से एक मानक आँकड़े सवाल (लेकिन गणित के रूप में प्रकाशित) पूछ सकते हैं कि इस बात की संभावना क्या है कि नमूने का मतलब किसी दिए गए मूल्य से अधिक होगा यदि डेटा वितरण के साथ मतलब म्यू और एसडी सिग्मा के साथ आता है, तो देखें वह एक वितरण मानता है (जो आप कहते हैं कि हम नहीं जानते हैं) या कहते हैं कि उसे वितरण को जानने की जरूरत है। फिर आप दिखा सकते हैं कि हम कई मामलों में CLT का उपयोग करके उत्तर का अनुमान लगा सकते हैं।

गणित की तुलना आँकड़ों से करने के लिए, मैं इंटीग्रेशन के माध्य मान प्रमेय का उपयोग करना पसंद करता हूँ (जो कहता है कि अभिन्न से b तक b के लिए समान क्षेत्र के साथ a से b तक आयत मौजूद है और आयत की ऊँचाई का औसत है वक्र)। गणितज्ञ इस प्रमेय को देखता है और कहता है "शांत, मैं एक औसत की गणना करने के लिए एकीकरण का उपयोग कर सकता हूं", जबकि सांख्यिकीविद् एक ही प्रमेय को देखता है और कहता है "शांत, मैं एक अभिन्न की गणना करने के लिए औसत का उपयोग कर सकता हूं"।

मैं वास्तव में औसत मूल्य प्रमेय और सीएलटी (बेयस प्रमेय के साथ) के मेरे कार्यालय में टांके वाली दीवार लटका हुआ है।


हममम। मुझे लगता है कि अधिकांश गणितज्ञ एक आयत के रूप में अभिन्न को अनुमानित करने के लिए MVT का उपयोग करते हैं।
कार्डिनल

5

मैं एक "इन-क्लास" अभ्यास के माध्यम से नमूना भिन्नता और अनिवार्य रूप से केंद्रीय सीमा प्रमेय का प्रदर्शन करना पसंद करता हूं। 100 छात्रों का कहना है कि कक्षा में हर कोई कागज के एक टुकड़े पर अपनी उम्र लिखता है। कागज के सभी टुकड़े एक ही आकार के हैं और एक ही फैशन में मुड़े होने के बाद मैंने औसत गणना की है। यह आबादी है और मैं औसत आयु की गणना करता हूं। फिर प्रत्येक छात्र बेतरतीब ढंग से कागज के 10 टुकड़ों का चयन करता है, उम्र लिखता है और उन्हें बैग में लौटाता है। (एस) वह माध्य की गणना करता है और बैग को अगले छात्र के पास भेजता है। आखिरकार हमारे पास 10 छात्रों के 100 नमूने हैं, जिनमें से प्रत्येक का अनुमान है कि हम हिस्टोग्राम और कुछ वर्णनात्मक आंकड़ों के माध्यम से वर्णन कर सकते हैं।

हम इस बार 100 "राय" के एक सेट का उपयोग करके इस प्रदर्शन को दोहराते हैं जो हाल के चुनावों से कुछ हाँ / नहीं का प्रश्न दोहराते हैं जैसे कि यदि (ब्रिटिश जनरल) चुनाव कल कहा जाता था तो क्या आप ब्रिटिश नेशनल पार्टी के लिए मतदान पर विचार करेंगे। छात्रों ने इनमें से 10 राय का नमूना लिया।

अंत में हमने निरंतर और बाइनरी डेटा दोनों के साथ नमूना भिन्नता, केंद्रीय सीमा प्रमेय आदि का प्रदर्शन किया है।


4

निम्नलिखित कोड के साथ खेलना, मूल्य को अलग करना Mऔर वर्दी के अलावा अन्य वितरणों को चुनना एक मजेदार चित्रण हो सकता है।

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

यदि आप Stata का उपयोग करते हैं, तो आप -clt- कमांड का उपयोग कर सकते हैं जो नमूना वितरण के ग्राफ बनाता है, देखें

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


ऐसा लगता है कि यह बहुत अच्छा हो सकता है, लेकिन मैंने सिर्फ स्टैटा 11.1 (यानी नवीनतम संस्करण) में इसे स्थापित करने और चलाने की कोशिश की और यह मुझे डायल में "डन" पर क्लिक करने पर एक आर (3000) त्रुटि देता रहता है, भले ही मैं टाइप करूं - संस्करण 6: clt-।
onestop

2

मेरे अनुभव में CLT प्रकट होने की तुलना में कम उपयोगी नहीं है। एक परियोजना के बीच में कभी नहीं पता कि क्या कार्य के लिए पर्याप्त होने के लिए एन काफी बड़ा है। और सांख्यिकीय परीक्षण के लिए, सीएलटी आपको टाइप I त्रुटि से बचाने में मदद करता है लेकिन टाइप II त्रुटि को खाड़ी में रखने के लिए बहुत कम करता है। उदाहरण के लिए, टी-टेस्ट में बड़े n के लिए मनमाने ढंग से कम बिजली हो सकती है, जब डेटा वितरण बेहद कम होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.