केंद्रीय सीमा प्रमेय एक नमूने के साथ क्यों काम करता है?


12

मुझे हमेशा सिखाया गया है कि सीएलटी काम करता है जब आपने नमूना दोहराया है, प्रत्येक नमूना काफी बड़ा है। उदाहरण के लिए, कल्पना कीजिए कि मेरे पास 1,000,000 नागरिकों का देश है। सीएलटी के बारे में मेरी समझ यह है कि भले ही उनकी ऊंचाइयों का वितरण सामान्य नहीं था, अगर मैंने 50 लोगों के 1000 नमूने लिए (यानी प्रत्येक 50 नागरिकों के 1000 सर्वेक्षण किए गए), तो प्रत्येक नमूने के लिए उनकी औसत ऊंचाई की गणना की, इन नमूने का वितरण साधन सामान्य होगा।

हालांकि, मैंने कभी वास्तविक दुनिया का मामला नहीं देखा है जहां शोधकर्ताओं ने दोहराया नमूने लिए। इसके बजाय, वे एक बड़ा नमूना लेते हैं (यानी अपनी ऊंचाई के बारे में 50,000 नागरिकों का सर्वेक्षण करते हैं) और उसी से काम करते हैं।

सांख्यिकी पुस्तकें बार-बार नमूना क्यों सिखाती हैं और वास्तविक दुनिया में शोधकर्ता केवल एक नमूना का संचालन करते हैं?

संपादित करें: मैं जिस वास्तविक विश्व मामले के बारे में सोच रहा हूं, वह 50,000 ट्विटर उपयोगकर्ताओं के डेटासेट पर कर रहा है। जाहिर है कि डेटासेट में बार-बार नमूने नहीं हैं, यह 50,000 का सिर्फ एक बड़ा नमूना है।


५०,००० में से १००० का नमूना लेना लगभग ५०,००० में से १००० एकल नमूने लेने के समान है। नमूना जितना छोटा (या ब्रह्माण्ड) उतना ही अधिक होगा।
थॉमस अहले

जवाबों:


14

CLT (अपने विभिन्न रूपों में से कुछ में कम से कम) हमें उस के रूप में सीमा में बताता n एक भी मानकीकृत नमूना के वितरण मतलब ( X¯μσ/n

n=50n=50,000

X¯

कड़ाई से यह बोलते हुए सीएलटी का प्रदर्शन नहीं किया गया है, यह बेरी-एसेन प्रमेय का प्रदर्शन करने के करीब है, क्योंकि यह उस दर के बारे में कुछ प्रदर्शित करता है जिस पर सामान्यता का दृष्टिकोण आता है - लेकिन बदले में यह हमें सीएलटी तक ले जाएगा, इसलिए यह प्रेरणा के रूप में पर्याप्त रूप से अच्छी तरह से कार्य करता है (और वास्तव में, अक्सर बेरी-एसेन की तरह कुछ करीब आता है कि लोग वास्तव में वैसे भी परिमित नमूनों में क्या उपयोग करना चाहते हैं, ताकि प्रेरणा कुछ मायने में केंद्रीय सीमा प्रमेय से अधिक उपयोगी हो सके) ।

इन नमूना साधनों का वितरण सामान्य होगा।

खैर, नहीं, वे गैर-सामान्य होंगे लेकिन वे व्यवहार में सामान्य के बहुत करीब होंगे (ऊंचाइयां कुछ तिरछी हैं लेकिन बहुत तिरछी नहीं हैं)।

n=50

मैं जिस वास्तविक विश्व मामले के बारे में सोच रहा हूं, वह 50,000 ट्विटर उपयोगकर्ताओं के डेटासेट पर कर रहा है। जाहिर है कि डेटासेट में बार-बार नमूने नहीं हैं, यह 50,000 का सिर्फ एक बड़ा नमूना है।

कई वितरणों के लिए, 50,000 वस्तुओं का एक नमूना मतलब सामान्य वितरण के बहुत करीब होगा - लेकिन इसकी गारंटी नहीं है, यहां तक ​​कि n = 50,000 पर भी आप सामान्य वितरण के बहुत करीब होंगे (यदि व्यक्तिगत मदों का वितरण पर्याप्त रूप से हो तिरछा, उदाहरण के लिए, तो नमूना वितरण का मतलब अभी भी एक सामान्य सन्निकटन को अस्थिर बनाने के लिए पर्याप्त तिरछा हो सकता है)।

( बेरी-एसेन प्रमेय हमें यह अनुमान लगाने के लिए प्रेरित करेगा कि वास्तव में यह समस्या हो सकती है - और डेन्स्ट्रैब्रैब , यह करता है। यह उदाहरण देना आसान है, जिसके लिए CLT लागू होता है, लेकिन जिसके लिए n = 50,000 लगभग एक बड़ा पर्याप्त नमूना नहीं है। मानकीकृत नमूना का मतलब सामान्य के करीब होना है।)


यह जांचने के लिए कि क्या 50,000 पर्याप्त बड़ा है, उदाहरण के लिए, R में एक अनुकरण कर सकता है? मैं नमूने के माध्य और मानक विचलन का उपयोग करूंगा, लेकिन मैं अपने नमूने के समान वितरण से कैसे अनुकरण करना सुनिश्चित करूंगा?
अमोनेट

सख्ती से बोलते हुए, आपको जनसंख्या वितरण से अनुकरण करने की आवश्यकता है। आप जनसंख्या के वितरण के अनुमान के रूप में अपने नमूने के वितरण का इलाज कर सकते हैं (यह बूटस्ट्रैपिंग के समान है) - लेकिन यह इस तरह के उद्देश्य के लिए पर्याप्त नहीं होगा। एक उदाहरण के रूप में, एक काउची वितरण से एक नमूना तैयार करने पर विचार करें, और फिर प्रतिस्थापन के साथ उस से फिर से शुरू करना। (तेजी से बड़े नमूनों के लिए), जब तक कि पुनरुत्पादित साधनों का वितरण "पर्याप्त रूप से सामान्य" दिखाई न दे। आप हमेशा यह निष्कर्ष निकालेंगे कि कुछ परिमित नमूना का आकार पर्याप्त है, लेकिन वास्तव में यह कभी नहीं होगा।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.