वितरण का उदाहरण जहां केंद्रीय सीमा प्रमेय के लिए बड़े नमूने का आकार आवश्यक है


19

कुछ पुस्तकें केंद्रीय सीमा प्रमेय के लिए 30 या अधिक आकार का एक नमूना आकार बताती हैं, जो कि लिए एक अच्छा सन्निकटन । X¯

मुझे पता है कि यह सभी वितरणों के लिए पर्याप्त नहीं है।

मैं वितरण के कुछ उदाहरणों को देखना चाहता हूं, जहां एक बड़े नमूना आकार (शायद 100, या 1000, या उच्चतर) के साथ भी, नमूना माध्य का वितरण अभी भी काफी तिरछा है।

मुझे पता है कि मैंने पहले भी ऐसे उदाहरण देखे हैं, लेकिन मुझे याद नहीं है कि मैं कहाँ और कैसे उन्हें नहीं ढूँढ सकता।


5
आकार पैरामीटर साथ एक गामा वितरण पर विचार करें । पैमाने को 1 के रूप में लें (यह कोई फर्क नहीं पड़ता)। चलो आप मानते हैं कहते हैं कि के रूप में सिर्फ "पर्याप्त रूप से सामान्य"। फिर एक वितरण जिसके लिए आपको पर्याप्त रूप से सामान्य होने के लिए 1000 टिप्पणियों को प्राप्त करने की आवश्यकता है, में एक वितरण है। αGamma(α0,1)Gamma(α0/1000,1)
Glen_b -Reinstate मोनिका

1
@Glen_b, ऐसा क्यों नहीं है कि एक आधिकारिक जवाब और इसे थोड़ा विकसित करें?
गूँज - मोनिका

4
किसी भी पर्याप्त रूप से दूषित वितरण @ Glen_b के उदाहरण के समान लाइनों के साथ काम करेगा। उदाहरण के लिए , जब अंतर्निहित वितरण एक सामान्य (0,1) और एक सामान्य (विशाल मूल्य, 1) का मिश्रण होता है, तो बाद में केवल दिखने की थोड़ी संभावना होती है, फिर दिलचस्प चीजें होती हैं: (1) अधिकांश समय , संदूषण दिखाई नहीं देता है और तिरछापन का कोई सबूत नहीं है; लेकिन (2) कभी-कभी संदूषण दिखाई देता है और नमूने में तिरछापन भारी होता है। नमूना माध्य के वितरण की परवाह किए बिना अत्यधिक तिरछा किया जाएगा, लेकिन बूटस्ट्रैपिंग ( जैसे ) आमतौर पर इसका पता नहीं लगाएगा।
whuber

1
@ व्हीबर का उदाहरण शिक्षाप्रद है, यह दर्शाता है कि सिद्धांत में केंद्रीय सीमा प्रमेय, मनमाने ढंग से भ्रामक हो सकता है। व्यावहारिक प्रयोगों में, मुझे लगता है कि किसी को अपने आप से यह पूछने की ज़रूरत है कि क्या कोई बहुत बड़ा प्रभाव हो सकता है जो बहुत कम होता है, और सैद्धांतिक परिणाम को थोड़ा सरगम ​​के साथ लागू करें।
डेविड एपस्टीन

जवाबों:


19

कुछ पुस्तकें लिए एक अच्छा सन्निकटन देने के लिए केंद्रीय सीमा प्रमेय के लिए आकार 30 या उच्चतर आकार का एक नमूना बताती हैंX¯

अंगूठे का यह सामान्य नियम बहुत अधिक पूरी तरह से बेकार है। ऐसे गैर-सामान्य वितरण हैं जिनके लिए n = 2 ठीक करेगा और गैर-सामान्य वितरण जिनके लिए अधिक बड़ा अपर्याप्त है - इसलिए परिस्थितियों पर स्पष्ट प्रतिबंध के बिना, नियम भ्रामक है। किसी भी मामले में, भले ही यह एक प्रकार का सच हो, लेकिन आवश्यक एन आपके द्वारा किए जा रहे कार्यों के आधार पर अलग-अलग होंगे। अक्सर आपको छोटे n पर वितरण के केंद्र के पास अच्छे अनुमान मिलते हैं , लेकिन पूंछ में एक सभ्य अनुमान प्राप्त करने के लिए बहुत बड़े n की आवश्यकता होती है।nnnn

संपादित करें: इस प्रश्न के उत्तर कई और स्पष्ट रूप से उस मुद्दे पर एकमत राय, और कुछ अच्छे लिंक के लिए देखें। हालांकि, आप पहले से ही इसे स्पष्ट रूप से समझते हैं, हालांकि मैं इस बिंदु पर श्रम नहीं करूंगा।

मैं वितरण के कुछ उदाहरणों को देखना चाहता हूं, जहां एक बड़े नमूना आकार (शायद 100 या 1000 या अधिक) के साथ भी, नमूना माध्य का वितरण अभी भी काफी तिरछा है।

उदाहरणों का निर्माण करना अपेक्षाकृत आसान है; एक आसान तरीका यह है कि एक असीम रूप से विभाज्य वितरण का पता लगाएं जो गैर-सामान्य है और इसे विभाजित करें। यदि आपके पास कोई ऐसा है जो आपके पास जाने या उसे योग करने पर सामान्य के करीब पहुंच जाएगा, तो 'सामान्य के करीब' की सीमा पर शुरू करें और इसे जितना चाहें उतना विभाजित करें। उदाहरण के लिए:

αगामा(α0,1)गामा(α0/1000,1)

α=20

गामा (20) पीडीएफ

α=20α=0.02

गामा (0.02) पीडीएफ

उनमें से औसतन 1000 का आकार पहले pdf का होगा (लेकिन इसका पैमाना नहीं)।

σ/n

@ दूषित वितरण के बारे में व्हीबर की बात बहुत अच्छी है; यह उस मामले के साथ कुछ अनुकरण करने की कोशिश कर सकता है और देख सकता है कि इस तरह के कई नमूनों में चीजें कैसे व्यवहार करती हैं।



9

आपको यह पेपर मददगार लग सकता है (या कम से कम दिलचस्प):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMass के शोधकर्ताओं ने वास्तव में एक अध्ययन किया जो आप पूछ रहे हैं। किस नमूने के आकार पर कुछ वितरित डेटा सीएलटी के कारण एक सामान्य वितरण का पालन करते हैं? जाहिरा तौर पर मनोविज्ञान प्रयोगों के लिए एकत्र किए गए बहुत सारे डेटा सामान्य रूप से वितरित किए जाने के आस-पास कहीं भी नहीं हैं, इसलिए अनुशासन उनके आंकड़ों पर कोई भी हस्तक्षेप करने के लिए CLT पर बहुत निर्भर करता है।

α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

अजीब तरह से पर्याप्त है, सामान्य रूप से वितरित डेटा का 65 प्रतिशत 20 के एक नमूना आकार के साथ खारिज कर दिया गया था, और यहां तक ​​कि 30, 35% के नमूने के आकार के साथ अभी भी खारिज कर दिया गया था।

फिर उन्होंने फ्लीशमैन की शक्ति विधि का उपयोग करते हुए कई भारी तिरछे वितरणों का परीक्षण किया:

Y=एक्स+एक्स2+सीएक्स3+एक्स4

X सामान्य वितरण से निकाले गए मूल्य का प्रतिनिधित्व करता है, जबकि a, b, c और d स्थिरांक हैं (ध्यान दें कि a = -c)।

उन्होंने 300 तक के नमूने के आकार के साथ परीक्षण चलाए

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

उन्होंने पाया कि तिरछा और कर्ट (1.75 और 3.75) के उच्चतम स्तर पर जो कि 300 के नमूने के आकार का नमूना नहीं था, इसका मतलब है कि सामान्य वितरण के बाद।

दुर्भाग्य से, मुझे नहीं लगता कि यह वही है जो आप ढूंढ रहे हैं, लेकिन मैंने इस पर ठोकर खाई और इसे दिलचस्प पाया, और सोचा कि आप भी हो सकते हैं।


4
" अजीब तरह से, सामान्य रूप से वितरित डेटा का 65 प्रतिशत 20 के एक नमूना आकार के साथ खारिज कर दिया गया था, और यहां तक ​​कि 30, 35% के नमूने के आकार के साथ अभी भी खारिज कर दिया गया था। " - तब ऐसा लगता है जैसे वे परीक्षण गलत का उपयोग कर रहे हैं; पूरी तरह से निर्दिष्ट सामान्य डेटा (जो परीक्षण के लिए है) पर सामान्यता की परीक्षा के रूप में, यदि वे इसे सही उपयोग कर रहे हैं, तो यह सटीक होना चाहिए
Glen_b -Reinstate मोनिका

5
@Glen_b: यहां संभावित त्रुटि के कई स्रोत हैं। यदि आप दस्तावेज़ को पढ़ते हैं, तो आप ध्यान देंगे कि यहाँ "सामान्य" के रूप में जो सूचीबद्ध किया गया है, वह वास्तव में सामान्य यादृच्छिक चर है जिसका मतलब लगभग 50 है और 10 का मानक विचलन निकटतम पूर्णांक तक है । तो, उस अर्थ में, उपयोग किया गया परीक्षण पहले से ही एक गलत वितरण का उपयोग कर रहा है। दूसरा, यह अभी भी प्रतीत होता है कि उन्होंने गलत तरीके से परीक्षण किए हैं, क्योंकि प्रतिकृति में मेरे प्रयासों से पता चलता है कि 20 ऐसे अवलोकनों का उपयोग कर नमूना के लिए, अस्वीकृति की संभावना लगभग 27% है। (प्रतियोगिता।)
कार्डिनल

5
(cont।) तीसरा, उपरोक्त की परवाह किए बिना, कुछ सॉफ्टवेयर एसिम्प्टोटिक वितरण का उपयोग कर सकते हैं और वास्तविक नहीं, हालांकि 10K के नमूने के आकार में यह बहुत अधिक नहीं होना चाहिए (यदि संबंध डेटा पर कृत्रिम रूप से प्रेरित नहीं हुए थे)। अंत में, हम उस दस्तावेज़ के अंत के पास निम्नलिखित बल्कि अजीब बयान पाते हैं: दुर्भाग्य से, एस-प्लस में केएस-टेस्ट के गुण काम को सीमित करते हैं। वर्तमान अध्ययन के लिए पी-मान सभी को कई प्रतिकृति पर हाथ से संकलित किया गया था। चुने गए अल्फा स्तर की तुलना में पी-मानों की गणना करने और उन पर निर्णय लेने के लिए एक कार्यक्रम की आवश्यकता होती है।
कार्डिनल

3
हाय @Glen_b मैं नहीं मानता कि राउंडिंग यहाँ अस्वीकृति दर कम हो जाएगा क्योंकि मेरा मानना है कि वे के खिलाफ परीक्षण किया गया सच का उपयोग कर मानक सामान्य बंटन गोल डेटा (जो कि मैं क्या कह परीक्षण एक misspecified वितरण इस्तेमाल किया मतलब)। (शायद आप, इसके बजाय, असतत वितरण पर केएस परीक्षण का उपयोग करने के बारे में सोच रहे थे।) केएस परीक्षण के लिए नमूना आकार 10000 था, 20 नहीं; उन्होंने तालिका प्राप्त करने के लिए नमूना आकार 10000 प्रत्येक में 20 प्रतिकृति की। कम से कम, कि दस्तावेज़ को संक्षिप्त करने से विवरण की मेरी समझ थी।
कार्डिनल

3
@ कार्डिनल - आप सही हैं, निश्चित रूप से, इसलिए शायद यह बड़े नमूने के आकार में अस्वीकारों के एक बड़े हिस्से का स्रोत हो सकता है। पुन: " केएस परीक्षण के लिए नमूना आकार 10000 था, 20 नहीं " ... ठीक है, यह तेजी से अजीब लग रहा है। एक को आश्चर्य होता है कि वे यह क्यों सोचते हैं कि उन स्थितियों में से कोई भी बहुत अधिक मूल्य का था, बजाय इसके कि चारों ओर का रास्ता कहें।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.