नमूने का आकार (नमूनाकरण) विचरण को कम क्यों बढ़ाता है?


35

बड़ी तस्वीर:

मैं यह समझने की कोशिश कर रहा हूं कि नमूना आकार बढ़ने से किसी प्रयोग की शक्ति कैसे बढ़ जाती है। मेरे व्याख्याता की स्लाइड्स में 2 सामान्य वितरणों की एक तस्वीर, एक अशक्त-परिकल्पना के लिए एक और वैकल्पिक-परिकल्पना के लिए एक और उनके बीच एक निर्णय सीमा के साथ यह व्याख्या की गई है। उनका तर्क है कि बढ़ते हुए नमूने का आकार विचरण को कम करेगा और इस तरह एक उच्च कुर्तोसिस का कारण होगा, घटता हुआ साझा क्षेत्र को कम करता है और इसलिए एक प्रकार II त्रुटि की संभावना है।

छोटी तस्वीर:

मुझे समझ में नहीं आता है कि एक बड़ा नमूना आकार किस प्रकार विचरण को कम करेगा।
मेरा मानना ​​है कि आप केवल नमूना प्रसरण की गणना करते हैं और इसे सामान्य वितरण में एक पैरामीटर के रूप में उपयोग करते हैं।

मैंने कोशिश की:

  • googling , लेकिन अधिकांश स्वीकृत उत्तरों में 0 अपवोट्स हैं या केवल उदाहरण हैं
  • सोच : बड़ी संख्या के कानून द्वारा हर मूल्य को अंततः हमारे द्वारा ग्रहण किए गए सामान्य वितरण के अनुसार इसके संभावित मूल्य के आसपास स्थिर होना चाहिए। और इसलिए विचरण को हमारे सामान्य वितरण के प्रसरण में परिवर्तित करना चाहिए। लेकिन उस सामान्य वितरण का प्रसरण क्या है और क्या यह न्यूनतम मूल्य है? क्या हम सुनिश्चित कर सकते हैं कि हमारा नमूना प्रसरण उस मूल्य तक घट जाए?

आपका विचार प्रयोग सामान्य रूप से वितरित डेटा से संबंधित है, लेकिन यह कई अन्य वितरणों से प्राप्त डेटा पर भी लागू होता है (जैसा कि @Aksakak ने नोट किया है, सभी नहीं! कैची इस तरह के बुरे व्यवहार का आमतौर पर उद्धृत उदाहरण है)। द्विपद डेटा के लिए वहाँ कैसे बिजली और मानक त्रुटि पर नमूना आकार के साथ अलग अलग की अच्छी चर्चा है stats.stackexchange.com/q/87730/22228
silverfish

1
जैसा कि आप CrossValidated के लिए नए हैं, मुझे यह इंगित करने की अनुमति दें कि यदि आपने जो प्राप्त किया है उसे संतोषजनक उत्तर मानते हैं, तो आपको इसे बाईं ओर हरे रंग की टिक पर क्लिक करके इसे "स्वीकार" के रूप में चिह्नित करना चाहिए। यह उत्तर देने वाले के लिए अतिरिक्त प्रतिष्ठा प्रदान करता है और प्रश्न को हल के रूप में भी चिह्नित करता है।
अमीबा का कहना है कि

मैं इसके बारे में इस तरह से सोचता हूं: प्रत्येक नए बिंदु में अद्वितीय जानकारी होती है। अनंत बिंदुओं के पास एक सही अनुमान लगाने के लिए पर्याप्त है। जैसा कि हम अधिक से अधिक नए नमूना बिंदुओं को जोड़ते हैं, सूचना के बीच का अंतर हमें सही अनुमान लगाने की आवश्यकता है और जो जानकारी वास्तव में हमारे पास है वह छोटी और छोटी हो जाती है।
एंग्रीस्टूडेंट - मोनिका

यह भ्रम का स्रोत है: नमूना विचलन नहीं है जो घटता है, लेकिन नमूना विचरण का विचलन है। नमूना विचरण एक अनुमानक है (इसलिए एक यादृच्छिक चर)। यदि आपका डेटा एक सामान्य एन (0, 5) से आता है, तो नमूना विचरण लगभग 5. के करीब होगा। कितना करीब? नमूना विचरण के लिए अपने अनुमानक के विचरण पर निर्भर करता है। 100 डेटा बिंदुओं के साथ, आपको 4.92 जैसा कुछ मिल सकता है। 1000 के साथ, आपको 4.98 जैसा कुछ मिलेगा। 10000 तक, आपको 5.0001 मिलेगा। तो आपके माप की सटीकता है जो आपके माप को नहीं, बल्कि बढ़ाता है।
चींटी

जवाबों:


32

औसत के मानक विचलन व्यक्तिगत टिप्पणियों के मानक विचलन से छोटे होते हैं। [यहाँ मैं परिमित जनसंख्या विचरण के साथ स्वतंत्र रूप से वितरित वितरित मान लेगा; यदि आप पहले दो स्थितियों को शिथिल करते हैं, तो कुछ ऐसा ही कहा जा सकता है।]

यह सरल तथ्य का परिणाम है कि दो यादृच्छिक चर के योग का मानक विचलन मानक विचलन के योग से छोटा है (यह केवल तब ही बराबर हो सकता है जब दो चर पूरी तरह से सहसंबद्ध होते हैं)।

वास्तव में, जब आप असंबद्ध यादृच्छिक चर के साथ काम कर रहे होते हैं, तो हम कुछ अधिक विशिष्ट कह सकते हैं: किसी प्रकार की राशि का भिन्न रूप उनके चर का योग होता है।

इसका मतलब यह है कि एक ही वितरण के साथ स्वतंत्र (या यहां तक ​​कि सिर्फ असंबंधित) वेरिएंट के साथ, माध्य का विचरण नमूना आकार द्वारा विभाजित एक व्यक्ति का विचरण है ।n

समान वितरण के साथ स्वतंत्र (या यहां तक ​​कि सिर्फ असंबंधित) के साथ पत्राचार , उनके माध्य का मानक विचलन नमूना आकार के वर्गमूल द्वारा विभाजित किसी व्यक्ति का मानक विचलन है:n

σX¯=σ/n

इसलिए जब आप अधिक डेटा जोड़ते हैं, तो आपको समूह साधनों के सटीक अनुमान मिलते हैं। एक समान प्रभाव प्रतिगमन समस्याओं में लागू होता है।

चूँकि हम नमूना आकार को बढ़ाकर औसत का अधिक सटीक अनुमान प्राप्त कर सकते हैं, हम अधिक आसानी से अलग-अलग साधनों को बताने में सक्षम हैं जो एक साथ करीब हैं - भले ही वितरण एक सा ओवरलैप करते हैं, एक बड़ा नमूना आकार लेकर हम अभी भी उनके अनुमान लगा सकते हैं जनसंख्या का अर्थ यह बताने के लिए पर्याप्त है कि वे समान नहीं हैं।


8

N की वृद्धि होने पर जो परिवर्तनशीलता सिकुड़ती है, वह नमूना माध्य की परिवर्तनशीलता है, जिसे अक्सर मानक त्रुटि के रूप में व्यक्त किया जाता है। या, अन्य शब्दों में, नमूना माध्य की सत्यता की निश्चितता बढ़ रही है।

कल्पना कीजिए कि आप एक प्रयोग चलाते हैं जहाँ आप 3 पुरुषों और 3 महिलाओं को इकट्ठा करते हैं और उनकी ऊँचाइयों को मापते हैं। आप कितने निश्चित हैं कि प्रत्येक समूह की औसत ऊंचाइयां पुरुषों और महिलाओं की अलग-अलग आबादी का असली मतलब हैं? मुझे यह सोचना चाहिए कि आप बिल्कुल निश्चित नहीं होंगे। आप आसानी से 3 के नए नमूने एकत्र कर सकते हैं और पहले वाले से कई इंच नए साधन पा सकते हैं। इस तरह के बार-बार किए गए प्रयोगों में से कुछ में महिलाओं को पुरुषों की तुलना में लंबे समय तक उच्चारित किया जा सकता है क्योंकि साधन इतने भिन्न होंगे। कम एन के साथ आप नमूने से मतलब में बहुत निश्चितता नहीं रखते हैं और यह नमूनों में बहुत भिन्न होता है।

अब प्रत्येक समूह में 10,000 टिप्पणियों की कल्पना करें। यह 10,000 के नए नमूने खोजने के लिए बहुत कठिन होने जा रहा है, जिसका मतलब है कि एक दूसरे से बहुत अलग हैं। वे बहुत कम परिवर्तनशील होंगे और आप उनकी सटीकता के बारे में अधिक निश्चित होंगे।

यदि आप इस विचारधारा को स्वीकार कर सकते हैं तो हम इसे मानक आँकड़ों के रूप में आपके आँकड़ों की गणना में सम्मिलित कर सकते हैं। जैसा कि आप इसे समीकरण से देख सकते हैं, यह एक पैरामीटर, (जो n वृद्धि के रूप में और अधिक सटीक हो जाना चाहिए) का एक अनुमान है, जो हमेशा n, साथ बढ़ता है । वह मानक त्रुटि आपकी गणना में साधनों या प्रभावों की परिवर्तनशीलता का प्रतिनिधित्व करती है। यह जितना छोटा होता है, उतना ही शक्तिशाली आपका सांख्यिकीय परीक्षण।σn

आर में थोड़ा सा सिमुलेशन है जो एक मानक त्रुटि और प्रारंभिक प्रयोग के कई प्रतिकृति के साधनों के मानक विचलन के बीच के संबंध को प्रदर्शित करता है। इस मामले में हम 100 की जनसंख्या औसत और 15 के मानक विचलन के साथ शुरू करेंगे।

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

ध्यान दें कि अंतिम मानक विचलन सैद्धांतिक मानक त्रुटि के करीब कैसे है। यहाँ n चर के साथ खेलने से आप देख सकते हैं कि परिवर्तनशीलता माप n के रूप में छोटी हो जाएगी।

[एक तरफ के रूप में, रेखांकन में कुर्तोसिस वास्तव में नहीं बदल रहा है (यह मानते हुए कि वे सामान्य वितरण हैं)। विचरण को कम करने से कुर्तोसिस नहीं बदलता है लेकिन वितरण संकीर्ण दिखाई देगा। कुर्तोसिस परिवर्तनों को नेत्रहीन रूप से जांचने का एकमात्र तरीका वितरण को समान पैमाने पर रखा जाता है।]


आप सही थे, भविष्य में मेरे विचार से अधिक विचार शामिल होना चाहिए: P
j__

दो चीजें पूरी तरह से स्पष्ट नहीं हैं: (1) क्या घंटी घटता है जो ओपी नमूना साधनों के वितरण के बारे में बात करता है? (2) नियंत्रण समूह के नमूनों के माध्य के वितरण और प्रायोगिक समूह के सैंपल के वितरण के लिए नमूने के आकार पर विचार किया जाता है?
लेनार होयट

4

यदि आप यह जानना चाहते हैं कि अमेरिकी नागरिकों का औसत वजन क्या है, तो आदर्श स्थिति में आप तुरंत प्रत्येक नागरिक को तराजू पर कदम रखने और डेटा एकत्र करने के लिए कहेंगे। आपको सटीक उत्तर मिलेगा । यह बहुत मुश्किल है, इसलिए हो सकता है कि आप कुछ नागरिकों को पैमाने पर कदम रखने के लिए, औसत की गणना कर सकें और यह अनुमान लगा सकें कि आबादी का औसत क्या है। आप उम्मीद करेंगे कि नमूना औसत जा वास्तव में जनसंख्या औसत के बराबर? मुझे आशा नहीं है।

अब, क्या आप इस बात से सहमत होंगे कि अगर आपको अधिक से अधिक लोग मिल गए हैं, तो कुछ बिंदु पर हम जनसंख्या के करीब पहुंचेंगे? हमें चाहिए, है ना? अंत में सबसे अधिक लोगों को हम प्राप्त कर सकते हैं पूरी आबादी है, और इसका मतलब है कि हम क्या देख रहे हैं। यह अंतर्ज्ञान है।

यह एक आदर्श विचार था। वास्तव में, जटिलताएं हैं। मैं तुम्हें दो दूँगा।

  • कल्पना कीजिए कि डेटा एक कॉची वितरण से आ रहा है । आप अपने नमूने को असीम रूप से बढ़ा सकते हैं, फिर भी विचरण में कमी नहीं होगी। इस वितरण का कोई जनसंख्या परिवर्तन नहीं है। वास्तव में, कड़ाई से बोलते हुए, इसका कोई नमूना नहीं है। यह दुख की बात है। आश्चर्यजनक रूप से, यह वितरण काफी वास्तविक है, यह भौतिकी में यहाँ और वहाँ पॉप अप करता है।
  • कल्पना कीजिए कि आपने अमेरिकी नागरिकों के औसत वजन को निर्धारित करने के कार्य के साथ जाने का फैसला किया। तो, आप अपना पैमाना लें और घर-घर जाएं। इसमें आपको कई साल लगेंगे। जब तक आप मिलियन अवलोकन एकत्र करते हैं, तब तक आपके डेटा सेट में कुछ नागरिकों ने अपना वजन बहुत बदल दिया होगा, कुछ की मृत्यु हो गई थी आदि बिंदु यह है कि इस मामले में बढ़ते हुए नमूने का आकार आपकी मदद नहीं करता है।

1
मुझे संदेह है कि आपके पहले वाक्य में "औसत वजन" था। मुझे एक सोचा प्रयोग पसंद है। एक और जटिलता आपके मापने के उपकरण से आ सकती है - यानी जो तराजू बाहर निकलेंगे, उनमें लंबन त्रुटि या उपयोगकर्ता त्रुटि हो सकती है जो अन्य परिवर्तनशीलता का परिचय देती है।
मार्क 15

1

मेरा मानना ​​है कि लार्ज नंबर्स का नियम बताता है कि सैंपल साइज बढ़ने पर वेरिएशन (स्टैंडर्ड एरर) क्यों कम हो जाता है। इस पर विकिपीडिया का लेख कहता है:

कानून के अनुसार, बड़ी संख्या में परीक्षणों से प्राप्त परिणामों का औसत अपेक्षित मूल्य के करीब होना चाहिए, और अधिक परीक्षण किए जाने के करीब हो जाएंगे।

केंद्रीय सीमा प्रमेय के संदर्भ में:

किसी एक यादृच्छिक नमूने को खींचते समय, बड़ा नमूना नमूना के करीब होता है, जनसंख्या औसत के करीब होगा मतलब (उपरोक्त उद्धरण में, "नमूना आकार" के रूप में "परीक्षणों की संख्या" के बारे में सोचें, इसलिए प्रत्येक "परीक्षण" एक अवलोकन है )। इसलिए, जब अनंत नमूनों की एक अनंत संख्या आरेखित होती है, तो नमूना वितरण का भिन्नता प्रत्येक नमूने का आकार जितना बड़ा होगा उतना कम होगा।

दूसरे शब्दों में, घंटी का आकार छोटा होने पर प्रत्येक नमूना बड़ा होगा, क्योंकि इस तरह से प्रत्येक नमूना का मतलब घंटी के केंद्र के करीब होगा।


0

जैसे-जैसे एक नमूना आकार बढ़ता है, नमूना विचरण (अवलोकनों के बीच भिन्नता) बढ़ता है, लेकिन नमूना माध्य (मानक त्रुटि) का विचरण कम हो जाता है और इसलिए परिशुद्धता बढ़ जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.