नमूने के आकार में वृद्धि होने से आत्मविश्वास अंतराल किन स्थितियों में बेहतर नहीं होगा?


11

एक ब्लॉग पोस्ट में , मैंने दावा किया है कि

"मुझे विश्वास है कि डब्ल्यूजी कोचरन पहला बिंदु बाहर (लगभग 1970)) है कि एक अवलोकन सेटिंग में विश्वास अंतराल के साथ, छोटे नमूने के आकार के परिणामस्वरूप शून्य कवरेज के पास उपलब्ध बड़े पर्याप्त नमूनों के साथ बेहतर कवरेज होता है!"

अब मुझे लगता है कि सीआई की चौड़ाई को बढ़ते नमूने के आकार के साथ 0 तक पहुंचना चाहिए, लेकिन यह विचार कि कवरेज समवर्ती रूप से खराब हो जाएगी, मेरे लिए आश्वस्त नहीं है। क्या यह दावा सही है, और किन परिस्थितियों में? या मैं इसे गलत बता रहा हूं?

मैंने 10000 से 1000000 (एक नमूना टी-परीक्षण, 95% सीआई) से नमूना आकार के साथ यादृच्छिक रूप से वितरित डेटा का उपयोग करके एक सिमुलेशन चलाया है, प्रत्येक नमूना आकार पर 1000 रन, और उच्च नमूना आकारों के लिए कवरेज किसी भी बदतर नहीं हुई। (इसके बजाय, मुझे उम्मीद थी कि निकट-स्थिरांक ~ 5% त्रुटि दर)।


2
रिकॉर्ड के लिए, यहां उल्लेखित प्रसिद्ध सांख्यिकीविद् विलियम जी। कोचरन (कोचरन नहीं) थे।
निक कॉक्स

2
क्योंकि इसने एक उत्तर में कुछ भ्रम पैदा कर दिया था, कृपया ध्यान दें कि "सीआई की चौड़ाई 1 होनी चाहिए" यह कथन या तो निरर्थक है (1 क्या? माप की इकाइयाँ क्या हैं?) या सिर्फ सादा गलत।
whuber

जवाबों:


17

योग्यता पर ध्यान दें "एक पर्यवेक्षणीय सेटिंग में"।

उस प्रसंग की जाँच करना जिससे आपने उद्धरण लिया है (टिप्पणियों का वह भाग जो इसमें है), ऐसा लग रहा है कि इरादे सिमुलेशन की बजाय "वास्तविक दुनिया में" हैं, और शायद इसमें एक नियंत्रित प्रयोग शामिल नहीं है। और उस मामले में, संभावित इरादे इस तथ्य का एक परिणाम है कि जिन मान्यताओं के तहत अंतराल प्राप्त किए जाते हैं वे वास्तव में काफी पकड़ नहीं रखते हैं। ऐसी कई चीजें हैं जो पूर्वाग्रह को प्रभावित कर सकती हैं - जो कि छोटे नमूनों में परिवर्तनशीलता की तुलना में छोटे प्रभाव के हैं - लेकिन आमतौर पर आकार में कमी नहीं होती है क्योंकि नमूना आकार बढ़ता है, जबकि मानक त्रुटियां होती हैं।

चूंकि हमारी गणना पूर्वाग्रह को शामिल नहीं करती है, चूंकि अंतराल सिकुड़ते हैं ( ), किसी भी अपरिवर्तित पूर्वाग्रह, भले ही यह बहुत छोटा करघे बड़ा हो, हमारे अंतराल को कम और सच्चे मूल्य को शामिल करने की संभावना कम करता है।1/n

यहाँ एक उदाहरण है - एक जो शायद पूर्वाग्रह को बढ़ाता है - यह इंगित करने के लिए कि मुझे क्या लगता है कि सीआई कवरेज की संभावना के बारे में है जो नमूना वृद्धि के रूप में सिकुड़ रहा है:

पूर्वाग्रह मौजूद होने पर नमूना आकार के रूप में सिकुड़ते हुए सीआई कवरेज संभावना का आरेख

निश्चित रूप से किसी विशेष नमूने में, अंतराल यादृच्छिक होगा - यह व्यापक या संकरा होगा और डायग्राम के सापेक्ष बाएं या दाएं स्थानांतरित किया जाएगा, ताकि किसी भी नमूने के आकार में 0 और 1 के बीच कुछ कवरेज संभावना हो, लेकिन पूर्वाग्रह की किसी भी राशि यह शून्य के रूप में बढ़ जाती है की ओर हटना होगा । यहां प्रत्येक नमूने के आकार में 100 आत्मविश्वास अंतराल के साथ एक उदाहरण दिया गया है, जिसमें नकली डेटा (पारदर्शिता के साथ प्लॉट किया गया है, इसलिए रंग अधिक ठोस है जहां अधिक अंतराल इसे कवर करते हैं):n

प्रत्येक n पर 10 सैंपल CI के साथ ऊपर जैसा प्लॉट


0

मीठी विडंबना। उस अनुच्छेद से पहले, एक ही व्यक्ति कहता है "कोई आश्चर्य नहीं कि इस तरह के व्यापक भ्रम हैं"। "एक पर्यवेक्षणीय सेटिंग में आत्मविश्वास अंतराल": इसका क्या मतलब है?

यह मुझे प्रतीत होता है कि यह एक बार फिर से अनुमान और परिकल्पना परीक्षण के बीच एक भ्रम है ।

अब मुझे पता है कि सीआई की चौड़ाई 1 नमूना आकार में वृद्धि के साथ होनी चाहिए।

नहीं, यह संदर्भ पर निर्भर करता है। सिद्धांत रूप में, चौड़ाई को परिवर्तित करना चाहिए । बड़ी संख्या में मोंटे कार्लो सिमुलेशन के लिए कवरेज नाममात्र मूल्य के करीब होना चाहिए। कवरेज नमूने के आकार पर निर्भर नहीं करता है, जब तक कि जिन कुछ निर्माणों के तहत सीआई का निर्माण किया गया था, उनमें से कुछ त्रुटिपूर्ण हैं (जो कि शायद ओपी का मतलब है। "सभी मॉडल गलत हैं", हाँ।)।0

संदर्भ एक व्यक्तिगत ब्लॉग की एक पोस्ट में एक टिप्पणी है । मैं इस तरह के संदर्भ की वैधता के बारे में बहुत अधिक चिंता नहीं करूंगा। लैरी वासरमन के स्वामित्व वाला ब्लॉग, दूसरी ओर बहुत अच्छी तरह से लिखा गया है। इसने मुझे xkcd कॉमिक की याद दिला दी:

http://xkcd.com/386/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.