आत्मविश्वास अंतराल बनाम नमूना आकार?


9

मैं आँकड़ों और विश्वास अंतराल के क्षेत्र में बिल्कुल नया हूँ। तो यह बहुत तुच्छ हो सकता है या यहां तक ​​कि ध्वनि बेवकूफ भी हो सकता है। मैं सराहना करूंगा यदि आप मुझे कुछ साहित्य / पाठ / ब्लॉग को समझने या इंगित करने में मदद कर सकते हैं जो इसे बेहतर बताते हैं।

मैं विभिन्न समाचार साइटों जैसे सीएनएन, फॉक्स न्यूज, पोलिटिको आदि पर अमेरिकी राष्ट्रपति पद के लिए 2012 के अपने चुनावों के बारे में देखता हूं। प्रत्येक एजेंसी कुछ चुनाव आयोजित करती है और प्रपत्र के कुछ आँकड़े रिपोर्ट करती है:

सीएनएन: ओबामा की लोकप्रियता X% त्रुटि के मार्जिन के साथ +/- X1% है। नमूना आकार 600. फॉक्स: ओबामा की लोकप्रियता Y% त्रुटि के साथ +/- y1% है। नमूना आकार 800. XYZ: ओबामा की लोकप्रियता Z% त्रुटि के मार्जिन के साथ +/- z1% है। नमूना आकार 300।

यहाँ मेरे संदेह हैं:

  1. मैं कैसे तय करूं कि किस पर भरोसा करना है? क्या यह विश्वास अंतराल पर आधारित होना चाहिए, या मुझे यह मान लेना चाहिए कि चूंकि फॉक्स का बड़ा नमूना आकार है, इसलिए यह अनुमान अधिक विश्वसनीय है? क्या विश्वास के बीच एक सीधा संबंध itnervals और नमूना आकार ऐसा है जो निर्दिष्ट करता है कि एक दूसरे को निर्दिष्ट करने की आवश्यकता को रोकता है?

  2. क्या मैं विश्वास अंतराल से मानक विचलन निर्धारित कर सकता हूं? यदि हां, तो क्या यह हमेशा कुछ वितरण (जैसे गॉसियन) के लिए वैध है या मान्य है?

  3. क्या उपरोक्त तीन अनुमानों को "मर्ज" या "संयोजित" करने का एक तरीका है और विश्वास अंतराल के साथ-साथ मेरा अपना अनुमान प्राप्त कर सकता है? उस मामले में मुझे किस आकार का दावा करना चाहिए?

मैंने अपने उदाहरण को बेहतर ढंग से समझाने के लिए केवल सीएनएन / फॉक्स का उल्लेख किया है। मेरा यहां डेमोक्रेट्स बनाम रिपब्लिकन बहस शुरू करने का कोई इरादा नहीं है।

कृपया मेरे द्वारा उठाए गए मुद्दों को समझने में मेरी मदद करें।

जवाबों:


4

पीटर के महान जवाब के अलावा, यहां आपके कुछ विशिष्ट सवालों के जवाब दिए गए हैं:

  1. किस पर भरोसा करना है यह इस बात पर भी निर्भर करेगा कि मतदान कौन कर रहा है और अच्छी गुणवत्ता वाले मतदान कराने में वे कौन से प्रयास करते हैं। एक बड़ा नमूना आकार बेहतर नहीं है यदि नमूना प्रतिनिधि नहीं है, तो एक बड़ा सर्वेक्षण ले रहा है, लेकिन केवल एक में, गैर-स्विंग राज्य बहुत अच्छे परिणाम नहीं देगा।

    नमूना आकार और आत्मविश्वास अंतराल की चौड़ाई के बीच एक संबंध है, लेकिन अन्य चीजें भी चौड़ाई को प्रभावित करती हैं, जैसे कि प्रतिशत 0, 1, या 0.5 के कितने करीब है; पूर्वाग्रह समायोजन का उपयोग कैसे किया गया, नमूना कैसे लिया गया (क्लस्टरिंग, स्तरीकरण, आदि)। सामान्य नियम यह है कि विश्वास अंतराल की चौड़ाई आनुपातिक होगी1n, इसलिए अंतराल को आधा करने के लिए आपको नमूना आकार का 4 गुना चाहिए।

  2. यदि आप पर्याप्त जानते हैं कि नमूना कैसे एकत्र किया गया था और अंतराल की गणना करने के लिए किस सूत्र का उपयोग किया गया था, तो आप मानक विचलन के लिए हल कर सकते हैं (आपको विश्वास स्तर का उपयोग करने की आवश्यकता है, आमतौर पर 0.05)। लेकिन स्तरीकृत बनाम क्लस्टर नमूनों के लिए सूत्र अलग है। अधिकांश चुनाव प्रतिशतों को देखते हैं, इसलिए द्विपद वितरण का उपयोग करेंगे।

  3. जानकारी को संयोजित करने के तरीके हैं, लेकिन आपको आम तौर पर इस बारे में कुछ जानना होगा कि नमूने कैसे एकत्र किए गए थे, या अंतराल के निर्माण के बारे में कुछ अनुमान लगाने के लिए तैयार रहें। बायेसियन दृष्टिकोण एक तरीका है।


1
+1। लेकिन # 3 के लिए दृष्टिकोण वास्तव में इतना धूमिल या मुश्किल है? यदि मेरे पास स्वतंत्र अनुमानों का संग्रह है, तो प्रत्येक की अपनी त्रुटि के मार्जिन के साथ, मैं क्यों नहीं कर सकता (कम से कम मोटे तौर पर) उन्हें सामान्य तरीके से संयोजित करता हूं (एक भारित मतलब के रूप में, भारित एमओई द्वारा भारित) और उनकी मानक त्रुटियों को संयोजित करता है। अच्छी तरह से (विचरण सूत्रों का उपयोग करके)? यह सही नहीं होगा, लेकिन इस पर भरोसा करने के लिए एक पोल चुनने से बेहतर होना चाहिए, सही?
व्हीबर

धन्यवाद ग्रेग! मैं आपके उत्तरों की बहुत सराहना करता हूं। आपने प्रश्न 3 के अपने उत्तर में उल्लेख किया है कि "एक बायेसियन दृष्टिकोण एक तरीका है"। क्या आप मुझे कुछ ऐसे साहित्य की ओर संकेत कर सकते हैं जो इस बारे में अधिक जानकारी देते हैं?
निक

@ शुभकर्ता: आपकी टिप्पणी के लिए धन्यवाद। यही मैं करने की सोच रहा था। क्या आपको लगता है कि इस तरह से इन अनुमानों को संयोजित करना उचित है? पूरी तरह से नहीं हो सकता है, लेकिन काफी हद तक?
निक

1
@ शुभंकर, मुझे इसे धूमिल के रूप में चित्रित करने का मतलब नहीं था, बस यह सुनिश्चित करने के लिए कि पोस्टर के बारे में पता था और आवश्यक मान्यताओं के साथ रह सकता था।
ग्रेग स्नो

@ नाइक, बायेसियन आंकड़ों के लिए वेब पर कई ट्यूटोरियल हैं। एक सरल दृष्टिकोण (जो यह मान लेगा कि नमूने सभी सरल यादृच्छिक नमूने थे, या सर्वेक्षण डिजाइन ऐसा था कि एसआरएस धारणा दूर नहीं है) एक बीटा से पहले शुरू होगा, फिर एक द्विपदीय संभावना वाले प्रत्येक सर्वेक्षण का उपयोग करें अपडेट करें और एक नया उत्तर प्राप्त करें। बेयस दृष्टिकोण के बारे में एक अच्छी बात यह है कि आप पिछले अध्ययनों के प्रभाव को छूट दे सकते हैं यदि आप नहीं चाहते हैं कि उन्हें सबसे हालिया सर्वेक्षण के रूप में अधिक प्रभाव मिले।
ग्रेग स्नो

4

यह एक बहुत बड़ा विषय है, लेकिन मूल रूप से दो मुद्दे हैं:

1) परिशुद्धता - यह नमूना आकार द्वारा निर्धारित किया जाता है। बड़े नमूने निम्न मानक त्रुटि और तंग आत्मविश्वास अंतराल के साथ अधिक सटीक अनुमान देते हैं

2) पूर्वाग्रह - जो, आंकड़ों में, जरूरी नहीं कि नकारात्मक अर्थ है जो इसे कहीं और करता है। चुनावों में, वे XXXX (कभी-कभी मतदाता, कभी-कभी पंजीकृत मतदाता) का यादृच्छिक नमूना प्राप्त करने का प्रयास करते हैं। लेकिन, वे नहीं करते। कुछ पोल केवल लैंड लाइन का उपयोग करते हैं। लोगों के अलग-अलग समूहों के जवाब देने की संभावना कम या ज्यादा होती है। अलग-अलग समूहों को कम या ज्यादा बस लटकाए जाने की संभावना है।

इसलिए, सभी प्रदूषक उनकी प्रतिक्रियाओं का वजन करते हैं। यही है, वे मतदाताओं के बारे में ज्ञात तथ्यों से मेल खाने के लिए अपने परिणामों को समायोजित करने का प्रयास करते हैं। लेकिन वे सभी इसे थोड़ा अलग तरीके से करते हैं। इसलिए, समान मतदान इनपुट डेटा के साथ भी, वे अलग-अलग संख्याएँ देंगे।

किस पर भरोसा करें? ठीक है, यदि आप 538 पर नैट सिल्वर के काम को देखते हैं, तो उसके पास इस बात की रेटिंग है कि पिछले चुनावों में कितने सटीक प्रदूषक थे। लेकिन इसका मतलब यह नहीं है कि वे अब भी उतने ही सटीक होंगे।


धन्यवाद पीटर। इसलिए त्रुटि के कम मार्जिन के साथ एक अनुमान अधिक 'सटीक' है। क्या यह भी पता है कि यह सिर्फ X% +/- X1% त्रुटि मार्जिन से कैसे पक्षपाती है? मुझे लगता है कि यह तब तक संभव नहीं है जब तक आप व्यक्तिगत नमूने की प्राथमिकताओं को नहीं जानते हैं, है ना?
निक

हाँ य़ह सही हैं। बेशक, कुछ प्रदूषकों ने ज्ञात गैसों (एक दिशा या किसी अन्य में) को जाना है। आंतरिक चुनाव (एक पार्टी या अन्य द्वारा संचालित) अक्सर पक्षपाती होते हैं। एक तरह से वे ऐसा कर सकते हैं, यह कई चुनावों के लिए है और केवल उन्हीं को रिहा करना है जो अनुकूल हैं। फिर "पुश पोल" का पूरा मुद्दा है जिसमें एक उम्मीदवार के बारे में उसके या उसके बारे में नकारात्मक प्रश्नों के बारे में बताया गया है।
पीटर Flom

1

यह सर्वेक्षण के नमूने के क्षेत्र में आता है। सिद्धांत रूप में विधियां काम करती हैं क्योंकि यादृच्छिककरण का उपयोग किया जाता है। यहां ऐसी बातें हैं जो व्यक्तिपरक निर्णयों के आधार पर चुनाव में भिन्न हो सकती हैं।

  1. नमूना चयन ढांचा। मतदाता के किस समूह से मुझे अपना नमूना लेना चाहिए?

  2. मैं कल के मतदान या अगले सप्ताह के आधार पर ओबामा बनाम रोमनी के बारे में अपनी राय को बदल सकने वाले अघोषित मतदाता की अस्थिरता को कैसे संभाल सकता हूं?

  3. पीटर ने पूर्वाग्रह को छुआ है। 1936 का साहित्यिक डाइजेस्ट पोल एक आपदा थी। इसने FDR पर रिपब्लिकन उम्मीदवार को चुना क्योंकि नमूना फ्रेम टेलीफोन नंबरों के यादृच्छिक चयन पर आधारित था। 1936 में केवल उच्च मध्यम वर्ग और धनी के पास फोन थे। उस समूह पर रिपब्लिकन का वर्चस्व था, जो रिपब्लिकन उम्मीदवार को वोट देते थे। रूजवेल्ट ने गरीबों और मध्यम वर्ग से अपने वोट प्राप्त कर एक भूस्खलन से जीत हासिल की, जो डेमोक्रेट के एक समूह के रूप में बहुत अधिक था। यह नमूने के फ्रेम के सूक्ष्म रूप से खराब विकल्प के कारण पूर्वाग्रह का चित्रण करता है।

  4. सर्वेक्षण का नमूना परिमित आबादी से संबंधित है। जनसंख्या का आकार N है। कहो कि एक साधारण यादृच्छिक नमूना उस जनसंख्या से लिया गया है और उसका आकार n है। सादगी के लिए केवल ओबामा और रोमनी ही चल रहे हैं। इस नमूने के फ्रेम के लिए ओबामा को मिलने वाले वोटों का अनुपात बाइनरी चर का औसत है (1 कहें तो प्रतिवादी ओबामा और रोमनी के लिए 0 चुनता है)। इस वैरिएबल के लिए नमूने के विचरण का अर्थ है [p (1-p) / n] [Nn] / N जहां p वास्तविक जनसंख्या अनुपात है जो ओबामा को ले जाएगा। [एनएन] / एन परिमित जनसंख्या सुधार है। अधिकांश चुनावों में N, N की तुलना में बहुत बड़ा है और सही को नजरअंदाज किया जा सकता है। P (1-p) / n को देखते हुए हम देखते हैं कि विचरण n के साथ नीचे जाता है। इसलिए यदि n बड़ा है तो किसी दिए गए आत्मविश्वास स्तर पर विश्वास अंतराल छोटा हो जाएगा।

अमेरिकी जनगणना ब्यूरो के पोल्स्टर्स अन्य सर्वेक्षण के नमूने और सांख्यिकीविद् सभी के पास अपने निपटान में ये सांख्यिकीय उपकरण हैं और वे अधिक जटिल और सटीक तरीके (क्लस्टर यादृच्छिक नमूना और स्तरीकृत यादृच्छिक नमूने के कुछ तरीकों का उल्लेख करने के लिए) करते हैं।

जब उनकी मॉडलिंग मान्यताओं विधि मान्य हैं अच्छी तरह से काम करते हैं। एग्जिट पोलिंग एक प्रमुख उदाहरण है। चुनाव के दिन आप नेटवर्क को लगभग हर राज्य में एक अंतिम गणना से बहुत पहले ही देख लेंगे। इसका कारण यह है कि परावर्तन दिवस परिवर्तनशीलता चली गई है। वे ऐतिहासिक रूप से जानते हैं कि लोगों ने वोट देने के लिए कैसे रुझान किया और वे चयनित पूर्वाग्रहों को इस तरह से निर्धारित कर सकते हैं जो पूर्वाग्रह से बचाते हैं। नेटवर्क कुछ समय अलग है। यह दूसरों की मानसिकता से आगे विजेता को लेने के लिए एक सक्षमता के कारण हो सकता है। यह दुर्लभ उदाहरणों में भी हो सकता है क्योंकि वोट बेहद करीब है (जैसे फ्लोरिडा में राष्ट्रपति चुनाव 2000)।

मुझे आशा है कि यह आपको स्पष्ट रूप से बताएगा कि क्या चल रहा है। अब हम 1948 में "डेवी को हराकर ट्रूमैन" या 1936 के साहित्यिक डाइजेस्ट फियास्को जैसी सकल गलतियों को नहीं देखते हैं। लेकिन आंकड़े सही नहीं हैं और सांख्यिकीविद् कभी यह नहीं कह सकते कि वे निश्चित हैं।


विस्तृत विवरण के लिए धन्यवाद। यह वास्तव में मदद की!
निक

हम अब सकल गलतियों को नहीं देखते हैं? तो 2016 में क्लिंटन जीती, क्या उसने? मैं आपके ज्ञात अज्ञात को लेता हूं और आपको एक काला हंस बढ़ाता हूं । जैसे मेरे डैडी कहते थे, "यह वही है जो तुम नहीं जानते कि तुम्हें मारता है।"
कार्ल

1
मेरे जवाब का क्लिंटन और 2016 के चुनाव से कोई लेना-देना नहीं था जिसमें कई अजीब मुद्दे थे। (1) रूसी हस्तक्षेप, (2) क्लिंटन ने लोकप्रिय वोट जीता और (3) कुछ ट्रम्प मतदाता यह स्वीकार करने के लिए मितभाषी थे कि वे ट्रम्प को वोट देंगे। शायद मुझे यह जोड़ना चाहिए कि जब मतदान अपेक्षित नहीं था तो मतदान गलत हो सकता है।
माइकल आर। चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.