राजनीति के लिए सांख्यिकीय नमूनाकरण कार्य (जैसे गैलप) क्यों / करना चाहिए?


14

वहां के लोग (कहते हैं, गैलप) जनसंख्या के आकार की तुलना में कुछ बेतुके रूप से कम संख्या में लोगों का नमूना लेते हैं (जैसे कि शायद लाखों लोगों में से एक लाख लोग)।

अब, मेरे लिए, जनसंख्या के आँकड़ों के आकलन के लिए एक साधन के रूप में जनसंख्या का नमूना लेना समझ में आता है जब आपके पास यह विश्वास करने का एक मजबूत कारण है कि नमूने जनसंख्या के प्रतिनिधि हैं (या, इसी तरह, अन्य नमूनों के )

उदाहरण के लिए, नमूना स्पष्ट रूप से चिकित्सा अध्ययन के लिए समझ में आता है, क्योंकि हम एक प्राथमिकता जानते हैं कि मनुष्यों में सभी समान जीनोम होते हैं और यह कारक उनके शरीर के समान व्यवहार करता है।
ध्यान दें कि यह किसी प्रकार का ढीला कपलिंग नहीं है - जीनोम एक बहुत ही मजबूत मजबूत निर्धारण कारक है

हालाँकि, मुझे समझ में नहीं आता है कि राजनीतिक चुनाव जैसी चीजों के लिए कम नमूना आकारों का उपयोग करना क्या उचित है।

मैं खरीद सकता था कि शायद किसी भी पड़ोस में 80-90% लोग राष्ट्रपति के समान वोट (समान सामाजिक आर्थिक / शिक्षा पृष्ठभूमि के कारण) के लिए वोट करें, लेकिन यह शायद ही नमूनों की बेतुकी कम संख्या का औचित्य साबित करता है। वस्तुतः कोई सम्मोहक कारण नहीं है (कम से कम मेरे लिए) क्यों 1000 यादृच्छिक मतदाताओं को 200 मिलियन अन्य मतदाताओं की तरह व्यवहार करना चाहिए।

मेरे लिए, आपको कम से कम 100 (जैसे) 100 × उस राशि की आवश्यकता होगी। क्यों? मैं कारणों की एक गुच्छा के बारे में सोच सकते हैं, उदाहरण के लिए:

  1. सिर्फ कैलिफ़ोर्निया में ~ 22,000 प्रचलित हैं । लोग अपनी आर्थिक और शैक्षिक पृष्ठभूमि में इतने अलग-अलग हो जाते हैं कि आकार 1000 का एक सर्वेक्षण हंसमुख रूप से छोटा लगता है। आप औसतन 1 व्यक्ति के साथ पूरे पूर्वाग्रह को कैसे संक्षेप में बता सकते हैं?

  2. लोग आमतौर पर दवा के लिए अपने शरीर की प्रतिक्रियाओं को नहीं बदल सकते हैं, लेकिन वे राजनीति के बारे में अपनी राय सिर्फ इसके बारे में सोचकर बदल सकते हैं। जिस तरह से मैं इसे देख रहा हूं, जब आप राजनीति के साथ काम कर रहे हैं तो दवा में डीएनए के लिए कोई मजबूर कारक नहीं है । सबसे अच्छा मैं कल्पना करता हूं कि सहसंबंध की छोटी जेब होनी चाहिए।

फिर भी किसी तरह, इस तरह के चुनाव ... वैसे भी काम करते हैं? या कम से कम लोगों को लगता है कि वे क्या करते हैं?
लेकिन वे क्यों चाहिए? हो सकता है कि मैं सिर्फ मौलिक रूप से नमूना समझ में नहीं आता ? क्या कोई समझा सकता है?
मैं अभी किसी भी चुनाव को गंभीरता से नहीं ले सकता, लेकिन मुझे ऐसा लगता है कि मैं इसमें कमोबेश अकेला हूं ...


4
"नमूना लेना स्पष्ट रूप से चिकित्सा अध्ययनों के लिए समझ में आता है, क्योंकि हम एक प्राथमिकता जानते हैं कि मानव सभी में समान जीनोम होते हैं" मेरे पास चिकित्सा पृष्ठभूमि नहीं है, लेकिन क्या वास्तव में हमारा डीएनए हमारे राजनीतिक विचारों से कम है? यदि हां, तो आनुवंशिकी का अध्ययन करना इतना कठिन क्यों है और हमें पहले से ही इसकी पूरी समझ क्यों नहीं है? मैं एक शर्त लगाता हूं कि यदि आप दो यादृच्छिक लोगों को लेते हैं तो वे एक ही राजनीतिक विचार रखते हैं, तो एक ही डीएनए।
टिम

3
@ समय: "मैं एक शर्त लगाता हूं कि यदि आप दो यादृच्छिक लोगों को लेते हैं, तो वे एक ही राजनीतिक विचार रखते हैं, तो एक ही डीएनए होगा।" आप कितना दांव लगाना चाहते हैं? google.com/search?q=dna+similarity+between+humans
user541686

2
लेकिन 0.5% अंतर नहीं है सबसे महत्वपूर्ण बात है जब आप इस तरह की तुलना करना? इसके अलावा, हम मक्खियों के साथ 60% जीन साझा करते हैं , इसलिए मुझे लगता है कि हम मनुष्यों का नमूना ले सकते हैं और चिकित्सा अनुसंधान के लिए विशेष रूप से मक्खियों? तुलना में: 2008 में ओबामा को अमेरिकी राष्ट्रपति चुनाव में 53% वोट मिले थे। इसके अलावा, मैं तर्क देता हूं कि जब जीवन-रक्षक लेकिन संभावित खतरनाक दवा पर शोध किया जाता है, तो आपको नमूना लेने में अधिक सावधानी बरतनी चाहिए, जब कंपनी ए बनाम बी द्वारा उत्पादित साबुन का उपयोग करने के बारे में या राय पूल के लिए वरीयता के बारे में शोध कर रहे हों।
टिम

2
@ user2338816: "यह आश्वस्त है क्योंकि यह ऐतिहासिक रूप से सटीक रहा है" गणित की तरह कम है और विज्ञान की तरह अधिक है। मैं इसे वैज्ञानिक आधारों पर खरीदने के लिए पूरी तरह से तैयार हूं (क्योंकि यह विज्ञान कैसे रोल करता है), लेकिन विशुद्ध रूप से गणितीय (प्रमाण-आधारित) आधार पर नहीं।
user541686

1
मैं चुनौती देता हूं कि (सतर्क) दावा करें कि चुनावों के लिए चुनाव काम करते हैं। मुझे यह याद नहीं है कि चुनाव के वास्तविक परिणामों के करीब मतदान भी नहीं है जहाँ से मैं हूँ। ऐसे बहुत सारे कारक हैं जिनका आप वास्तव में हिसाब नहीं लगा सकते हैं - उदाहरण के लिए, हमारी ~ 60% उपस्थिति के साथ, आप लगभग किसी ऐसे व्यक्ति का नमूना लेने की संभावना रखते हैं जो किसी ऐसे व्यक्ति से वोट नहीं लेने जा रहा है जो नहीं है। एक सर्वेक्षण में भाग लेना मतदान की तुलना में कम प्रयास है, और कभी-कभी आप इसके लिए भुगतान भी करते हैं। कुछ दलों में दूसरों की तुलना में बहुत अधिक उपस्थिति होती है (जैसे कम्युनिस्ट पार्टी)। आपको किसी भी नमूने में विचलन के साथ-साथ "परिणाम" का हवाला देने की आवश्यकता है।
लुआएन

जवाबों:


13

ऐसा लगता है कि आप एक बहुत ही सरल नमूने के मॉडल की कल्पना कर रहे हैं।

नमूने के लिए सबसे सरल मॉडल को उपयुक्त सरल यादृच्छिक नमूनाकरण कहा जाता है । आप जनसंख्या का एक सबसेट (जैसे यादृच्छिक पर फोन नंबर डायल करके) का चयन करें और जो भी वे मतदान कर रहे हैं के बारे में जवाब पूछें। यदि 487 क्लिंटन कहते हैं, 463 ट्रम्प कहते हैं, और शेष आपको कुछ निराला जवाब देते हैं, तो मतदान फर्म रिपोर्ट करेगी कि 49% मतदाता क्लिंटन पसंद करते हैं, जबकि 46% ट्रम्प पसंद करते हैं। हालाँकि, पोलिंग फर्म इससे कहीं अधिक काम करती हैं। एक साधारण यादृच्छिक नमूना प्रत्येक डेटा बिंदु को समान वजन देता है। हालांकि, मान लीजिए कि आपके नमूने में - संयोग से - 600 पुरुष और 400 महिलाएं हैं, जो स्पष्ट रूप से समग्र रूप से जनसंख्या का प्रतिनिधि नहीं है। यदि एक समूह के रूप में पुरुष एक तरह से दुबले होते हैं, जबकि महिलाएं दूसरे को झुकाती हैं, तो यह आपके परिणाम को पूर्वाग्रहित करेगा। हालांकि, चूंकि हमारे पास बहुत अच्छे जनसांख्यिकीय आँकड़े हैं, आप वजन कर सकते हैं *महिलाओं की प्रतिक्रियाओं को थोड़ा अधिक और पुरुषों को थोड़ा कम करके प्रतिक्रियाएं, ताकि भारित प्रतिक्रिया जनसंख्या का बेहतर प्रतिनिधित्व करती है। पोलिंग संगठनों में अधिक जटिल वजन वाले मॉडल होते हैं जो एक गैर-प्रतिनिधि नमूना बना सकते हैं जो एक अधिक प्रतिनिधि के समान होता है।

सैंपल रिस्पॉन्स को वेट करने का आइडिया बहुत फर्म स्टैटिस्टिकल ग्राउंड पर है, लेकिन वेट को बढ़ाने में कौन-कौन से फैक्टर्स हैं, इसे चुनने में थोड़ी सहूलियत है। अधिकांश प्रदूषक लिंग, आयु और नस्ल जैसे जनसांख्यिकीय कारकों के आधार पर वजन घटाते हैं। इसे देखते हुए, आप सोच सकते हैं कि पार्टी की पहचान (डेमोक्रेटिक, रिपब्लिकन, आदि) को भी शामिल किया जाना चाहिए, लेकिन यह पता चला है कि अधिकांश मतदान फर्म अपने भार में इसका उपयोग नहीं करते हैं: पार्टी (स्व)-पहचान में मतदाता की पसंद के साथ छेड़छाड़ की जाती है। एक तरह से जो इसे कम उपयोगी बनाता है।

कई मतदान संगठनों ने भी "संभावित मतदाताओं" के बीच अपने परिणामों की रिपोर्ट की। इनमें, उत्तरदाताओं को या तो चयनित किया जाता है या संभावना के आधार पर भारित किया जाता है कि वे वास्तव में चुनावों में बदल जाएंगे। यह मॉडल निस्संदेह डेटा-संचालित है, लेकिन कुछ लचीलेपन के लिए कारकों की सटीक पसंद अनुमति देता है। उदाहरण के लिए, उम्मीदवार और मतदाता की दौड़ (या लिंग) के बीच बातचीत भी 2008 या 2016 तक समझदार नहीं थी, लेकिन मुझे संदेह है कि उनके पास अब कुछ पूर्वानुमानित शक्ति है।

सिद्धांत रूप में, आप सभी प्रकार की चीजों को शामिल कर सकते हैं जैसे कि भार कारक: संगीतमय वरीयता, आंखों का रंग, आदि। हालांकि, जनसांख्यिकीय कारक वजन घटाने के कारकों के लिए लोकप्रिय विकल्प हैं:

  • जाहिर है, वे मतदाता व्यवहार के साथ अच्छी तरह से संबंध रखते हैं। जाहिर है, कोई ऐसा लोहा-कानून नहीं है जो 'गोरे' लोगों को दुबले-पतले रिपब्लिकन बनने के लिए मजबूर करता हो, लेकिन पिछले पचास सालों में वे इसके लिए झुक गए हैं।
    • जनसंख्या मूल्य अच्छी तरह से ज्ञात हैं (जैसे, जनगणना या महत्वपूर्ण रिकॉर्ड से)

हालांकि, प्रदूषक भी वही खबर देखते हैं जो हर कोई करता है, और यदि आवश्यक हो तो वज़निंग चर को समायोजित कर सकते हैं।

कुछ "ठगने वाले कारक" भी हैं जो कभी-कभी चुनाव परिणामों को समझाने के लिए लगाए जाते हैं। उदाहरण के लिए, उत्तरदाता कभी-कभी "सामाजिक रूप से अवांछनीय" उत्तर देने के लिए अनिच्छुक होते हैं। ब्राडली प्रभाव मानती है कि सफेद मतदाताओं कभी कभी एक अल्पसंख्यक के खिलाफ चल सफेद उम्मीदवारों के लिए उनके समर्थन downplay जातिवाद प्रकट होने से बचना। इसका नाम एक अफ्रीकी-अमेरिकी जुबेरेटोरियल उम्मीदवार टॉम ब्रैडली के नाम पर रखा गया है, जो चुनावों में आराम से नेतृत्व करने के बावजूद चुनाव हार गए।

अंत में, आप पूरी तरह से सही हैं कि किसी की राय पूछने का बहुत कार्य इसे बदल सकता है। मतदान फर्म अपने प्रश्नों को तटस्थ तरीके से लिखने का प्रयास करती हैं। संभावित प्रतिक्रियाओं के क्रम के मुद्दों से बचने के लिए, उम्मीदवारों के नाम यादृच्छिक क्रम में सूचीबद्ध किए जा सकते हैं। एक प्रश्न के कई संस्करणों को कभी-कभी एक-दूसरे के खिलाफ भी परीक्षण किया जाता है। इस प्रभाव का इस्तेमाल एक धक्का चुनाव में नापाक अंत के लिए भी किया जा सकता है , जहां साक्षात्कारकर्ता वास्तव में प्रतिक्रियाएं इकट्ठा करने में दिलचस्पी नहीं रखते हैं, लेकिन उन्हें प्रभावित करने में। उदाहरण के लिए, एक पुश पोल पूछ सकता है कि "क्या आप [कैंडिडेट ए] को वोट देंगे, भले ही यह सूचित किया गया हो कि वह बाल मोलेस्टर था?"।


* आप अपने नमूने के लिए स्पष्ट लक्ष्य भी निर्धारित कर सकते हैं, जैसे ५०० पुरुष और ५०० महिलाएँ। इसे स्तरीकृत नमूनाकरण कहा जाता है - जनसंख्या को अलग-अलग समूहों में विभाजित किया जाता है, और प्रत्येक समूह को फिर यादृच्छिक रूप से नमूना किया जाता है। व्यवहार में, यह चुनावों के लिए बहुत बार नहीं किया जाता है, क्योंकि आपको बहुत सारे संपूर्ण समूहों (जैसे कि शहरी टेक्सास में 18-24 के बीच कॉलेज-शिक्षित पुरुष) में स्तरीकरण करना होगा।


2
मैं निश्चित रूप से समझता हूं कि वे सरल यादृच्छिक नमूना नहीं कर रहे हैं, लेकिन मेरा सवाल यह है कि क्या वे कर रहे हैं, सिर्फ इसलिए अच्छा है क्योंकि ऐसा होता है कि उनकी धारणाएं सही हैं (यानी एक उचित लेकिन व्यक्तिपरक कूबड़), या क्या यह धारणा भी सांख्यिकीय है न्यायोचित। अन्य जवाब पर मेरी टिप्पणी देखें यहाँ
user541686

3
दोनों, मुझे लगता है। सैंपल को वेट करना सांख्यिकीय रूप से सही बात है, लेकिन इसमें .... यह तय करने में लचीलापन है कि वजन में कौन से कारक जाते हैं। उदाहरण के लिए, जाति, लिंग और शिक्षा सभी उपयोगी हैं, लेकिन यह पता चलता है कि पार्टी की पहचान अक्सर नहीं होती है (उदाहरण के लिए, theguardian.com/commentisfree/2012/sep/27/… ), शायद इसलिए इसे मतदाता के उम्मीदवार के साथ जोड़ा गया है चुनाव।
मैट क्रॉउज

1
इसी तरह, वज़न में कभी-कभी अनुमान शामिल होता है कि प्रतिवादी को वोट करने की कितनी संभावना है: युवा लोग बहुत शोर करते हैं, लेकिन हमेशा नहीं दिखाते हैं; बुजुर्ग शायद ही कभी रैलियों में भाग लेते हैं, लेकिन चुनाव में मज़बूती से बदलाव करते हैं। यह ऐतिहासिक आंकड़ों से अनुमान लगाया जा सकता है (मतदाता रोल कभी-कभी सार्वजनिक होते हैं), लेकिन मैं कल्पना कर सकता था कि कुछ जगहों ने 2008 में अफ्रीकी-अमेरिकियों के लिए और 2016 में महिलाओं के लिए इसे समायोजित किया।
मैट क्रूस

धन्यवाद! आपके उत्तर में उस "लचीलेपन" का भी उल्लेख करना अच्छा होगा :) +1
user541686

10

एक गणितीय प्रमेय है जिसे "बड़ी संख्या का कानून" कहा जाता है। कल्पना कीजिए कि आप इस संभावना को निर्धारित करना चाहते हैं कि एक सिक्का सिर आएगा। सिक्के के फड़कने की "जनसंख्या" अनंत है - संयुक्त राज्य अमेरिका में 300,000,000+ लोगों की तुलना में बहुत बड़ा है। लेकिन लॉ ऑफ लार्ज नंबर्स के अनुसार, आप जितना अधिक सिक्का उछालेंगे, आपका अनुमान उतना ही सटीक होगा।

आदर्श सर्वेक्षण: आदर्श सर्वेक्षण में, मतदाता बेतरतीब ढंग से अमेरिकी जनगणना से नामों का चयन करेंगे, उन्हें पता चलेगा कि वे लोग कहाँ रहते हैं, फिर वे अपने दरवाजे पर दस्तक देंगे। यदि व्यक्ति कहता है कि वे मतदान करने की योजना बना रहे हैं, तो सर्वेक्षणकर्ता पूछता है कि वे किसके लिए मतदान कर रहे हैं और अपना उत्तर दर्ज कर रहे हैं। इस तरह से मतदान करना गणितीय रूप से काम करने की गारंटी है और किसी भी आत्मविश्वास स्तर के लिए आपके माप में त्रुटि की मात्रा की गणना आसानी से की जा सकती है

यहाँ त्रुटि का क्या अर्थ है: मान लीजिए कि आपके पोल के आधार पर, आपको पता चला कि 52 प्रतिशत संभावना है कि उम्मीदवार विस्मयकारी McPerfect जीतने जा रहे हैं, जिसमें 98% आत्मविश्वास के साथ 3% त्रुटि है। इसका मतलब है कि आप 98% आश्वस्त हो सकते हैं कि मतदाताओं का असली हिस्सा जो उम्मीदवार भयानक मैकपेरफेक्ट का पक्ष लेते हैं, वे 49% से 55% के बीच हैं।

त्रुटि और आत्मविश्वास पर एक नोट किसी दिए गए नमूना आकार के लिए, जितना अधिक आप आश्वस्त होंगे, आपकी त्रुटि उतनी ही बड़ी होगी। इसके बारे में सोचो - आप 100% में आश्वस्त हैं, यह सच अनुपात कि समर्थन canditate बहुत बढ़िया 0% और 100% (सबसे संभावित त्रुटि) के बीच है, और आप 0% विश्वास है सच अनुपात है कि समर्थन करता है बहुत बढ़िया canditate है कि वास्तव में 52.0932840985028390984308% (शून्य त्रुटि)। अधिक आत्मविश्वास का अर्थ है अधिक त्रुटि, कम आत्मविश्वास का अर्थ है कम त्रुटि। हालाँकि, विश्वास और त्रुटि के बीच संबंध रैखिक नहीं है ! (देखें: https://en.wikipedia.org/wiki/Confidence_interval )

वास्तविक दुनिया में मतदान: क्योंकि यह देश के सभी हिस्सों में हेलीकॉप्टरों के प्रदूषण को दूर करने के लिए महंगा है, ताकि यादृच्छिक लोगों के दरवाजे खटखटाए जा सकें (हालाँकि मुझे ऐसा होने में अच्छा लगेगा; यदि आप एक अरबपति हैं और आप इसे देखते हैं, तो कृपया इस फंडिंग पर विचार करें), वास्तविक दुनिया में चुनाव अधिक जटिल हैं। आओ हम अधिक सामान्य रणनीतियों में से एक देखें - यादृच्छिक मतदाताओं को बुलाकर उनसे पूछें कि वे किसे वोट देंगे। यह एक अच्छी रणनीति है, लेकिन इसमें कुछ अच्छी तरह से अनजान फेलिंग्स हैं:

  1. लोग अक्सर फोन का जवाब नहीं देने और प्रदूषकों को जवाब देने के लिए चुनते हैं (उदाहरण के लिए।)
  2. कुछ जनसांख्यिकी में लैंडलाइन होने की संभावना अधिक होती है (उदा। पुराने मतदाता)
  3. कुछ जनसांख्यिकी में प्रदूषकों (पूर्व पुराने मतदाताओं) पर प्रतिक्रिया की संभावना अधिक होती है

क्योंकि अलग-अलग जनसांख्यिकी अलग-अलग तरीकों से मतदान करते हैं, इसलिए प्रदूषकों को अपने कच्चे डेटा (फोन का जवाब देने का फैसला करने वाले) और वास्तविक चुनावों के परिणामों के आधार पर मतभेदों को नियंत्रित करने की पूरी कोशिश करनी होती है। उदाहरण के लिए, यदि फोन उठाने वाले 10% लोग हीपिक थे, लेकिन पिछले चुनाव में 30% मतदाता थे, तो वे अपने चुनाव में तीन गुना अधिक वजन वाले मतदाताओं को देने जा रहे थे। अगर फोन पर जवाब देने वाले 50% लोग 60 से अधिक उम्र के थे, लेकिन पिछले चुनाव में मतदान करने वाले लोगों में से केवल 30% लोग 60 से अधिक उम्र के थे, तो उन्होंने जवाब देने वाले पुराने मतदाताओं को कम वजन दिया। यह सही नहीं है, लेकिन यह भविष्यवाणी के कुछ प्रभावशाली करतबों को जन्म दे सकता है (2012 के चुनाव में 50 राज्यों में से प्रत्येक ने आंकड़ों का उपयोग करते हुए परिणामों की सही भविष्यवाणी की,

बुद्धिमानों को सावधान करने का एक शब्द: पोल्स्टर्स सबसे अच्छी भविष्यवाणियां करते हैं, वे इस बात पर आधारित कर सकते हैं कि अतीत में कैसे काम किया गया था। सामान्यतया , चीजें अब उसी के बारे में काम करती हैं जैसा उन्होंने अतीत में किया था, या कम से कम परिवर्तन इतना धीमा है कि हाल के अतीत (जो वे सबसे अधिक ध्यान केंद्रित करते हैं) वर्तमान से मिलते जुलते हैं। हालांकि, कभी-कभी मतदाताओं में तेजी से बदलाव होते हैं और चीजें गलत हो जाती हैं। हो सकता है कि ट्रम्प मतदाताओं को फोन का जवाब देने के लिए आपके औसत मतदाता की तुलना में थोड़ा कम हो, और जनसांख्यिकी द्वारा भार इसके लिए जिम्मेदार नहीं है। या हो सकता है कि युवा लोग (जो हिलेरी का समर्थन करते हैं) और भी अधिक हैंमॉडल की भविष्यवाणी की तुलना में फोन का जवाब देने की संभावना नहीं है, और जो फोन का जवाब देते हैं, उनके रिपब्लिकन होने की अधिक संभावना है। या शायद दोनों का विपरीत सत्य है - हम नहीं जानते। इस तरह की चीजें छिपे हुए चर हैं जो आमतौर पर एकत्र किए गए जनसांख्यिकी में दिखाई नहीं देती हैं।

हमें पता होगा कि अगर हमने रैंडम डोर (अहम, काल्पनिक बिलारे इसको पढ़ने) पर दस्तक देने के लिए पोलस्टर्स भेजे, तब से हमें जनसांख्यिकी के आधार पर चीजों को वजन नहीं करना होगा, लेकिन तब तक, उंगलियां पार हो गईं।


3
मैं प्रतिक्रिया की सराहना करता हूं, लेकिन यह उस सवाल के सापेक्ष थोड़ा प्राथमिक है जो मैं और मेरी पृष्ठभूमि से पूछने की कोशिश कर रहा था (यकीन नहीं कि अगर आपने गौर किया, लेकिन मैं संभावना / आँकड़े की मूल बातें बिल्कुल नया नहीं हूं ); मुझे नहीं लगता कि मेरे प्रश्न का उत्तर यहां उतना ही मूल है जितना कि आपका। उदाहरण के लिए: बड़ी संख्या के क्लासिक कानून के लिए एक धारणा यह है कि हमारे पास समान वितरण के साथ यादृच्छिक चर हैं ... लेकिन मैं इसके लिए एक राजनीतिक संदर्भ में औचित्य देखने में विफल रहता हूं: आपके द्वारा मेरे वोट और आपके द्वारा किए जाने वाले वितरण को क्यों होना चाहिए सब पर एक ही ?
user541686

इसके अलावा, मुझे यह भी यकीन नहीं है कि बड़ी संख्या का कानून उस चीज को सही ठहराता है, जिसे आप मान्य करना चाह रहे थे, भले ही वह सही हो। सवाल नमूना आकारों के बारे में है जो बड़ी संख्या का कानून वास्तव में संबोधित नहीं करता है (कम से कम आपके द्वारा सुझाए गए फैशन में नहीं); हमें यहां विचरण या अभिसरण दर की कुछ धारणा की आवश्यकता है, न कि केवल अनंत में माध्य के अभिसरण की। शायद आप बड़ी संख्या के कानून के बजाय केंद्रीय सीमा प्रमेय को लागू करने के लिए थे? (हालाँकि यह मेरी पिछली टिप्पणी है क्योंकि यह संभवतः मूट है।)
user541686

2
वितरण व्यक्तिगत वोटों पर लागू नहीं होते हैं। व्यक्तिगत वोट यादृच्छिक नहीं हैं। वे समग्र रूप से जनसंख्या के मतदान व्यवहार पर लागू होते हैं। यह कलश से रंगीन गेंदों को खींचने जैसा है - प्रत्येक गेंद को लाल या नीले रंग के लिए पूर्व निर्धारित किया जाता है, लेकिन आपके पास प्रत्येक रंग को खींचने की संभावना हो सकती है और इसलिए आप एक नमूने के आधार पर गेंद के एक निश्चित रंग को खींचने की संभावना के लिए एक वितरण का निर्माण कर सकते हैं। कलश में गोले
जे एंटोनियो पेरेज़

1
लोगों के साथ राजनीति के अलावा कुछ और देखें। किसी व्यक्ति का आइसक्रीम का पसंदीदा स्वाद सिर्फ उनके राजनीतिक विचारों के रूप में कई चीजों पर निर्भर करता है। यह उनके दोस्तों की प्राथमिकताओं पर निर्भर हो सकता है, उनके बचपन की यादें, आइसक्रीम पार्लर में अच्छे या बुरे अनुभव। शायद उन्हें एक स्वाद पसंद है क्योंकि उन्हें यह अपनी पत्नी या पति के साथ पहली तारीख को मिला। शायद वे एक स्वाद को नापसंद करते हैं क्योंकि यह उन्हें उनके पूर्व की याद दिलाता है। लेकिन अगर मैं अमेरिका में लोगों का एक यादृच्छिक चुनाव लेता हूं, तो क्या आप इस बात से सहमत नहीं होंगे कि मैं अमेरिका में शीर्ष पसंदीदा आइसक्रीम के स्वाद का न्याय कर सकता हूं?
जे। एंटोनियो पेरेज़

1
"रैंडम वैरिएबल" वह व्यक्ति होता है जिसे पोलिस्टर द्वारा चुना जाता है ताकि उनकी पसंद पूछी जा सके। किसी व्यक्ति की प्राथमिकता यादृच्छिक नहीं है; जो अलग-अलग पोलेस्टर का चयन करता है वह यादृच्छिक है।
जे। एंटोनियो पेरेज़

7

सबसे पहले, यह आपके मुख्य बिंदुओं से अलग है लेकिन यह ध्यान देने योग्य है। चिकित्सा परीक्षण में आप 1000 लोगों को एक ऐसी दवा का परीक्षण करवा सकते हैं जो उन 10000 लोगों को दी जा सकती है जो सालाना बीमार हैं। आप इसे देख सकते हैं और सोच सकते हैं कि "यह जनसंख्या के 10% पर परीक्षण किया जा रहा है", वास्तव में जनसंख्या 10000 लोगों की नहीं है, इसके सभी भविष्य के रोगियों की आबादी का आकार अनंत है। 1000 लोग दवा के अनंत संभावित उपयोगकर्ताओं की तुलना में बड़े नहीं हैं, लेकिन इस प्रकार के अध्ययन काम करते हैं। यह महत्वपूर्ण नहीं है कि आप 10%, 1% या 0.1% जनसंख्या का परीक्षण करें; क्या महत्वपूर्ण है नमूने का पूर्ण आकार जनसंख्या की तुलना में कितना बड़ा नहीं है।

अगला, आपका मुख्य बिंदु यह है कि बहुत सारे उलझे हुए चर हैं जो लोगों के मतदान को प्रभावित कर सकते हैं। आप 22000 चरों की तरह कैलिफोर्निया के 22000 जिलों का इलाज कर रहे हैं, लेकिन वास्तव में वे केवल मुट्ठी भर चर (आय और शिक्षा जैसे उल्लेखित हैं) हैं। आपको प्रत्येक जिले से प्रतिनिधि नमूने की आवश्यकता नहीं है, आपको आय, शिक्षा, ect के कारण भिन्नता को कवर करने के लिए पर्याप्त नमूनों की आवश्यकता है।

kknnσ2nkkσ2n

kn

संपादित करें:

उपरोक्त सूत्र यह मान रहा था कि प्रत्येक भिन्न चर समान रूप से महत्वपूर्ण है। यदि हम उन सैकड़ों चीजों पर विचार करना चाहते हैं जो परिणामों में विचरण को जोड़ सकते हैं तो यह धारणा वैध नहीं है (जैसे शायद ट्विटर उपयोगकर्ता एक उम्मीदवार को अधिक समर्थन करते हैं, लेकिन हम जानते हैं कि ट्विटर का उपयोग लिंग के रूप में उतना महत्वपूर्ण नहीं है)।

σ20.9σ20.92σ2n=0σ20.9n=10σ2

n10σ2n0.9


जवाब के लिए धन्यवाद! पहले बिंदु के बारे में, मुझे लगता है कि यह सच है, लेकिन मेरी बात यह थी कि इससे कोई फर्क नहीं पड़ता कि मानव आबादी का आकार क्या है क्योंकि आपके पास एक मजबूर कारक (डीएनए, आदि) है जो परिणामों को काफी समान बना देगा। कोई भी नमूना। दूसरे के बारे में, हालांकि: मैं खरीद सकता हूं कि व्यवहार में कुछ चर हो सकते हैं, लेकिन गणितीय रूप से उस धारणा को सही ठहराने और बाद में इसका उपयोग करने का एकमात्र तरीका वास्तव में बड़ी संख्या में लोगों को नमूना बनाना और इसे प्रदर्शित करना है, है ना? उसके बिना, यह निष्कर्ष अब सांख्यिकीय रूप से कठोर या उचित नहीं लगता है।
user541686

हमने प्रयोग द्वारा स्थापित किया है कि उम्र, लिंग, आय और कुछ अन्य लोगों के मतदान पैटर्न के प्रमुख कारक हैं और हम इसे सामान्य ज्ञान से भी जानते हैं। आप सही हैं कि सैकड़ों अन्य छोटे कारक हो सकते हैं जो वोटों को प्रभावित करते हैं और सिद्धांत रूप में वे कुछ महत्वपूर्ण जोड़ सकते हैं लेकिन हमारा सामान्य ज्ञान हमें बताता है कि वे महत्वहीन हैं। इस बिंदु पर मॉडल को कड़ाई से उचित नहीं ठहराया गया है, लेकिन कौन "जैसे गोरा होने से लोगों को क्लिंटन के लिए गोरा बना देता है? क्या एक विग पहनने से लोग ट्रम्प के लिए वोट करते हैं?"
ह्यूग

"लेकिन जो [...] जैसे मामूली कारकों का परीक्षण करने जा रहा है" - लेकिन यह यहाँ मुद्दा है। यदि उत्तर है "क्योंकि यह सबसे अच्छा है हम व्यावहारिक रूप से कर सकते हैं / क्योंकि यह सिर्फ इतना काम करने के लिए होता है / क्योंकि यह महंगा है अन्यथा / आदि।", "क्यों वे 100,000 लोगों को मतदान नहीं कर रहे हैं" के सवाल के लिए यह बिल्कुल ठीक जवाब है। ", लेकिन यह वास्तव में" कैसे 1,000 लोगों को सांख्यिकीय रूप से न्यायसंगत हो सकता है? "का जवाब नहीं है। इसलिए मैं इसे Stats.SE पर राजनीति के विरोध के रूप में पूछ रहा हूं। E ... अगर अधिक नमूने अव्यावहारिक हैं तो मुझे कोई फर्क नहीं पड़ता; मेरा सवाल यह है कि लोगों को लगता है कि मौजूदा तरीके सांख्यिकीय रूप से उचित हैं।
user541686

पिछले टिप्पणी में वाक्यों के पहले दो, हालांकि एक उचित जवाब होने लगते हैं तुम कह रहे हो कि अगर अध्ययन के उस तरह के एक बड़े पैमाने पर किया गया है (~ लाखों अगर लोगों की नहीं लाखों लोगों की) और कहा कि कि है हमारी मान्यताओं की नींव। यदि ऐसा है, तो मुझे लगता है कि उन्हें आपके उत्तर में जोड़ा जाना चाहिए क्योंकि वे मेरे प्रश्न के क्रूस को संबोधित करते हैं (आदर्श रूप से कुछ उद्धरणों के साथ, हालांकि मैं वास्तव में बहुत चुस्त नहीं हो सकता, क्योंकि यह बहुत पेचीदा है और यह राजनीति नहीं है। )।
user541686

आप सही हैं कि मामूली कारकों का परीक्षण अव्यावहारिक है लेकिन गणितीय रूप से प्रासंगिक है। मैंने अपने उत्तर को कुछ तर्क देने के लिए संपादित किया है कि हम परिणाम को प्रभावित करने वाले सैकड़ों छोटे कारकों के बारे में चिंतित क्यों नहीं हैं। मुझे यकीन है कि आप प्रमुख कारक के प्रभाव पर किए गए शोध पा सकते हैं।
ह्यूग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.