अब तक प्रदान किए गए सभी उत्तर सहायक हैं, लेकिन वे बहुत सांख्यिकीय रूप से सटीक नहीं हैं, इसलिए मैं उस पर एक शॉट लूंगा। इसी समय, मैं इस चुनाव पर ध्यान देने के बजाय एक सामान्य उत्तर देने जा रहा हूँ।
जब हम क्लिंटन चुनाव जीतने जैसी वास्तविक दुनिया की घटनाओं के बारे में सवालों के जवाब देने की कोशिश कर रहे हैं, तो ध्यान में रखने वाली पहली बात यह है कि विभिन्न रंगों की गेंदों को कलश से बाहर निकालने जैसी गणित की समस्याओं का विरोध किया जा रहा है, क्योंकि इसमें कोई 'नहीं है' टी सवाल का जवाब देने के लिए एक अनूठा उचित तरीका है, और इसलिए एक अद्वितीय उचित जवाब नहीं है। अगर कोई कहता है कि "हिलेरी के पास जीतने का 75% मौका है" और चुनाव के अपने मॉडल का वर्णन करने के लिए नहीं जाते हैं, तो वे जो डेटा बनाते थे, वे उनके अनुमानों, उनके मॉडल सत्यापन के परिणाम, उनकी पृष्ठभूमि की धारणाओं, चाहे वे लोकप्रिय वोट या चुनावी वोट इत्यादि का जिक्र करते हैं, तो उन्होंने वास्तव में आपको यह नहीं बताया कि उनका क्या मतलब है, यह जानने के लिए कि क्या उनकी भविष्यवाणी कोई अच्छी है, बहुत कम जानकारी दी गई है। इसके अलावा, यह नहीं है '
तो, क्लिंटन की संभावनाओं का अनुमान लगाने के लिए एक सांख्यिकीविद कुछ प्रक्रियाओं का क्या उपयोग कर सकता है? वास्तव में, वे इस समस्या को कैसे सुलझा सकते हैं? उच्च स्तर पर, प्रायिकता के विभिन्न विचार हैं, जिनमें से दो सबसे महत्वपूर्ण हैं, लगातारवादी और बायेसियन।
एक निरंतर दृष्टिकोण में, एक संभावना एक ही प्रयोग के कई स्वतंत्र परीक्षणों पर एक घटना की सीमित आवृत्ति का प्रतिनिधित्व करती है, जैसे कि बड़ी संख्या (मजबूत या कमजोर) के कानून में । भले ही कोई विशेष चुनाव एक अद्वितीय घटना है, लेकिन इसके परिणाम को ऐतिहासिक और काल्पनिक दोनों घटनाओं की एक अनंत आबादी से एक ड्रॉ के रूप में देखा जा सकता है, जिसमें सभी अमेरिकी राष्ट्रपति चुनाव, या 2016 में दुनिया भर के सभी चुनाव, या कुछ और शामिल हो सकते हैं। क्लिंटन की जीत का 75% मौका का मतलब है कि यदि स्वतंत्र चुनावों के परिणामों (0 या 1) का एक क्रम है जो इस चुनाव के पूरी तरह से बराबर हैं जहां तक हमारे मॉडल का सवाल है, तो नमूना मतलब है को .75 के रूप में प्रायिकता में परिवर्तित करता हैX1,X2,…X1,X2,…,Xnn अनंत तक जाता है।
एक बायेसियन दृश्य में, एक संभावना विश्वास या विश्वसनीयता की एक डिग्री का प्रतिनिधित्व करती है (जो वास्तविक विश्वास नहीं हो सकता है या नहीं, यह इस बात पर निर्भर करता है कि आप एक विषयवादी बायेसियन हैं)। एक क्लिंटन की जीत का 75% मौका का मतलब है कि यह 75% विश्वसनीय है जो वह जीतेगी। विश्वसनीयता, बदले में, संभावना के बुनियादी कानूनों (जैसे कि बेयस प्रमेय , और तथ्य यह है कि एक संयुक्त संभावना की सीमा से अधिक नहीं हो सकती है ) की बाधाओं के भीतर स्वतंत्र रूप से चुना जा सकता है (एक मॉडल या विश्लेषक की पूर्ववर्ती मान्यताओं के आधार पर) । घटक घटनाओं)। इन कानूनों को संक्षेप में प्रस्तुत करने का एक तरीका यह है कि यदि आप किसी घटना के परिणाम पर दांव लगाते हैं, तो अपनी विश्वसनीयता के अनुसार जुआ खेलने वालों को ऑडिशन देते हैं, तो कोई जुआरी डच पुस्तक का निर्माण नहीं कर सकता हैआपके खिलाफ, यानी, दांव का एक सेट जो आपको गारंटी देता है कि पैसा खो जाएगा कोई फर्क नहीं पड़ता कि घटना वास्तव में कैसे काम करती है।
चाहे आप एक प्रायोजक या बायेसियन की संभावना पर विचार करते हैं, डेटा का विश्लेषण करने और संभाव्यता का अनुमान लगाने के बारे में अभी भी बहुत सारे निर्णय किए जाने हैं। संभवतः सबसे लोकप्रिय तरीका पैरामीट्रिक रिग्रेशन मॉडल पर आधारित है, जैसे लीनियर रिग्रेशन। इस सेटिंग में, विश्लेषक वितरण के एक पैरामीट्रिक परिवार को चुनता है (यानी, संभावना के उपाय ) जो कि पैरामीटर नामक संख्याओं के एक वेक्टर द्वारा अनुक्रमित होता है। प्रत्येक परिणाम इस वितरण से तैयार एक स्वतंत्र यादृच्छिक चर है, जो कोवरिएट्स के अनुसार रूपांतरित होता है, जो ज्ञात मान (जैसे कि बेरोजगारी दर) है जो विश्लेषक परिणाम का अनुमान लगाने के लिए उपयोग करना चाहते हैं। विश्लेषक डेटा का उपयोग करके पैरामीटर मानों के अनुमान का चयन करता है और मॉडल की एक कसौटी जैसे कम से कम वर्गया अधिकतम संभावना । इन अनुमानों का उपयोग करते हुए, मॉडल कोविरेट्स के किसी भी मूल्य के लिए परिणाम की भविष्यवाणी (संभवतः सिर्फ एक मूल्य, संभवतः एक अंतराल या मूल्यों का अन्य सेट) का उत्पादन कर सकता है। विशेष रूप से, यह एक चुनाव के परिणाम की भविष्यवाणी कर सकता है। पैरामीट्रिक मॉडल के अलावा, गैर-पैरामीट्रिक मॉडल हैं (अर्थात, वितरण के एक परिवार द्वारा परिभाषित मॉडल जो एक असीम रूप से लंबे पैरामीटर वेक्टर के साथ अनुक्रमित होते हैं), और पूर्वानुमानित मूल्यों पर निर्णय लेने के तरीके भी हैं, जिसमें कोई भी मॉडल का उपयोग नहीं किया जाता है जिससे डेटा बिल्कुल उत्पन्न होता है। , जैसे निकटतम पड़ोसी क्लासिफायर और यादृच्छिक वन ।
भविष्यवाणियों के साथ आना एक बात है, लेकिन आप कैसे जानते हैं कि वे किसी भी अच्छे हैं? आखिरकार, पर्याप्त रूप से गलत अनुमान बेकार से भी बदतर हैं। परीक्षण की भविष्यवाणी मॉडल सत्यापन के बड़े अभ्यास का एक हिस्सा है, अर्थात्, दिए गए मॉडल के लिए दिए गए उद्देश्य के लिए कितना अच्छा है। भविष्यवाणियों को मान्य करने के दो लोकप्रिय तरीके हैं क्रॉस-मान्यता और किसी भी मॉडल को फिट करने से पहले डेटा को प्रशिक्षण और परीक्षण में विभाजित करना। इस हद तक कि डेटा में शामिल चुनाव 2016 के अमेरिकी राष्ट्रपति चुनाव के प्रतिनिधि हैं, हम जो पूर्वानुमान लगाते हैं, उससे हमें होने वाली भविष्यवाणी की सटीकता का अनुमान हमें सूचित करेगा कि हमारी भविष्यवाणी 2016 के अमेरिकी राष्ट्रपति चुनाव के लिए कितनी सही होगी।