हम नैट सिल्वर की भविष्यवाणियों की सटीकता का न्याय कैसे कर सकते हैं?


19

सबसे पहले, वह परिणामों की संभावना देता है। इसलिए, उदाहरण के लिए, उसका अमेरिकी चुनाव के लिए भविष्यवाणी वर्तमान में 82% क्लिंटन बनाम 18% ट्रम्प है।

अब, भले ही ट्रम्प जीत जाए, मुझे कैसे पता चलेगा कि यह उस जीत का सिर्फ 18% हिस्सा नहीं था?

दूसरी समस्या यह है कि समय के साथ उसकी संभावनाएँ बदल जाती हैं। इसलिए 31 जुलाई को, यह ट्रम्प और क्लिंटन के बीच लगभग 50-50 था।

मेरा प्रश्न यह है कि यह देखते हुए कि एक ही भविष्य की घटना के लिए हर दिन एक अलग संभावना है उसी परिणाम के साथ, मैं कैसे माप सकता हूं कि वह उस दिन के लिए उपलब्ध जानकारी के आधार पर प्रत्येक भविष्यवाणी के लिए कितना सही था?


1
मुझे शक है कि हम नहीं कर सकते। इस तरह के मूल्यांकन के लिए एक स्वर्ण-मानक की आवश्यकता होती है, और हमारे पास सबसे अच्छा केवल पिछले चुनावों से प्राप्त अवलोकन हैं जिनकी तुलना करना कठिन है (क्योंकि हर चुनाव में नमूने और मतदाताओं के व्यवहार के वैकल्पिक तरीके शामिल होंगे)। लेकिन मैं चुनाव सर्वेक्षण में कोई विशेषज्ञ नहीं हूं, इसलिए मैं इसे एक टिप्पणी के रूप में छोड़ रहा हूं और जवाब नहीं :)
Tal Galili

2
@ टालगिली: हम स्कोरिंग नियमों का उपयोग करते हुए कम से कम कुछ कह सकते हैं - जैसे, उदाहरण के लिए, हम बिना सोचे समझे मापदंडों के बारे में कुछ कह सकते हैं जिसका हम अनुमानों में अनुमान लगाते हैं।
एस। कोलासा - मोनिका

यह शायद एक "स्कोरिंग नियम" है, लेकिन, एन घटनाओं के लिए, उन घटनाओं के लिए उसकी संभावना को गुणा करें और औसत जड़ दर पूर्वानुमान प्राप्त करने के लिए एनटी रूट लें (हम मानते हैं कि वह कभी भी 0% पूर्वानुमान नहीं करता है)। आप प्रत्येक दैनिक संभावना को एक अलग भविष्यवाणी के रूप में मान सकते हैं।
बैरीकेटर

समय के साथ संभावनाएं क्यों नहीं बदल सकती हैं? जब भी कोई गोल किया जाता है या होम रन हिट होता है, तो एक स्पोर्ट्स इवेंट में, बदलाव नहीं आता है?
रॉड्रिगो डे अजेवेदो

8
सिल्वर का मॉडल सिर्फ एक प्रायिकता अनुमान से बहुत अधिक देता है - यह अनुमानित जीत मार्जिन देता है, जो कि 50 राज्यों में से प्रत्येक के लिए जीत संभावनाओं और जीत मार्जिन से प्राप्त होता है। तो यह 50 अलग-अलग मापों के लिए एक बिंदु अनुमान और त्रुटि मार्जिन दे रहा है (कुछ के साथ - शायद उच्च - उनके बीच सहसंबंध की डिग्री), न केवल एक द्विआधारी परिणाम की भविष्यवाणी।
मीका

जवाबों:


14

संभाव्य पूर्वानुमान (या, जैसा कि वे भी जानते हैं, घनत्व पूर्वानुमान) का मूल्यांकन का उपयोग करके किया जा सकता , अर्थात, ऐसे कार्य जो घनत्व पूर्वानुमान का मानचित्रण करते हैं और तथाकथित स्कोर के लिए एक मनाया परिणाम होता है, जो घनत्व पूर्वानुमान होने पर उम्मीद में कम से कम होता है। वास्तव में पूर्वानुमान होने का सही घनत्व है। उचित स्कोरिंग नियम स्कोरिंग नियम हैं जो केवल वास्तविक भविष्य के घनत्व से अपेक्षा में कम से कम होते हैं ।

संभावित मौसम संबंधी पूर्वानुमान के संदर्भ में बायर (1950, मासिक मौसम की समीक्षा ) से शुरू होने वाले ऐसे कई उचित स्कोरिंग नियम उपलब्ध हैं । Czado एट अल। (2009, बॉयोमीट्रिक्स ) असतत मामले के लिए और अधिक हाल का अवलोकन देते हैं। Gneiting & Katzfuss (2014, सांख्यिकी की वार्षिक समीक्षा और इसके आवेदन ) सामान्य रूप में संभाव्य पूर्वानुमान का अवलोकन देते हैं - विशेष रूप से Gainiting उचित स्कोरिंग नियमों के कारण को आगे बढ़ाने में बहुत सक्रिय रहा है।

हालांकि, स्कोरिंग नियमों की व्याख्या करना थोड़ा कठिन है, और वे वास्तव में केवल कई संभावित पूर्वानुमानों की तुलना करने में मदद करते हैं - कम स्कोर वाला एक बेहतर है। नमूना भिन्नता तक, यानी, इसलिए हमेशा बहुत कुछ करना बेहतर होता है मूल्यांकन करने के लिए अधिक पूर्वानुमान , जिनके स्कोर हम औसत करेंगे।

सिल्वर या अन्य के पूर्वानुमानों के "अपडेट" को कैसे शामिल किया जाए यह एक अच्छा सवाल है। हम एक ही समय में विभिन्न पूर्वानुमानों के "स्नैपशॉट्स" की तुलना करने के लिए स्कोरिंग नियमों का उपयोग कर सकते हैं, या हम समय के साथ चांदी के संभावित पूर्वानुमानों को भी देख सकते हैं और प्रत्येक समय बिंदु पर स्कोर की गणना कर सकते हैं। एक उम्मीद करता है कि स्कोर कम और कम हो जाएगा (यानी, घनत्व का पूर्वानुमान बेहतर और बेहतर हो जाता है) वास्तविक परिणाम करीब है।


5
इसे कहने का एक और तरीका: एक अद्वितीय घटना की व्यक्तिगत पूर्वानुमानित संभावना का अकेले मूल्यांकन नहीं किया जा सकता है, लेकिन पूर्वानुमान का मूल्यांकन किया जा सकता है (स्कोर कार्यों द्वारा)।
kjetil b halvorsen

1
"उम्मीद में कम से कम" के लिए, मुझे लगता है कि मुख्य मुद्दा क्या पहनावा पर उम्मीद है? क्या हम नैट सिल्वर की सभी भविष्यवाणियां करते हैं? केवल राष्ट्रपति चुनावों पर? मुझे नहीं पता कि यहां एक भी उत्तर है। विभिन्न पूर्वानुमानों की तुलना करने के लिए, घटनाओं के किसी भी सामान्य सेट पर पूर्वानुमान उचित हो सकते हैं।
20M पर जियोमैट 22

@ GeoMatt22 - उनके पास अन्य चुनावों के लिए समान रूप से पद्धति है, इसलिए यह सभी चुनावी भविष्यवाणियों को पूरा करने के लिए मान्य हो सकता है
DVK

11

नैट सिल्वर की पुस्तक द सिग्नल एंड द नॉइज़ में वे निम्नलिखित लिखते हैं, जो आपके प्रश्न के लिए कुछ अंतर्दृष्टि प्रदान कर सकते हैं:

पूर्वानुमान के सबसे महत्वपूर्ण परीक्षणों में से एक - मेरा तर्क है कि यह एकल सबसे महत्वपूर्ण है - अंशांकन कहा जाता है। हर समय आपने कहा कि बारिश की 40% संभावना थी, वास्तव में बारिश कितनी बार हुई? यदि, लंबे समय तक, यह वास्तव में बारिश का लगभग 40% था, इसका मतलब है कि आपके पूर्वानुमान अच्छी तरह से कैलिब्रेट किए गए थे। यदि इसके बजाय यह केवल 20 प्रतिशत समय या 60 प्रतिशत समय तक बारिश हो रही है, तो वे नहीं थे।

तो यह कुछ बिंदुओं को उठाता है। सबसे पहले, जैसा कि आप सही ढंग से इंगित करते हैं, आप वास्तव में किसी भी पूर्वानुमान की गुणवत्ता के बारे में कोई अनुमान नहीं लगा सकते हैं जो कि आप पूर्वानुमान लगा रहे हैं। सबसे अच्छा आप यह देख सकते हैं कि आपका मॉडल कई भविष्यवाणियों के दौरान कैसा प्रदर्शन करता है।

एक और बात जो सोचना महत्वपूर्ण है, वह यह है कि नैट सिल्वर प्रदान करने वाली भविष्यवाणियां स्वयं एक घटना नहीं हैं, लेकिन घटना की संभावना वितरण। इसलिए राष्ट्रपति पद की दौड़ में, वह क्लिंटन, ट्रम्प या जॉनसन के दौड़ जीतने की संभावना वितरण का अनुमान लगा रहे हैं। तो इस मामले में वह एक बहुराष्ट्रीय वितरण का अनुमान लगा रहा है।

लेकिन वह वास्तव में अधिक दानेदार स्तर पर दौड़ की भविष्यवाणी कर रहा है। उनकी भविष्यवाणियां अनुमान लगाती हैं कि प्रत्येक राज्य में प्रत्येक उम्मीदवार के मतों के प्रतिशत की संभाव्यता वितरण होगा। इसलिए यदि हम 3 उम्मीदवारों पर विचार करते हैं, तो इसकी लंबाई 51 * 3 के यादृच्छिक वेक्टर की विशेषता हो सकती है और अंतराल [0, 1] में मान ले सकते हैं, जो एक राज्य के अनुपात में 1 के अनुपात के लिए बाधा के अधीन है। संख्या ५१ इसलिए है क्योंकि अन्य ५० राज्यों + डीसी हैं (और वास्तव में मुझे लगता है कि यह वास्तव में कुछ और है क्योंकि कुछ राज्य अपने चुनावी कॉलेज वोटों को विभाजित कर सकते हैं), और संख्या ३ उम्मीदवारों की संख्या के कारण है।

अब आपके पास अपनी भविष्यवाणियों का मूल्यांकन करने के लिए बहुत अधिक डेटा नहीं है - वह केवल पिछले 3 चुनावों के लिए भविष्यवाणियां प्रदान करता है, जिनके बारे में मुझे पता है (क्या वहां अधिक था?)। इसलिए मुझे नहीं लगता कि उसके मॉडल का निष्पक्ष मूल्यांकन करने का कोई तरीका है, जब तक कि वास्तव में आपके पास मॉडल नहीं था और नकली डेटा का उपयोग करके इसका मूल्यांकन कर सकता था। लेकिन अभी भी कुछ दिलचस्प चीजें हैं जिन्हें आप देख सकते हैं। उदाहरण के लिए, मुझे लगता है कि यह देखना दिलचस्प होगा कि उन्होंने एक विशेष समय बिंदु पर राज्य-दर-राज्य मतदान अनुपात का सटीक अनुमान लगाया, उदाहरण के लिए चुनाव से एक सप्ताह पहले। यदि आप इसे कई समय बिंदुओं के लिए दोहराते हैं, जैसे एक सप्ताह बाहर, एक महीना बाहर, 6 महीने और एक साल बाहर, तो आप उसकी भविष्यवाणियों के लिए कुछ बहुत ही रोचक प्रदर्शनी दे सकते हैं। एक महत्वपूर्ण चेतावनी: चुनाव के दौरान राज्यों में परिणाम बहुत अधिक सहसंबद्ध होते हैं, इसलिए आप वास्तव में यह नहीं कह सकते हैं कि आपके पास 51 राज्य * 3 चुनाव स्वतंत्र भविष्यवाणी उदाहरण हैं (अर्थात यदि मॉडल एक राज्य में उम्मीदवारों के प्रदर्शन को कम आंकता है, तो यह अन्य राज्यों में भी कम हो जाएगा) । लेकिन शायद मैं इसे इस तरह से भी सोचूंगा, ताकि आपके पास कुछ भी सार्थक करने के लिए पर्याप्त डेटा हो।


4

किसी भी एक भविष्यवाणी के लिए, आप किसी भी अधिक से अधिक हम यह नहीं बता सकते हैं कि क्या यह दावा "इस सिक्के के सिर आने का 60% मौका है" एकल टॉस से सही होने के करीब है।

हालाँकि, आप कई भविष्यवाणियों में उनकी कार्यप्रणाली का आकलन कर सकते हैं - किसी दिए गए चुनाव के लिए वह बहुत सारी भविष्यवाणियाँ करता है, न केवल समग्र रूप से राष्ट्रपति पद की दौड़ बल्कि राष्ट्रपति और अन्य कई जातियों (घर, सीनेट, भूतल स्मारक) के लिए वोट से संबंधित कई भविष्यवाणियाँ और इसी तरह), और वह समय के साथ व्यापक रूप से समान कार्यप्रणाली का उपयोग करता है।

इस मूल्यांकन को करने के कई तरीके हैं (कुछ काफी परिष्कृत), लेकिन हम इसके बारे में कुछ समझ पाने के लिए कुछ सरल तरीकों पर गौर कर सकते हैं। उदाहरण के लिए, आप उदाहरणार्थ (50-55%, 55-65% और इसी तरह) के बैंड में एक जीत की संभावना के पूर्वानुमानों को विभाजित कर सकते हैं और फिर देख सकते हैं कि उस बैंड में भविष्यवाणियों का क्या अनुपात आया; 50-55% भविष्यवाणियों के अनुपात में काम किया जहां 50-55% के बीच कहीं होना चाहिए, यह इस बात पर निर्भर करता है कि औसत कहाँ था (प्लस यादृच्छिक भिन्नता के लिए एक मार्जिन *)।

तो उस दृष्टिकोण (या अन्य विभिन्न तरीकों) से आप देख सकते हैं कि परिणामों का वितरण एक चुनाव के दौरान, या कई चुनावों में पूर्वानुमानों के अनुरूप था (यदि मुझे सही याद है, तो मुझे लगता है कि उनकी भविष्यवाणियां अक्सर उनके मुकाबले सही होनी चाहिए थीं) , जो सुझाव देता है कि उनकी मानक त्रुटियां औसत से थोड़ी अधिक हैं)।

* हमें इस बारे में सावधान रहना होगा कि इसका आकलन कैसे किया जाए, हालांकि अनुमान स्वतंत्र नहीं हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.