एक संदर्भ आबादी को देखते हुए, सफलता की संभावना का अनुमान लगाना

मान लें कि आपके पास निम्न स्थिति है:

आपने समय के साथ 1000 गेंदबाजी खिलाड़ियों का अवलोकन किया, जिनमें से प्रत्येक ने अपेक्षाकृत कम संख्या में खेल खेले (1 से 20 कहते हैं)। आपने उन खिलाड़ियों में से प्रत्येक के लिए स्ट्राइक प्रतिशत का उल्लेख किया है, जिनमें से प्रत्येक खिलाड़ी ने जितने गेम खेले हैं।

एक नया गेंदबाजी खिलाड़ी आता है और 10 गेम खेलता है और 3 स्ट्राइक पाता है।

किसी भी खिलाड़ी के लिए स्ट्राइक की संख्या के लिए वितरण को द्विपद माना जाता है।

मैं उस खिलाड़ी के लिए सफलता की "सत्य" संभावना का अनुमान लगाना चाहता हूं।

कृपया निम्नलिखित पर ध्यान दें:

यह कोई वास्तविक स्थिति या स्कूल की समस्या नहीं है, बस एक आत्म-विचार समस्या है।
मैं एक स्टैटस 101 कोर्स की तुलना में थोड़ा अधिक सांख्यिकी शिक्षा वाला छात्र हूं। मैं अधिकतम संभावना अनुमान जैसे अनुमान के बारे में थोड़ा जानता हूं ... इसलिए मुझे उन आंकड़ों में क्षेत्र बताने के लिए स्वतंत्र महसूस करें जिनके बारे में मुझे पढ़ना चाहिए।
मेरी समस्या में जानकारी की कमी हो सकती है, या यदि यह कहना फायदेमंद होगा, तो सफलता की संभावना का वितरण लगभग सामान्य होने के लिए, कृपया मुझे बताएं।

आपका बहुत बहुत धन्यवाद

binomial inference

— Uwat
स्रोत

आपको क्या लगता है कि इस खिलाड़ी की संभावना और अन्य 1000 खिलाड़ियों में से प्रत्येक के लिए संभावना के बीच संबंध है? दूसरे शब्दों में, हम इस खिलाड़ी की संभावना का अनुमान लगाने में अन्य 1000 पर विचार क्यों करेंगे?

— रोलैंडो 2

मैं यह मान रहा हूं कि खिलाड़ी का असली स्ट्राइक प्रतिशत अनिवार्य रूप से 1000 अन्य खिलाड़ियों के समान स्ट्राइक प्रतिशत के समान वितरण का एहसास है। दूसरे शब्दों में, उस नए खिलाड़ी के बारे में कुछ खास नहीं है, वह सिर्फ एक यादृच्छिक खिलाड़ी है। उम्मीद है कि समझ में आता है।

— उवत

यह लगातार और बेइज़ियन दृष्टिकोण के बीच अंतर को स्पष्ट करने के लिए एक महान उदाहरण है।

मेरी पहली, सरलीकृत लगातार प्रतिक्रिया: यदि आपने पहले ही हड़तालों के वितरण को मान लिया है तो द्विपद है तो आपको अन्य 1000 खिलाड़ियों के बारे में कुछ भी जानने की आवश्यकता नहीं है (इसके अलावा शायद आप उनका उपयोग अपनी द्विपद धारणा की जांच करने के लिए कर सकते हैं)।

एक बार जब आपके पास द्विपद धारणा स्पष्ट है, तो आपका अनुमान बहुत सीधा है: 3/10। इस अनुमान का विचरण सामान्य p (1-p) / n = 0.021 है।

मूल रूप से, 1000 अन्य खिलाड़ी अप्रासंगिक हैं जब तक आपको नहीं लगता कि हड़ताल के वितरण के बारे में कुछ दिलचस्प और गैर द्विपद है (जैसे लोग बेहतर खेलते हैं क्योंकि वे अधिक खेल खेलते हैं)।

इसे देखने का एक अधिक माना जाने वाला बेयसियन तरीका: वैकल्पिक रूप से, यदि आप अन्य खिलाड़ियों से प्राप्त पूर्व ज्ञान को लागू करने में रुचि रखते हैं और आपको लगता है कि नया खिलाड़ी मूल रूप से उसी आबादी का एक नया नमूना है, तो आपको बेसेसियन में सोचना चाहिए शर्तें ।

खिलाड़ियों के पूर्व वितरण का अनुमान लगाएं। ऐसा करने के लिए, आपको अपने 1000 डेटा बिंदुओं को देखने की आवश्यकता है - वे 1000 खिलाड़ी जो पहले ही देखे जा चुके हैं, जिनमें से प्रत्येक के लिए आपके पास हड़ताल की संभावना का अनुमान है। इन 1000 बिंदुओं में से प्रत्येक 21 मानों में से केवल एक को ले सकता है (शून्य से बीस स्ट्राइक बीस में से) और आप पूरे क्षेत्र पर एक वितरण देखेंगे। यदि आप इन अंकों को अनुपात (अर्थात शून्य और एक के बीच) में परिवर्तित करते हैं, तो यह वितरण संभवतः बीटा वितरण के साथ यादृच्छिक चर की संभाव्यता वितरण द्वारा यथोचित रूप से अनुमानित किया जा सकता है।। एक बीटा वितरण पूरी तरह से सिर्फ दो मापदंडों की विशेषता है - हमें एक और बी कहते हैं - लेकिन क्योंकि ये पैरामीटर वास्तव में उस वितरण के साथ नहीं हैं जो आपने हमसे पूछा है (किसी विशेष खिलाड़ी की हड़ताल की संभावना) लेकिन एक उच्च स्तर का वितरण उन्हें हाइपरपरमेटर्स कहते हैं। आप अपने 1000 डेटा बिंदुओं में से इन हाइपरपैरामीटर के अनुमानों को कई तरीकों से विकसित कर सकते हैं जो आपके प्रश्न के मुख्य बिंदु के लिए वास्तव में प्रासंगिक नहीं हैं।

इससे पहले कि आपके पास अपने खिलाड़ी के बारे में कोई भी जानकारी हो, स्ट्राइक स्कोर करने के उसके अनुपात के अनुसार आपका सबसे अच्छा अनुमान है (इसे पी कहते हैं) उस बीटा वितरण से हम अभी तक फिट किए गए पी से सबसे अधिक संभावित मूल्य होंगे।

हालांकि, हमारे पास हमारे अपने खिलाड़ी का डेटा है, न कि केवल सामान्य आबादी का! भगवान में हम भरोसा करते हैं, अन्य सभी को डेटा लाना होगा (यदि मुझे यह याद है कि मुझे यह कहां मिला, तो क्षमा करें) मैं इस उद्धरण को विशेषता दूँगा। हर बार जब हम देखते हैं कि हमारा खिलाड़ी कोई खेल खेलता है और उसे स्ट्राइक मिलती है या नहीं, तो उसके अनुपात का अनुमान लगाने के लिए हमारे पास एक नई जानकारी होती है।

एक अनुपात के लिए संभाव्यता वितरण के रूप में बीटा वितरण के बारे में एक साफ बात यह है कि जैसे हम डेटा से नई जानकारी एकत्र करते हैं और अनुपात का एक नया, बेहतर अनुमान बनाते हैं, संभावना सिद्धांत दिखा सकता है कि नया, बेहतर अनुमान भी एक बीटा है वितरण - बस एक और अधिक केंद्रित संस्करण। इसका कारण यह है कि बीटा वितरण वह है जिसे द्विपद मॉडल के बारे में अनुमान लगाने की कोशिश करने से पहले एक संयुग्म के रूप में संदर्भित किया जाता है ।

यही है, अगर हम n सफल घटनाओं (इस मामले में हमले के साथ खेल) से बाहर का निरीक्षण करते हैं; और पूर्व वितरण बीटा (ए, बी) था; पीछे का वितरण (मूल 1000 डेटा बिंदुओं को देखते हुए और दस खेलों के नए अवलोकन हैं) की संभावना वितरण का अनुमान है बीटा (a + z, b + nz) या (हमारे मामले में) बीटा (a + 3,) बी + 7)। जैसा कि आप देख सकते हैं, जितने अधिक डेटा आपको कम महत्वपूर्ण मिलते हैं और बी हैं। इसका गणित यथोचित सीधा और कई ग्रंथों में है लेकिन उतना दिलचस्प नहीं है (मेरे लिए, वैसे भी)।

यदि आपके पास R है, तो आप नीचे दिए गए कोड को चलाकर एक उदाहरण देख सकते हैं (और यदि आपके पास R नहीं है, तो आपको इसे प्राप्त करना चाहिए - यह मुफ़्त है और इस तरह की समस्या के माध्यम से सोचने में मदद करने के लिए बहुत बढ़िया है)। यह मानता है कि खिलाड़ियों के पूर्व वितरण को बीटा (2,5) द्वारा मॉडल किया जा सकता है - यह सिर्फ मेरे द्वारा बनाया गया था। वास्तव में, ऐसे तरीके हैं जिनसे आप अनुमान लगा सकते हैं कि a और b के लिए सिर्फ 2 और 5 से बेहतर होगा क्योंकि मुझे लगता है कि वक्र ठीक है।

जैसा कि आप देखेंगे कि यदि आप इस शैलीगत उदाहरण को चलाते हैं, तो खिलाड़ी के स्ट्राइक स्कोर करने की संभावना का अनुमान, बीटा (2,5) के पूर्व वितरण को देखते हुए, 0.30 के बजाय 0.29 है। इसके अलावा, हम एक विश्वसनीयता अंतराल बना सकते हैं, जो आत्मविश्वास से अंतराल की तुलना में स्पष्ट रूप से अधिक सहज और आसान है (क्रॉसवि अमान्य सहित दोनों के बीच अंतर पर इंटरनेट पर कई सवाल और चर्चा देखें)।

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

फिर अपने नए खिलाड़ी का निरीक्षण करें; और नए खिलाड़ी के लिए एक नया पीछे वितरण की गणना करें। प्रभावी रूप से यह कहता है "दिया गया है जो हमने अभी देखा है, जहां खिलाड़ियों के वितरण में हमें लगता है कि यह व्यक्ति सबसे अधिक होने की संभावना है?"

— पीटर एलिस
स्रोत

मुझे नहीं लगता कि यह सही है। मान लीजिए कि 1000 लोगों में से अधिकांश लोगों (99%) के पास स्ट्राइक प्रतिशत 5% से 15% के बीच है और मुट्ठी भर लोगों के पास स्ट्राइक प्रतिशत 25% से अधिक है। तब मैं यह तर्क दूंगा कि यह अधिक संभावना है कि जिस नए खिलाड़ी को हमने देखा है उसकी वास्तविक स्ट्राइक प्रतिशत 30% से कम हो, लेकिन बस "भाग्यशाली" हो गया।

— उवत

ठीक है, अच्छा बिंदु - मैंने इस स्थिति को ध्यान में रखते हुए एक संपादन जोड़ा है। मूल रूप से आपके पास बायेसियन इंफ़ेक्शन समस्या का एक अच्छा बयान है।

— पीटर एलिस

@Peter - सभी अच्छी तरह से तर्क दिया।

— rolando2

आपके उत्तर के लिए धन्यवाद। हालाँकि, मुझे यह बिल्कुल समझ में नहीं आया कि आपका क्या मतलब है: "आपको व्यक्तियों की स्ट्राइक दरों के वास्तविक वितरण की आवश्यकता है जो शायद किसी तरह का बीटा होगा" क्या आप कृपया थोड़ा स्पष्ट कर सकते हैं? धन्यवाद

— Uwat

धन्यवाद, वास्तव में अच्छा सवाल है, मैंने जवाब में अपने जवाब का विस्तार किया है।

— पीटर एलिस