बल्लेबाजों को आउट करते हुए मॉडलिंग क्रिकेट गेंदबाज


9

मेरे पास बड़ी संख्या में क्रिकेट गेम (कुछ हजार) का विवरण देने वाला डेटा सेट है। क्रिकेट में "गेंदबाज" बार-बार "बल्लेबाजों" के उत्तराधिकार में एक गेंद फेंकते हैं। गेंदबाज बल्लेबाज को "आउट" करने की कोशिश कर रहा है। इस संबंध में यह बेसबॉल में पिचर्स और बल्लेबाजों के समान है।

यदि मैंने संपूर्ण डेटासेट लिया और कुल गेंदों की संख्या को विभाजित किया, जिसमें एक गेंदबाज को कुल गेंदों की संख्या से बाहर किया गया, तो मैं देख सकता हूं कि मेरे पास एक गेंदबाज को आउट होने की औसत संभावना होगी - यह लगभग 0.03 होगा। उम्मीद है कि मैं पहले से ही गलत नहीं हुआ?

मुझे जिस चीज में दिलचस्पी है, वह है कि मैं क्या करूं और अगली गेंद पर एक विशिष्ट गेंदबाज द्वारा फेंके जा रहे एक विशिष्ट बल्लेबाज की संभावना की गणना कर सकता हूं।

डेटासेट काफी बड़ा है कि किसी भी गेंदबाज ने हजारों गेंदें फेंकी होंगी। इसलिए मेरा मानना ​​है कि मैं केवल उस गेंदबाज की बाहरी संख्या को विभाजित कर सकता हूं, जो अगली गेंद से आउट होने वाले उस विशिष्ट गेंदबाज के लिए एक नई संभावना की गणना करने के लिए उसने जितनी गेंदें फेंकी हैं।

मेरी समस्या यह है कि डेटासेट इस बात की गारंटी देने के लिए पर्याप्त नहीं है कि किसी दिए गए गेंदबाज ने किसी भी निश्चित बल्लेबाज की एक महत्वपूर्ण संख्या में गेंद फेंकी है। इसलिए अगर मैं एक विशिष्ट गेंदबाज का सामना कर रहे एक विशिष्ट गेंदबाज के लिए आउट की संभावना की गणना करने में दिलचस्पी रखता हूं तो मुझे नहीं लगता कि यह समान सरलीकृत तरीके से नहीं किया जा सकता है।

मेरा प्रश्न यह है कि क्या निम्नलिखित दृष्टिकोण मान्य है:

  • पूरे डेटासेट के उस पार एक बॉल निकलने की संभावना 0.03 है।

  • अगर मैं गणना करता हूं कि औसत गेंदबाज ए पर 0.06 से बाहर होने की संभावना है (यानी औसत गेंदबाज की तुलना में दोगुना),

  • और औसत बल्लेबाज B पर 0.01 से बाहर होने की संभावना थी (एक औसत बल्लेबाज के रूप में तीसरा),

  • क्या फिर उस विशिष्ट बल्लेबाज की अगली गेंद पर उस विशिष्ट गेंदबाज को 0.06 * (0.01 / 0.03) = 0.02 होने की संभावना कहना वैध होगा?


अगर गेंदबाज बार-बार गेंद फेंकने का फैसला करता है , तो वे जल्दी ही खुद को खेल में फिर से गेंदबाजी करने से हटा पाएंगे।
Glen_b -Reinstate मोनिका

जवाबों:


2

यदि मैंने संपूर्ण डेटासेट लिया और कुल गेंदों को विभाजित किया, जिसमें एक गेंदबाज को कुल गेंदों की संख्या से बाहर किया गया, तो मैं देख सकता हूं कि मुझे एक गेंदबाज के आउट होने की औसत संभावना होगी - यह लगभग 0.03 होगा (उम्मीद है कि मैं पहले से ही गलत नहीं हुआ है?

दुर्भाग्य से, यह शायद पहले से ही वैसा नहीं है जैसा आप देख रहे हैं।

मान लीजिए कि हमारे पास एक एकल गेंदबाज और दो बल्लेबाज हैं: डॉन ब्रैडमैन और मैं। (मैं क्रिकेट के बारे में बहुत कम जानता हूं, इसलिए अगर मैं यहां से हटकर कुछ कर रहा हूं तो मुझे बताएं।) खेल कुछ इस तरह हैं:

  • डॉन बल्लेबाजी करने के लिए जाता है, और 99 वें गेंद पर आउट होता है।
  • मैं बल्लेबाजी करने जाता हूं, और तुरंत आउट हो जाता हूं।
  • डॉन बल्लेबाजी करने के लिए जाता है, और 99 वें गेंद पर आउट होता है।
  • मैं बल्लेबाजी करने जाता हूं, और तुरंत आउट हो जाता हूं।

इस मामले में, 200 कटोरे में से चार बाहरी हैं, इसलिए एक गेंदबाज को आउट करने की मामूली संभावना 4/200 = 2% है। लेकिन वास्तव में, डॉन के बाहर होने की संभावना 1% की तरह अधिक है, जबकि मेरा 100% है। इसलिए यदि आप यादृच्छिक रूप से एक बल्लेबाज और एक गेंदबाज चुनते हैं, तो इस गेंदबाज को इस बार बाहर होने की संभावना अधिक है (50% मौका आपने डॉन को चुना) * (1% मौका वह बाहर निकल जाता है) + (50% मौका आपने उठाया) मुझे) * (100% मौका मिलता है) = 50.05%। लेकिन अगर आप यादृच्छिक रूप से एक पिच चुनते हैं , तो यह 2% संभावना है कि वह बाहर निकल जाए। इसलिए आपको ध्यान से सोचने की जरूरत है कि आप उन नमूनों में से किस मॉडल के बारे में सोच रहे हैं।


वैसे भी, आपका प्रस्ताव पागल नहीं है। अधिक प्रतीकात्मक रूप से, गेंदबाज हो सकता है और बल्लेबाज ; चलो संभावना है कि हो सकता है हो जाता है बाहर। फिर आप कह रहे हैं:bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

इसके पास वांछित संपत्ति है: यदि आप केवल या से अधिक साधन लेते हैं तो यह समान रूप से संगत है ।

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

ध्यान दें कि इस मामले में हम असाइन कर सकते हैं आपकी धारणा यह है कि आप डेटा से और यथोचित अवलोकन कर सकते हैं । जब तक (ए) आपके पास पर्याप्त गेम हैं [जो आप करते हैं] और (बी) खिलाड़ी सभी समान रूप से समान आवृत्तियों के साथ एक दूसरे को खेलते हैं, तो यह ठीक है।

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

थोड़ा (बी) पर विस्तार से: कल्पना करें कि आपके पास पेशेवर खेलों के एक समूह और मेरे दोस्तों के साथ खेलने वाले खेलों का एक समूह है। यदि कोई ओवरलैप नहीं है, तो शायद मैं अपने दोस्तों की तुलना में बहुत अच्छा दिखता हूं, इसलिए शायद आपको लगता है कि मैं सबसे खराब पेशेवर खिलाड़ी से बहुत बेहतर हूं। यह स्पष्ट रूप से गलत है, लेकिन आपके पास इसका खंडन करने के लिए कोई डेटा नहीं है। यदि आपके पास थोड़ा ओवरलैप है, जहां मैंने एक पेशेवर खिलाड़ी के खिलाफ एक बार खेला और नष्ट हो गया, तो डेटा मुझे और मेरे दोस्तों को सभी तरह से पेशेवरों की तुलना में बदतर रैंकिंग का समर्थन करता है, लेकिन आपका तरीका इसके लिए जिम्मेदार नहीं होगा। तकनीकी रूप से, यहाँ समस्या यह है कि आप मान रहे हैं कि आपके पास उदाहरण के लिए एक अच्छा नमूना है जैसे कि , लेकिन आपका वितरण पक्षपाती है।Eb[f(b,m)]b

बेशक आपका डेटा यह बुरा नहीं लगेगा, लेकिन लीग संरचना या जो कुछ भी है, उसके आधार पर उस समस्या के कुछ तत्व हो सकते हैं।


आप एक अलग दृष्टिकोण के साथ इसके चारों ओर काम करने की कोशिश कर सकते हैं। लिए प्रस्तावित मॉडल वास्तव में कम-रैंक मैट्रिक्स फैक्टराइजेशन मॉडल है जो कि नेटफ्लिक्स समस्या में सहयोगी फ़िल्टरिंग में सामान्य है । वहाँ, आप फंक्शन और को आयाम , और प्रतिनिधित्व करते हैं । आप को एक "गुणवत्ता" स्कोर से कई आयामों के साथ स्कोर के रूप में अपने मॉडल को जटिल बनाने के रूप में व्याख्या कर सकते हैं : शायद कुछ निश्चित गेंदबाज कुछ प्रकार के बल्लेबाजों के खिलाफ बेहतर करते हैं। (यह एनबीए खेलों के लिए उदाहरण के लिए किया गया है ।)fg(b)h(m)rf(b,m)=g(b)Th(m)r>1

कारण उन्हें मैट्रिक्स फैक्टराइजेशन कहा जाता है क्योंकि यदि आप गेंदबाजों और बल्लेबाजों के रूप में कई स्तंभों के साथ एक मैट्रिक्स बनाते हैं , तो आप इसे इस रूप में लिख सकते हैंF

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
जहां आपने मैट्रिक्स को एक और एक में विभाजित किया है। ।N×MFN×rGM×rH

बेशक, आपको सीधे का निरीक्षण करने की आवश्यकता नहीं है । सामान्य मॉडल यह है कि आप यादृच्छिक पर की शोर प्रविष्टियों का निरीक्षण करते हैं ; आपके मामले में, आपको प्रत्येक प्रविष्टि के लिए एक यादृच्छिक संख्या के परीक्षण के साथ एक द्विपद वितरण से एक ड्रॉ का निरीक्षण करना है ।FFF

आप एक संभावना मॉडल का निर्माण कर सकते हैं जैसे, कहते हैं:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
जहां और मनाया जाता है, और आप शायद कुछ हाइपरप्रियर्स को / ऊपर रख और स्टान में उदा ।nijRijσGσH

यह एक आदर्श मॉडल नहीं है: एक के लिए, यह उपेक्षा करता है कि स्कोर से संबंधित है (जैसा कि मैंने पहले खंड में उल्लेख किया है), और अधिक महत्वपूर्ण बात, यह को में होने के लिए बाध्य नहीं करता है (आप इसे प्राप्त करने के लिए शायद लॉजिस्टिक सिग्मॉइड या समान का उपयोग करेंगे)। और लिए अधिक जटिल पुजारियों के साथ एक संबंधित लेख (लेकिन जो द्विपद संभावना का उपयोग नहीं करता है) है: सलाखुद्दीनोव और मेन्ह, बायसियन प्रोबिस्टिस्टिक मैट्रिक्स फैक्टराइजेशन का उपयोग मार्कोव श्रृंखला मोंटे कार्लो , आईसीआईसी 2008। ( doi / author के pdf )nFij[0,1]GH


1
@ रवि यह लंबा था, शायद स्पष्ट रूप से समझाया नहीं गया है, और मैं इस तरह के मुद्दों के साथ आपकी पृष्ठभूमि का स्तर नहीं जानता। लेकिन किसी भी हिस्से के बारे में सवाल पूछने के लिए स्वतंत्र महसूस करें जो अस्पष्ट हैं। इसके अलावा, चूंकि आपका डेटा एक-एक है, इसलिए आप एलो का उपयोग करके भी विचार कर सकते हैं ।
डगल

इस उच्च गुणवत्ता वाले उत्तर को लिखने के लिए समय निकालने के लिए धन्यवाद। माना जाता है कि मैं केवल अभी बुनियादी आंकड़े जानता हूं, इसलिए यह बहुत कुछ मेरे लिए नया है। हालांकि यह मुझे बहुत स्पष्ट रूप से दिखाता है कि इस समस्या को ठीक से समझने के लिए क्या पढ़ना चाहिए, जो मैं चाहता था। उम्मीद है कि अध्ययन के कुछ दिनों (या वर्षों!) के बाद मैं आपके उत्तर को बेहतर ढंग से समझ पाऊँगा।
रवि

धन्यवाद। मेरे पास एलो के बारे में एक सवाल था। जब तक यह लंबे समय तक है, मैंने एक नया सवाल खोला [यहाँ] :( सांख्यिकी.stackexchange.com/questions/230518/… )
रवि

0

आप सही संभावना का अनुमान नहीं लगा सकते हैं कि B को बाहर कर दिया जाएगा कि A एक गेंदबाज है अगर A और B कभी मैदान पर नहीं मिले, तो अन्य खिलाड़ियों के साथ उनके औसत के आधार पर ।


3
यद्यपि आप क्रिकेट के बारे में सही हो सकते हैं, लेकिन कौशल के अन्य खेलों में रेटिंग सिस्टम की क्षमता शतरंज जैसे उन लोगों के बीच मैचों के परिणामों की भविष्यवाणी करने के लिए है जिन्होंने कभी प्रतिस्पर्धा नहीं की है।
whuber

2
@ शुभर सहमत - मुझे लगता है कि यह लगभग क्रिकेट के बारे में बिल्कुल सच होगा जैसा कि लगभग किसी भी अन्य प्रतिस्पर्धी बातचीत में है। क्रिकेट अलग नहीं है
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.