होम रन चलाने में मीन के प्रति प्रतिगमन मापने


11

कोई भी व्यक्ति जो बेसबॉल का अनुसरण करता है उसने संभवतः टोरंटो के जोस बॉतिस्ता के एमवीपी-प्रकार के प्रदर्शन के बारे में सुना है। पिछले चार वर्षों में, उन्होंने प्रति सत्र लगभग 15 घरेलू रन बनाए। पिछले साल उन्होंने 54 अंक हासिल किए, जो बेसबॉल इतिहास में केवल 12 खिलाड़ियों से आगे थे।

2010 में उन्हें 2.4 मिलियन का भुगतान किया गया था और वह 2011 के लिए टीम को 10.5 मिलियन के लिए कह रहे हैं। वे 7.6 मिलियन की पेशकश कर रहे हैं। अगर वह 2011 में उसे दोहरा सकता है, तो वह आसानी से या तो राशि के लायक हो जाएगा। लेकिन उसे दोहराते हुए क्या हैं? हम उसे दोबारा हासिल करने की कितनी उम्मीद कर सकते हैं? मौका मिलने के कारण हम उनके प्रदर्शन की कितनी उम्मीद कर सकते हैं? हम उसके प्रतिगमन-टू-मीन समायोजित 2010 योग होने की क्या उम्मीद कर सकते हैं? मैं इसे कैसे काम करूं?

मैं लाह्मण बेसबॉल डेटाबेस के साथ खेल रहा हूं और पिछले पांच सत्रों में सभी खिलाड़ियों के लिए घर चलाने के कुल रिटर्न वाले क्वेरी को निचोड़ लिया है, जिसमें प्रति सीजन कम से कम 50 बैट थे।

तालिका इस तरह दिखती है (पंक्ति 10 में जोस बॉटिस्टा को नोटिस करें)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

और पूर्ण परिणाम (232 पंक्तियाँ) यहाँ उपलब्ध है

मैं वास्तव में नहीं जानता कि कहाँ से शुरू करें। क्या कोई मुझे सही दिशा दिखा सकता है? कुछ प्रासंगिक सिद्धांत, और आर कमांड विशेष रूप से सहायक होंगे।

कृपया धन्यवाद

मामूली सिपाही

नोट: इसका उदाहरण थोड़ा विरोधाभासी है। होम रन निश्चित रूप से किसी खिलाड़ी के लायक होने का सबसे अच्छा संकेतक नहीं है, और होम रन टोटल प्रति सीज़न की अलग-अलग संख्याओं पर विचार नहीं करते हैं कि एक बल्लेबाज के पास घरेलू रन (प्लेट दिखावे) को हिट करने का मौका है। न ही यह दर्शाता है कि कुछ खिलाड़ी अधिक अनुकूल स्टेडियमों में खेलते हैं, और यह लीग औसत घर में साल दर साल बदलाव होता है। आदि। यदि मैं माध्य के लिए प्रतिगमन के लिए लेखांकन के पीछे सिद्धांत को समझ सकता हूं, तो मैं एचआर से अधिक उपयुक्त उपायों पर इसका उपयोग कर सकता हूं।


2
बेसबॉल कई अमेरिकी सांख्यिकीविदों का पसंदीदा स्रोत है इसलिए Google (/ विद्वान) खोज कई प्रासंगिक लेखों को सामने लाएगी, जैसे कि मॉरिसन और श्मुतलिन (1981) jstor.org/stable/2630890 । मैं इसे आपके प्रश्न का उत्तर देने के लिए बेसबॉल और आर दोनों से अधिक परिचित लोगों के लिए छोड़ दूँगा।
OneStop

1
मैं आपको JC ब्रैडबरी और उनके ब्लॉग, सबर्नोमिक्स, sabernomics.com/sabernomics के काम की जांच करने का भी सुझाव दूंगा । खिलाड़ी के मूल्य को मापने के बारे में उनकी पुस्तक संभवतः भविष्य की उत्पादकता की भविष्यवाणी करने वाली विशेषताओं के रूप में व्यावहारिक होगी।
एंडी डब्ल्यू

2
जैसा कि कहा गया है कि समस्या एक बाहरी समस्या की तरह है, लेकिन सामान्य तरीके से कोई भी बाहरी व्यक्ति के बारे में नहीं सोचता है। अद्भुत परिणाम (यानी बाहरी) को शामिल करने के लिए आपको भारी पूंछ के साथ "नमूना वितरण" की आवश्यकता होगी (जोस का परिणाम पिछले डेटा पर अपने औसत से 3 मानक विचलन से अधिक अच्छी तरह से है), इसलिए यह आपको डेटा को बेहतर ढंग से फिट करने में मदद कर सकता है, और भविष्यवाणी में इसके लिए खाता है।
प्रोबेबिलिसलॉजिक

यदि आप यहां प्रदर्शित होने वाले सभी अधिक परिष्कृत कमेंट्री के अलावा कच्चे छोटे शॉर्टकट पर विचार करेंगे, तो आउटलेर्स के
रोलाण्डो

जवाबों:


3

मुझे लगता है कि निश्चित रूप से एक बायेसियन संकोचन या पूर्व सुधार है जो भविष्यवाणी करने में मदद कर सकता है लेकिन आप एक और शुल्क पर भी विचार कर सकते हैं ...

इतिहास में खिलाड़ियों को देखें, न कि पिछले कुछ वर्षों में, जिन्होंने मेजर में एक जोड़े के बाद ब्रेकआउट सीज़न किए (नाटकीय रूप से 2x बढ़ता है) और देखें कि अगले वर्ष में उन्होंने कैसे किया। यह सही भविष्यवक्ता है प्रदर्शन को बनाए रखने की संभावना संभव है।

इस समस्या को देखने के कई तरीके हैं लेकिन जैसा कि mpiktas ने कहा, आपको अधिक डेटा की आवश्यकता होगी। यदि आप अभी हाल के डेटा से निपटना चाहते हैं तो आपको समग्र लीग आँकड़े देखना होगा, वह जिस घड़े के विरुद्ध है, यह एक जटिल समस्या है।

और फिर वहाँ सिर्फ Bautista के अपने डेटा पर विचार कर रहा है। हां, यह उनका सबसे अच्छा साल था लेकिन 2007 के बाद यह पहली बार था जब उनके पास 350 से अधिक एबी (569) थे। आप प्रदर्शन में प्रतिशत वृद्धि को परिवर्तित करने पर विचार कर सकते हैं।


3

आप अकेले इस डेटा के लिए एक मॉडल फिट कर सकते हैं और मिश्रित (मल्टीलेवल) मॉडल का उपयोग करके प्रतिगमन के लिए अनुमान लगा सकते हैं। इस तरह के मॉडल से भविष्यवाणियां प्रतिगमन के लिए होती हैं। यहां तक ​​कि बेसबॉल के बारे में कुछ भी जानने के बिना मुझे ऐसे परिणाम नहीं मिलते हैं जो मुझे बहुत विश्वसनीय लगे, क्योंकि, जैसा कि आप कहते हैं, मॉडल को वास्तव में प्लेट दिखावे जैसे अन्य कारकों का ध्यान रखना चाहिए।

मुझे लगता है कि एक पोइसन मिश्रित-प्रभाव मॉडल एक रैखिक मिश्रित मॉडल की तुलना में अधिक उपयुक्त होगा क्योंकि घर के रनों की संख्या एक गिनती है। आपके द्वारा प्रदान किए गए डेटा को देखते हुए , एक हिस्टोग्राम hrशो यह दृढ़ता से सकारात्मक रूप से तिरछा होता है, यह सुझाव देते हुए कि एक रैखिक मिश्रित मॉडल अच्छी तरह से काम नहीं करने वाला है, और पहले लॉग-ट्रांसफ़रिंग घंटा के साथ या उसके बिना काफी बड़ी संख्या में शून्य शामिल हैं।

यहाँ lme4 पैकेज lmerसे फ़ंक्शन का उपयोग करते हुए कुछ कोड दिए गए हैं । प्रत्येक खिलाड़ी की पहचान करने के लिए एक आईडी वेरिएबल बनाया गया है और डेटा को 'लॉन्ग' फॉर्मेट में फिर से सेट किया गया है, जैसा कि उसके जवाब में mpiktas ने संकेत दिया था, (मैंने कहा था कि स्टाटा में मैं आर में डेटा प्रबंधन में अच्छा नहीं हूं, लेकिन आप इसे कर सकते हैं स्प्रेडशीट पैकेज):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

यह लॉग-लिंक वाले एक मॉडल को फिट करता है, जो वर्ष पर हिट-रेट की एक घातीय निर्भरता देता है, जो खिलाड़ियों के बीच अंतर करने की अनुमति देता है। अन्य लिंक फ़ंक्शंस संभव हैं, हालांकि पहचान लिंक ने नकारात्मक फिट किए गए मानों के कारण त्रुटि दी। एक sqrt लिंक ने हालांकि ठीक काम किया है, और लॉग लिंक के साथ मॉडल की तुलना में BIC और AIC कम है, इसलिए यह एक बेहतर फिट हो सकता है। 2011 में हिट-रेट की भविष्यवाणियां चुने गए लिंक फ़ंक्शन के प्रति संवेदनशील हैं, विशेष रूप से ऐसे खिलाड़ी जैसे कि ब्यूटिस्टा के लिए जिनकी हिट-रेट हाल ही में बहुत बदल गई है।

मुझे डर है कि मैं वास्तव में इस तरह की भविष्यवाणियां करने में कामयाब नहीं हुआ हूं lme4। मैं स्टाटा से अधिक परिचित हूं, जो परिणाम के लिए लापता मूल्यों के साथ टिप्पणियों के लिए पूर्वानुमान प्राप्त करना बहुत आसान बनाता है, हालांकि xtmelogit लॉग के अलावा लिंक फ़ंक्शन के किसी भी विकल्प की पेशकश नहीं करता है , जिसने बॉतिस्ता के लिए 50 की भविष्यवाणी दी 2011 में घर चलता है। जैसा कि मैंने कहा, मुझे वह बहुत विश्वसनीय नहीं लगता। मैं आभारी हूं कि कोई व्यक्ति यह दिखा सकता है कि ऊपर दिए गए lmerमॉडल से 2011 के लिए भविष्यवाणियां कैसे बनाई जा सकती हैं ।

खिलाड़ी स्तर की त्रुटियों के लिए एआर (1) जैसे एक ऑटोरेस्पिरेटिव मॉडल भी दिलचस्प हो सकता है, लेकिन मुझे नहीं पता कि पॉइसन मिश्रित मॉडल के साथ ऐसी संरचना को कैसे संयोजित किया जाए।


पैकेज फेरबदल से फ़ंक्शन पिघल का उपयोग करना, लंबे प्रारूप में परिवर्तित करना आर, पिघल (डेटा, आईडी = 1: 2) में एक पंक्ति है।

इसके लिए एक दिलचस्प विस्तार / विकल्प एक पदानुक्रम नमूना वितरण के साथ एक नमूना दर पैरामीटर (प्रति वर्ष 1 दर) के साथ एक पदानुक्रमित मॉडल फिट करना है , लेकिन दर पैरामीटर (सामान्य या सामान्य मिश्रण के बजाय) के लिए एक कॉची नमूना वितरण है। कॉची वितरण चरम घटना (बड़ी दर पैरामीटर का नमूना करके) होने की अनुमति देगा । एक मध्यवर्ती मामला (सामान्य और कॉची के बीच) टी-वितरण है। (कॉची से नमूना लेना आसान है क्योंकि यह उलटा सीडीएफ विधि का उपयोग कर सकता है)।
probabilityislogic

2

होम-रन के बारे में आपके पास समय-समय पर खिलाड़ियों और उनकी विशेषताओं पर अतिरिक्त डेटा की आवश्यकता होती है। पहले चरण के लिए खिलाड़ियों की उम्र या अनुभव जैसी कुछ अलग-अलग विशेषताओं को जोड़ें। फिर आप एचएलएम या पैनल डेटा मॉडल का उपयोग कर सकते हैं। आपको फॉर्म में डेटा तैयार करना होगा:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

सबसे सरल मॉडल तब होगा (फ़ंक्शन lme पैकेज nlme से है )

lme(HR~Experience,random=~Experience|Year,data=your_data)

यह मॉडल इस धारणा पर बहुत अधिक निर्भर करेगा कि प्रत्येक खिलाड़ी के घर-चलाने की संख्या केवल कुछ परिवर्तनशीलता की अनुमति देने वाले अनुभव पर निर्भर करती है। यह शायद बहुत सटीक नहीं होगा, लेकिन आपको कम से कम यह महसूस होगा कि औसत खिलाड़ी की तुलना में जोस बॉटिस्टा की संख्या कितनी कम है। अन्य खिलाड़ियों की विशेषताओं को जोड़कर इस मॉडल को और बेहतर बनाया जा सकता है।


मैं यह नहीं कहूंगा कि @TMOD को अधिक डेटा की आवश्यकता है , बस अगर @TMOD में अधिक डेटा था तो भविष्यवाणियां अधिक सटीक होने की संभावना है । सवाल में एक भविष्यवाणी उत्पन्न करने के लिए पर्याप्त जानकारी है।
प्रोबेबिलिसलॉजिक

@probabilityislogic, हाँ भविष्यवाणी उत्पन्न करने के लिए पर्याप्त जानकारी है, लेकिन तब मॉडल में केवल अवरोधन होगा।
mpiktas

जरूरी नहीं कि, कोई इस डेटा के लिए AR (1) या AR (2) मॉडल फिट कर सकता है
संभाव्यताजन्य

@probabilityislogic, आह हां, आप सही हैं।
3

2

आप पुस्तक ब्लॉग की जाँच कर सकते हैं

टॉम टैंगो और "द बुक: प्लेइंग पर्सेन्टेज इन द बेसबॉल" के अन्य लेखक शायद वहाँ सेरामेट्रिक्स के सबसे अच्छे स्रोत हैं। विशेष रूप से, वे इस बीच प्रतिगमन से प्यार करते हैं। वे एक पूर्वानुमान प्रणाली के साथ आए थे जो सबसे बुनियादी स्वीकार्य प्रणाली (मार्सेल) के रूप में तैयार की गई थी, और यह औसत रूप से प्रतिगमन पर निर्भर करती है।

मेरे सिर के ऊपर से, मुझे लगता है कि सच्ची प्रतिभा का अनुमान लगाने के लिए इस तरह के एक पूर्वानुमान का उपयोग करना होगा, और फिर उस माध्य प्रतिभा के आसपास एक उचित वितरण का पता लगाना होगा। एक बार जब आप ऐसा कर लेते हैं, तो प्रत्येक प्लेट उपस्थिति बर्नौली परीक्षण की तरह होगी, इसलिए द्विपद वितरण आपको बाकी रास्ते में ले जा सकता है।


1

FYI करें, 2011 से 2014 तक, उन्होंने 43, 27, 28 और 35 को मारा।

वह 32 के अपने 162-खेल औसत (जो निश्चित रूप से उन मूल्यों को शामिल करता है) के करीब है, और 2010 में 54 के तहत लगभग 1 एसडी है।

कार्रवाई में माध्य के प्रति प्रतिगमन जैसा दिखता है: शोर विषयों पर पूंजीकरण द्वारा निर्मित एक चरम समूह (इस मामले में 1) उनके समूह से भटककर संयोग से।

http://www.baseball-reference.com/players/b/bautijo02.shtml

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.