लॉजिस्टिक रिग्रेशन और डेटसेट स्ट्रक्चर


17

मुझे उम्मीद है कि मैं इस सवाल को सही तरीके से पूछ सकता हूं। मेरे पास प्ले-बाय-प्ले डेटा तक पहुंच है, इसलिए यह सबसे अच्छा दृष्टिकोण और डेटा को ठीक से निर्माण के साथ एक समस्या है।

मैं ऐसा करने के लिए देख रहा हूं कि एनएचएल गेम जीतने की संभावना की गणना की जाती है, जो कि नियमन में स्कोर और शेष समय दिया जाता है। मुझे लगता है कि मैं एक लॉजिस्टिक प्रतिगमन का उपयोग कर सकता हूं, लेकिन मुझे यकीन नहीं है कि डेटासेट कैसा दिखना चाहिए। क्या मुझे प्रति खेल और हर उस समय के लिए, जिसमें मेरी दिलचस्पी है, के लिए कई अवलोकन होंगे? क्या मैं प्रति गेम एक अवलोकन और समय के प्रति टुकड़ा अलग मॉडल फिट कर सकता हूं? क्या लॉजिसिटिक रिग्रेशन भी जाने का सही तरीका है?

किसी भी मदद आप प्रदान कर सकते हैं बहुत सराहना की जाएगी!

सादर।


मुश्किल प्रश्न! मेरा अनुमान है कि इससे अधिक जानने में मदद मिलेगी कि मैं गिनती की प्रक्रियाओं के बारे में क्या करूं (और विकिपीडिया की तुलना में अधिक है: en.wikipedia.org/wiki/Counting_process )
onestop

क्या आपके पास ASA पत्रिका संभावना है? मुझे लगता है कि पिछले साल या उससे पहले एक प्रासंगिक लेख था, चाहे वह हॉकी या किसी अन्य खेल के बारे में हो।
rolando2

मैं समस्या को सुधारने की कोशिश करता हूं (चर्चा को उत्तेजित करने के लिए?): मान लीजिए कि हमारे पास एक गेम में असतत अवस्थाओं का एक सेट है (जैसे टिक-टैक-टो में)। अब परिणाम का अनुमान लगाने के लिए प्रति राज्य (शायद लॉजिस्टिक प्रतिगमन का उपयोग करके) एक मॉडल बनाना उचित है। अब यहां हमारे पास एक गेम भी है, लेकिन निरंतर राज्यों (यानी गेम का समय) के साथ। ओपी का अब सवाल यह है: कैसे) क) समय निर्धारित राज्यों या ख) में विवेकाधीन करें कि कैसे एक मॉडल का निर्माण किया जाए जिसके पैरामीटर वर्तमान खेल-समय के आधार पर भिन्न हो सकते हैं (!)। कोई ऐसा व्यक्ति होना चाहिए जिसने पहले ही इस "सामान्य" समस्या को हल कर लिया हो।
स्टीफन

जवाबों:


9

"प्ले टाइम" और "गोल (होम टीम) - गोल (दूर टीम)" के साथ कोविरेट्स के साथ एक लॉजिस्टिक रिग्रेशन करें। आपको इन शर्तों के इंटरैक्शन प्रभाव की आवश्यकता होगी, क्योंकि आधे समय में 2 गोल लीड का केवल 2 मिनट के लीड की तुलना में बहुत कम प्रभाव होगा, केवल 1 मिनट का लीड। आपकी प्रतिक्रिया "जीत (होम टीम)" है।

, जैसे आर में आप इस्तेमाल कर सकते हैं - बस इस बात के लिए linearity यह मानकर न चलें, "लक्ष्यों (दूर टीम) लक्ष्यों (घरेलू टीम)" के प्रभाव के लिए एक सुचारू रूप से अलग-अलग गुणांक मॉडल फिट mgcvकी gamतरह एक मॉडल फार्मूले के साथ समारोह win_home ~ s(time_remaining, by=lead_home)lead_homeएक कारक बनाएं , ताकि आपको time_remainingहर मूल्य के लिए एक अलग प्रभाव मिले lead_home

मैं प्रति गेम कई प्रेक्षणों का निर्माण करूँगा, हर उस समय के प्रत्येक स्लाइस के लिए जिसमें आप रुचि रखते हैं।


महान! सहायता के लिए धन्यवाद। मैं आर का उपयोग करने जा रहा था, और आपके द्वारा सुझाए गए, इंटरैक्शन प्रभाव और सभी के समान डेटा सेटअप करने जा रहा था। मुझे खुशी है कि मैं सही रास्ते पर था, और मैं वास्तव में आपके समय को पूरा करता हूं।
14

1
कई बार-स्लाइस को शामिल करके उत्पन्न गैर-स्वतंत्रता के साथ सावधान रहें। एक यादृच्छिक प्रभाव (बहु-स्तरीय) मॉडल मदद कर सकता है।
एडुआर्डो लियोनी

1
@ एडुआर्डो: मैं मानता हूं कि निर्भरता मॉडलिंग नहीं है और यह कुछ समस्याग्रस्त है, इसे इंगित करने के लिए धन्यवाद। मुझे यकीन नहीं है कि यादृच्छिक प्रभाव कैसे मदद करेगा - चूंकि द्विआधारी परिणाम win_homeसमूहन के स्तर पर स्थिर है (यानी किसी भी मैच के लिए सभी स्लाइस के लिए या तो 0 या 1 है), उदाहरण के लिए, मैचों के लिए एक यादृच्छिक अवरोधन, जैसे इस संदर्भ में अलगाव के साथ भारी समस्याओं का परिणाम होगा।
फेबियन

आप कुल लक्ष्यों के लिए एक पैरामीटर सहित विचार करना चाह सकते हैं, क्योंकि लीड उच्च स्कोरिंग गेम्स में अधिक आसानी से दिए जाते हैं।
जेम्स

6

मैं एक खिलौना मॉडल से डेटा का अनुकरण करना शुरू करूंगा। कुछ इस तरह:

n.games <- 1000
n.slices <- 90

score.away <- score.home <- matrix(0, ncol=n.slices, nrow=n.games)

for (j in 2:n.slices) {
  score.home[ ,j] <- score.home[ , j-1] + (runif(n.games)>.97)
  score.away[ ,j] <- score.away[ , j-1] + (runif(n.games)>.98)
}

अब हमारे पास खेलने के लिए कुछ है। आप कच्चे डेटा का उपयोग भी कर सकते हैं, लेकिन मुझे चीजों के माध्यम से सोचने के लिए डेटा का अनुकरण करना बहुत उपयोगी है।

इसके बाद मैं सिर्फ डेटा को प्लॉट करूंगा, यानी गेम का लीड समय बनाम घर, जीत की संभावित संभावना के अनुरूप रंग स्केल के साथ।

score.dif <- score.home-score.away

windf <- data.frame(game=1:n.games, win=score.home[ , n.slices] > score.away[, n.slices])

library(reshape)
library(ggplot2)

dnow <- melt(score.dif)
names(dnow) <- c('game', 'time', 'dif')
dnow <- merge(dnow, windf)

res <- ddply(dnow, c('time', 'dif'), function(x) c(pwin=sum(x$win)/nrow(x)))

qplot(time, dif, fill=pwin, data=res, geom='tile') + scale_color_gradient2() 

यह आपको अपने डेटा का समर्थन खोजने में मदद करेगा, और आपको एक कच्चा विचार देगा कि संभावनाएं कैसी दिखती हैं।

भूखंड


1

फुटबॉल के आउटसाइडर के साथ-साथ कुछ प्रेरणा के लिए पुस्तक मैथलेटिक्स के आँकड़े देखें ।

फुटबॉल आउटसाइडर लोग फुटबॉल खेल में हर खेल के आधार पर खेल की भविष्यवाणी करते हैं ।

मैथलेटिक्स में विंस्टन कुछ तकनीकों का उपयोग करता है जैसे कि गतिशील प्रोग्रामिंग।

आप अन्य एल्गोरिदम जैसे एसवीएम पर भी विचार कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.