गिनती डेटा के लिए उचित और कड़ाई से उचित स्कोरिंग नियम हैं जिनका आप उपयोग कर सकते हैं। स्कोरिंग नियम दंड हैं के साथ पेश किया पी भविष्य कहनेवाला वितरण और किया जा रहा है y मनाया मूल्य। उनके पास कई वांछनीय गुण हैं, पहला और सबसे महत्वपूर्ण यह है कि एक पूर्वानुमान जो वास्तविक संभावना के करीब है, उसे हमेशा कम दंड मिलेगा और एक (अद्वितीय) सबसे अच्छा पूर्वानुमान है और एक वह है जब भविष्यवाणी की गई संभावना सही संभावना के साथ मेल खाती है। इस प्रकार s ( y , P ) की अपेक्षा को कम करने का अर्थ है सच्ची संभावनाओं की रिपोर्टिंग करना। विकिपीडिया भी देखें ।s(y,P)Pys(y,P)
अक्सर सभी के रूप में सभी अनुमानित मूल्यों पर औसत लेते हैं
S=1n∑ni=1s(y(i),P(i))
कौन सा नियम लेना है यह आपके उद्देश्य पर निर्भर करता है, लेकिन जब कोई उपयोग किया जाना अच्छा हो तो मैं एक मोटा लक्षण वर्णन दूंगा।
क्या इस प्रकार में मैं का उपयोग भविष्य कहनेवाला संभावना बड़े पैमाने पर समारोह के लिए पीआर ( Y = y ) और एफ ( y ) भविष्य कहनेवाला संचयी बंटन फ़ंक्शन। A काउंट डिस्ट्रीब्यूशन (यानी, ) के पूरे समर्थन पर चलता है । एक संकेतक फ़ंक्शन को दर्शाता है। और भविष्य कहनेवाला वितरण के माध्य और मानक विचलन हैं (जो आमतौर पर गणना डेटा मॉडल में सीधे अनुमानित मात्रा में होते हैं)। f(y)Pr(Y=y)F(y) 0 , 1 , ... , ∞ मैं μ σ∑k0,1,…,∞Iμσ
कड़ाई से उचित स्कोरिंग नियम
- बैरियर स्कोर : (श्रेणीबद्ध भविष्यवक्ताओं में आकार असंतुलन के लिए स्थिर)s(y,P)=−2f(y)+∑kf2(k)
- दाविद-सेबस्टियानी स्कोर : (सामान्य भविष्य कहनेवाला मॉडल की पसंद के लिए अच्छा; श्रेणीबद्ध भविष्यवाणियों में आकार असंतुलन के लिए स्थिर)s(y,P)=(y−μσ)2+2logσ
- डीवियनस स्कोर : ( एक सामान्यीकरण शब्द है जो केवल पर निर्भर करता है , मॉडल में इसे आमतौर पर संतृप्त अवतरण के रूप में लिया जाता है; एक एमएल ढांचा)g y ys(y,P)=−2logf(y)+gygyy
- लघुगणक स्कोर : (बहुत आसानी से गणना की जाती है; श्रेणीबद्ध भविष्यवक्ताओं में आकार असंतुलन के लिए स्थिर)s(y,P)=−logf(y)
- रैंक किए गए प्रायिकता स्कोर : (बहुत उच्च गणनाओं की विभिन्न भविष्यवाणियों के विपरीत के लिए अच्छा; श्रेणीबद्ध भविष्यवक्ताओं में आकार असंतुलन के लिए अतिसंवेदनशील)s(y,P)=∑k{F(k)−I(y≤k)}2
- गोलाकार स्कोर : (श्रेणीबद्ध भविष्यवक्ताओं में आकार असंतुलन के लिए स्थिर)s(y,P)=f(y)∑kf2(k)√
अन्य स्कोरिंग नियम (इतना उचित नहीं है लेकिन अक्सर उपयोग किया जाता है)
- पूर्ण त्रुटि स्कोर :(उचित नहीं है)s(y,P)=|y−μ|
- चुकता त्रुटि स्कोर : (कड़ाई से उचित नहीं; आउटलेर्स के लिए अतिसंवेदनशील, श्रेणीबद्ध भविष्यवक्ताओं में असंतुलन को आकार देने के लिए अतिसंवेदनशील)s(y,P)=(y−μ)2
- पियर्सन सामान्यीकृत चुकता त्रुटि स्कोर : (कड़ाई से उचित नहीं; आउटलेर्स के लिए अतिसंवेदनशील; यदि जाँच की जा सकती है कि क्या औसत स्कोर है या नहीं? 1 से बहुत अलग है; श्रेणीबद्ध भविष्यवक्ताओं में आकार असंतुलन के लिए स्थिर)s(y,P)=(y−μσ)2
कड़ाई से उचित नियमों के लिए उदाहरण R कोड:
library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental)
# scores for the first observation
mu <- predict(m1, type="response")[1]
x <- Mental$Freq[1]
# logarithmic (equivalent to deviance score up to a constant)
-log(dpois(x, lambda=mu))
# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })
# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))
# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)
# Dawid Sebastiani
(x-mu)^2/mu + log(mu)