मैं सुझाव दूंगा कि यह एक समस्या है कि परिणाम कैसे बताए जाते हैं। "बायेसियन ड्रम को हरा" करने के लिए नहीं, लेकिन एक बेइज़ियन परिप्रेक्ष्य से मॉडल अनिश्चितता के पास पहुंचना एक आक्रमण समस्या के रूप में यहां बहुत मदद करेगा। और यह एक बड़ा बदलाव भी नहीं है। यदि रिपोर्ट में बस संभावना होती है कि मॉडल सत्य है तो यह बहुत मददगार होगा। यह बीआईसी का उपयोग करके अनुमानित करने के लिए एक आसान मात्रा है। मॉडल को B I C C m के लिए BIC कहें । तब संभावना है कि एमटीएच मॉडल "सच" मॉडल है, यह देखते हुए कि एम मॉडल फिट थे (और यह एक मॉडल सच है) द्वारा दिया गया है:BICmM
=1
P(model m is true|one of the M models is true)≈wmexp(−12BICm)∑Mj=1wjexp(−12BICj)
=11+∑Mj≠mwjwmexp(−12(BICj−BICm))
जहां , jth मॉडल के लिए पूर्व संभावना के समानुपाती है। ध्यान दें कि इसमें कई मॉडलों की कोशिश करने के लिए "जुर्माना" शामिल है - और जुर्माना इस बात पर निर्भर करता है कि अन्य मॉडल डेटा को कितनी अच्छी तरह फिट करते हैं। आमतौर पर आप w j = 1 सेट करेंगे , हालाँकि, आपके पास अपनी कक्षा के भीतर कुछ "सैद्धांतिक" मॉडल हो सकते हैं, जिन्हें आप किसी भी डेटा को देखने से पहले बेहतर होने की उम्मीद करेंगे।wjwj=1
BICfinal<BICjpd
M≥1+p+(p−1)+⋯+(p−d+1)=1+p(p−1)−(p−d)(p−d−1)2
M≥1+p+(p−1)+⋯+(d+1)=1+p(p−1)−d(d−1)2
Models were tried (the +1 comes from the null model or the full model). Now we could try an be more specific, but these are "minimal" parameters which a standard model selection must satisfy. We could specify a probability model for the number of models tried M and the sizes of the BICj - but simply plugging in some values may be useful here anyway. For example suppose that all the BICs were λ bigger than the one of the model chosen so that BICm=BICj−λ, then the probability becomes:
11+(M−1)exp(−λ2)
So what this means is that unless λ is large or M is small, the probability will be small also. From an "over-fitting" perspective, this would occur when the BIC for the bigger model is not much bigger than the BIC for the smaller model - a non-neglible term appears in the denominator. Plugging in the backward selection formula for M we get:
11+p(p−1)−d(d−1)2exp(−λ2)
Now suppose we invert the problem. say p=50 and the backward selection gave d=20 variables, what would λ have to be to make the probability of the model greater than some value P0? we have
λ>−2log(2(1−P0)P0[p(p−1)−d(d−1)])
Setting P0=0.9 we get λ>18.28 - so BIC of the winning model has to win by a lot for the model to be certain.