एक प्रतिगमन मॉडल अधिक फिट होने पर कैसे पता लगाया जाए?

जब आप काम कर रहे होते हैं, तो आप जो कर रहे होते हैं, उसके बारे में जागरूक होने के नाते जब आप मॉडल को ओवर-फिट कर लेते हैं, तो यह समझ विकसित होती है। एक बात के लिए, आप मॉडल के समायोजित आर स्क्वायर में प्रवृत्ति या गिरावट को ट्रैक कर सकते हैं। आप मुख्य चर के प्रतिगमन गुणांक के पी मूल्यों में एक समान गिरावट को भी ट्रैक कर सकते हैं।

लेकिन, जब आप सिर्फ किसी और को पढ़ते हैं और आपके पास अपने स्वयं के आंतरिक मॉडल विकास प्रक्रिया के रूप में कोई अंतर्दृष्टि नहीं होती है तो आप कैसे स्पष्ट रूप से पता लगा सकते हैं कि कोई मॉडल ओवर-फिट है या नहीं।

regression multivariate-analysis overfitting

— sympa
स्रोत

विषय पर कुछ विचारों को फेंकने के लिए, यदि अध्ययन मानक प्रतिगमन आँकड़ों का खुलासा करता है, तो आप गुणांक के t आँकड़ों और p मानों पर ध्यान केंद्रित कर सकते हैं। यदि मॉडल का RSquare अधिक है; लेकिन, एक या एक से अधिक चरों की संख्या <2.0 पर है; यह एक लाल झंडा हो सकता है। इसके अलावा, यदि कुछ चर पर गुणांक के संकेत तर्क को परिभाषित करते हैं जो संभवतः एक और लाल झंडा है। यदि अध्ययन मॉडल के लिए होल्ड आउट अवधि का खुलासा नहीं करता है, तो यह एक और लाल झंडा हो सकता है। उम्मीद है, आपके पास अन्य और बेहतर विचार होंगे।

— सिम्पा

एक तरीका यह है कि मॉडल दूसरे (लेकिन समान) डेटा पर कैसा प्रदर्शन करता है।

— शेन

जवाबों:

क्रॉस सत्यापन और नियमितीकरण ओवरफ़िटिंग को रोकने के लिए काफी सामान्य तकनीकें हैं। जल्दी लेने के लिए, मैं क्रॉस-मान्यता ( दर्पण ) के उपयोग पर एंड्रयू मूर के ट्यूटोरियल स्लाइड्स की सिफारिश करूंगा - कैविटीज पर विशेष ध्यान दें। अधिक विवरण के लिए, EOSL के अध्याय 3 और 7 को जरूर पढ़ें , जो विषय और संबंधित मामले को अच्छी गहराई से कवर करते हैं।

— आर्स
स्रोत

वाह, धन्यवाद पार के सत्यापन पर एंड्रयू मूर के ट्यूटोरियल विश्व स्तर है।

— सायपा सेपा

जब मैं अपने आप को एक मॉडल फिट कर रहा होता हूं तो मैं आमतौर पर फिटिंग प्रक्रिया के दौरान सूचना मानदंड का उपयोग करता हूं, जैसे कि एआईसी या बीआईसी , या वैकल्पिक रूप से मॉडल के लिए संभावना-परीक्षण अनुपात अधिकतम संभावना के आधार पर फिट होते हैं या मॉडल के लिए एफ-टेस्ट कम से कम वर्गों पर आधारित होते हैं।

सभी वैचारिक रूप से समान हैं कि वे अतिरिक्त मापदंडों को दंडित करते हैं। उन्होंने एक मॉडल में जोड़े गए प्रत्येक नए पैरामीटर के लिए "अतिरिक्त व्याख्यात्मक शक्ति" की सीमा निर्धारित की है। वे सभी नियमितीकरण का एक रूप हैं ।

दूसरों के मॉडल के लिए, मैं यह देखने के लिए कि क्या इस तरह की तकनीकों का उपयोग किया जाता है और प्रति पैरामीटर में टिप्पणियों की संख्या जैसे - यदि प्रति पैरामीटर लगभग 5 (या कम) अवलोकन हैं, तो यह देखने के लिए कि मैं आश्चर्यचकित करने के लिए विधियों अनुभाग को देखता हूं।

हमेशा याद रखें कि एक चर की आवश्यकता महत्वपूर्ण होने के लिए एक मॉडल में "महत्वपूर्ण" नहीं होना चाहिए। यदि मैं आपका लक्ष्य अन्य चर के प्रभाव का अनुमान लगाना है, तो मैं एक कन्फ्यूडर हो सकता हूं और उस आधार पर शामिल होना चाहिए।

— Thylacoleo
स्रोत

एआईसी और बीआईसी परीक्षणों के लिंक के लिए धन्यवाद। क्या वे बहुत अधिक मूल्य वर्धित समायोजित आर स्क्वायर जोड़ते हैं जो वैरिएबल जोड़ने के लिए मॉडल को दंडित करके एक समान काम करता है?

— सिम्पा सेप

@ गैटन, समायोजित आर-वर्ग बढ़ेगा जब मॉडल के बाद बनाम बनाम का एक एफ-परीक्षण महत्वपूर्ण होता है, इसलिए वे समतुल्य होते हैं, आमतौर पर समायोजित आर-वर्ग की गणना करने से पी-मान वापस नहीं होता है।

— थायलाकोलो

@ गैटेन - एआईसी और बीआईसी एफ-टेस्ट की तुलना में अधिक सामान्य हैं और समायोजित आर-वर्ग हैं जो आमतौर पर कम से कम वर्गों द्वारा फिट किए गए मॉडल तक सीमित हैं। एआईसी और बीआईसी का उपयोग किसी भी मॉडल के लिए किया जा सकता है, जहां संभावना की गणना की जा सकती है और स्वतंत्रता की डिग्री (या अनुमान) जानी जा सकती है।

— थिलाकोलेओ

चर के सेट का परीक्षण नियमितीकरण (सिकुड़न) का एक रूप नहीं है। और परीक्षण चर को हटाने के लिए एक प्रलोभन देता है, जिसका ओवरफिट को कम करने से कोई लेना-देना नहीं है।

— फ्रैंक हरेल

@FrankHarrell क्या आप अपनी इस पुरानी टिप्पणी के बारे में विस्तार से बता सकते हैं? यह मुझे लगता है कि एक चर को हटाने से ओवरफिटिंग कम हो जाएगी, अन्य सभी चीजें बराबर हो सकती हैं, क्योंकि ओवरफिट के लिए उपलब्ध स्वतंत्रता की डिग्री कम हो जाती है। मुझे यकीन है कि मैं यहां कुछ बारीकियों को याद कर रहा हूं।

— लेपिडोप्टेरिस्ट

मैं सुझाव दूंगा कि यह एक समस्या है कि परिणाम कैसे बताए जाते हैं। "बायेसियन ड्रम को हरा" करने के लिए नहीं, लेकिन एक बेइज़ियन परिप्रेक्ष्य से मॉडल अनिश्चितता के पास पहुंचना एक आक्रमण समस्या के रूप में यहां बहुत मदद करेगा। और यह एक बड़ा बदलाव भी नहीं है। यदि रिपोर्ट में बस संभावना होती है कि मॉडल सत्य है तो यह बहुत मददगार होगा। यह बीआईसी का उपयोग करके अनुमानित करने के लिए एक आसान मात्रा है। मॉडल को लिए BIC कहें । तब संभावना है कि एमटीएच मॉडल "सच" मॉडल है, यह देखते हुए कि मॉडल फिट थे (और यह एक मॉडल सच है) द्वारा दिया गया है: $BIC_{m}$ $M$

P (model m is true | one of the M models is true) \approx \frac{w_{m} \exp (- \frac{1}{2} B I C_{m})}{\sum_{j = 1}^{M} w_{j} \exp (- \frac{1}{2} B I C_{j})}

$P(\text{model m is true}|\text{one of the M models is true})\approx\frac{w_{m}\exp\left(-\frac{1}{2}BIC_{m}\right)}{\sum_{j=1}^{M}w_{j}\exp\left(-\frac{1}{2}BIC_{j}\right)}$

= \frac{1}{1 + \sum_{j \neq m}^{M} \frac{w_{j}}{w_{m}} \exp (- \frac{1}{2} (B I C_{j} - B I C_{m}))}

$=\frac{1}{1+\sum_{j\neq m}^{M}\frac{w_{j}}{w_{m}}\exp\left(-\frac{1}{2}(BIC_{j}-BIC_{m})\right)}$

जहां , jth मॉडल के लिए पूर्व संभावना के समानुपाती है। ध्यान दें कि इसमें कई मॉडलों की कोशिश करने के लिए "जुर्माना" शामिल है - और जुर्माना इस बात पर निर्भर करता है कि अन्य मॉडल डेटा को कितनी अच्छी तरह फिट करते हैं। आमतौर पर आप सेट करेंगे , हालाँकि, आपके पास अपनी कक्षा के भीतर कुछ "सैद्धांतिक" मॉडल हो सकते हैं, जिन्हें आप किसी भी डेटा को देखने से पहले बेहतर होने की उम्मीद करेंगे। $w_{j}$ $w_{j}=1$

$BIC_{final}<BIC_{j}$ $p$ $d$

M \geq 1 + p + (p - 1) + \dots + (p - d + 1) = 1 + \frac{p (p - 1) - (p - d) (p - d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(p-d+1)=1+\frac{p(p-1)-(p-d)(p-d-1)}{2}$

M \geq 1 + p + (p - 1) + \dots + (d + 1) = 1 + \frac{p (p - 1) - d (d - 1)}{2}

$M\geq 1+p+(p-1)+\dots+(d+1)=1+\frac{p(p-1)-d(d-1)}{2}$

Models were tried (the +1 comes from the null model or the full model). Now we could try an be more specific, but these are "minimal" parameters which a standard model selection must satisfy. We could specify a probability model for the number of models tried $M$ and the sizes of the $BIC_{j}$ - but simply plugging in some values may be useful here anyway. For example suppose that all the BICs were $\lambda$ bigger than the one of the model chosen so that $BIC_{m}=BIC_{j}-\lambda$ , then the probability becomes:

\frac{1}{1 + (M - 1) \exp (- \frac{λ}{2})}

$\frac{1}{1+(M-1)\exp\left(-\frac{\lambda}{2}\right)}$

So what this means is that unless $\lambda$ is large or $M$ is small, the probability will be small also. From an "over-fitting" perspective, this would occur when the BIC for the bigger model is not much bigger than the BIC for the smaller model - a non-neglible term appears in the denominator. Plugging in the backward selection formula for $M$ we get:

\frac{1}{1 + \frac{p (p - 1) - d (d - 1)}{2} \exp (- \frac{λ}{2})}

$\frac{1}{1+\frac{p(p-1)-d(d-1)}{2}\exp\left(-\frac{\lambda}{2}\right)}$

Now suppose we invert the problem. say $p=50$ and the backward selection gave $d=20$ variables, what would $\lambda$ have to be to make the probability of the model greater than some value $P_{0}$ ? we have

λ > - 2 l o g (\frac{2 (1 - P_{0})}{P_{0} [p (p - 1) - d (d - 1)]})

$\lambda > -2 log\left(\frac{2(1-P_{0})}{P_{0}[p(p-1)-d(d-1)]}\right)$

Setting $P_{0}=0.9$ we get $\lambda > 18.28$ - so BIC of the winning model has to win by a lot for the model to be certain.

— probabilityislogic
स्रोत

+1, this is really clever. Is this published somewhere? Is there an 'official' reference for this?

— gung - Reinstate Monica

@gung - why thank you. Unfortunately, this was a "back of the envelope" answer. I'm sure there's problems with it, if you were to investigate in more detail.

— probabilityislogic