प्रतिगमन मॉडल के बीच चयन करने के लिए के-फोल्ड सीवी का उपयोग करते समय, मैं आमतौर पर प्रत्येक मॉडल के लिए अलग से सीवी त्रुटि की गणना करता हूं, साथ में इसकी मानक त्रुटि एसई, और मैं सबसे कम सीवी त्रुटि वाले मॉडल के 1 एसई के भीतर सबसे सरल मॉडल का चयन करता हूं (1) मानक त्रुटि नियम, उदाहरण के लिए यहां देखें )। हालांकि, मुझे हाल ही में बताया गया है कि इस तरह से मैं परिवर्तनशीलता को कम कर रहा हूं, और यह कि दो मॉडल ए और बी के बीच चयन करने के विशिष्ट मामले में, मुझे वास्तव में एक अलग तरीके से आगे बढ़ना चाहिए:
- प्रत्येक गुना के लिए लंबाई की , दो मॉडल भविष्यवाणियों के बीच बिंदुवार अंतर की गणना करें। फिर गुना के लिए माध्य वर्ग अंतर की गणना करें
- औसत सामान्य रूप से सिलवटों के पार, और सामान्यीकरण त्रुटि के लिए एक अनुमानक के रूप में इस सीवी अंतर त्रुटि (अपनी मानक त्रुटि के साथ) का उपयोग करें।
प्रशन:
- क्या यह आपको सही प्रतीत होता है? मुझे पता है कि सामान्यीकरण त्रुटि के अनुमानक के रूप में CV त्रुटि के उपयोग के पीछे सैद्धांतिक कारण हैं (मुझे नहीं पता कि ये कारण क्या हैं, लेकिन मुझे पता है कि वे मौजूद हैं!)। मुझे कोई पता नहीं है कि इस "अंतर" सीवी त्रुटि के उपयोग के पीछे सैद्धांतिक कारण हैं।
- मुझे नहीं पता कि यह दो से अधिक मॉडल की तुलना के लिए सामान्यीकृत किया जा सकता है या नहीं। सभी मॉडलों के मॉडल के लिए अंतर की गणना करना जोखिम भरा लगता है (कई तुलनाएं?): यदि आपके पास दो से अधिक मॉडल हैं तो आप क्या करेंगे?
संपादित करें: मेरा सूत्र पूरी तरह से गलत है, सही मीट्रिक यहाँ वर्णित है और यह बहुत अधिक जटिल है। खैर, मुझे खुशी है कि मैंने सूत्र को स्पष्ट रूप से लागू करने से पहले यहां पूछा! मैं उसका जवाब देने में उसकी मदद करने के लिए @Bay को धन्यवाद देता हूं। वर्णित सही माप काफी प्रयोगात्मक है, इसलिए मैं अपने विश्वसनीय कार्य-घोड़े, सीवी त्रुटि से चिपकूंगा!