मेरे पास लॉजिस्टिक रिग्रेशन में मॉडल चयन और मॉडल प्रदर्शन के बारे में एक प्रश्न है। मेरे पास तीन मॉडल हैं जो तीन अलग-अलग परिकल्पनाओं पर आधारित हैं। पहले दो मॉडल (उन्हें z और x नाम देते हैं) प्रत्येक मॉडल में केवल एक व्याख्यात्मक चर होता है, और तीसरा (इसका नाम w देता है) अधिक जटिल है। मैं डब्ल्यू मॉडल के लिए चर चयन के लिए एआईसी का उपयोग कर रहा हूं और फिर एआईसी की तुलना उन तीन मॉडलों में से है जो निर्भर चर को सबसे अच्छा समझाते हैं। मैंने पाया है कि डब्ल्यू मॉडल में एआईसी सबसे कम है और अब मॉडल की भविष्यवाणी की शक्ति के बारे में कुछ विचार प्राप्त करने के लिए उस मॉडल पर कुछ प्रदर्शन आंकड़े करना चाहते हैं। चूंकि मुझे पता है कि यह मॉडल अन्य दो की तुलना में बेहतर है लेकिन यह कितना अच्छा है।
चूंकि मैंने मॉडल को जानने के लिए (सभी तीन मॉडलों की तुलना करने में सक्षम होने के लिए) सभी डेटा का उपयोग किया है, मैं मॉडल प्रदर्शन के बारे में कैसे जा सकता हूं? मैंने जो इकट्ठा किया है उससे मैं एआईसी का उपयोग करके मॉडल चयन से प्राप्त अंतिम मॉडल पर के-फोल्ड क्रॉस सत्यापन नहीं कर सकता हूं, लेकिन शुरुआत से सभी व्याख्यात्मक चर के साथ शुरू करने की आवश्यकता है, क्या यह सही है? मुझे लगता है कि यह एआईसी के साथ चुना गया अंतिम मॉडल है जिसे मैं जानना चाहता हूं कि यह कितना अच्छा प्रदर्शन करता है, लेकिन यह महसूस करें कि मैंने सभी डेटा पर प्रशिक्षित किया है इसलिए मॉडल पक्षपाती हो सकता है। इसलिए यदि मुझे शुरुआत से सभी तह में सभी व्याख्यात्मक चर के साथ शुरू करना चाहिए, तो मुझे कुछ सिलवटों के लिए अलग-अलग अंतिम मॉडल मिलेंगे, क्या मैं सिर्फ उस गुना से मॉडल का चयन कर सकता हूं जिसने सबसे अच्छी भविष्यवाणी की शक्ति दी है और तुलना करने के लिए पूर्ण डेटा सेट पर लागू होता है दो अन्य मॉडल (z और x) के साथ AIC? या यह कैसे काम करता है?
मेरे सवाल का दूसरा हिस्सा ओवर-पैरामीटराइजेशन के बारे में एक बुनियादी सवाल है। मेरे पास १५६ डेटा पॉइंट्स हैं, ५२ है १ है बाकी ० हैं। मेरे पास डब्ल्यू मॉडल के लिए चुनने के लिए 14 व्याख्यात्मक चर हैं, मुझे एहसास है कि मैं ओवर-पैरामीटराइजेशन के कारण सभी को शामिल नहीं कर सकता, मैंने पढ़ा है कि आपको आश्रित चर के समूह का केवल 10% का उपयोग कम से कम टिप्पणियों के साथ करना चाहिए जो केवल मेरे लिए 5 होगा। मैं पारिस्थितिकी में एक प्रश्न का उत्तर देने की कोशिश कर रहा हूं, क्या शुरुआती चर का चयन करना ठीक है, जो मुझे लगता है कि केवल पारिस्थितिकी पर आधारित आश्रित सर्वश्रेष्ठ बताते हैं? या मैं शुरुआती व्याख्यात्मक चर कैसे चुनूं? कुछ चरों को पूरी तरह से बाहर करना सही नहीं लगता।
इसलिए मेरे पास वास्तव में तीन प्रश्न हैं:
- क्या क्रॉस-मान्यता के साथ पूर्ण डेटा सेट पर प्रशिक्षित मॉडल पर प्रदर्शन का परीक्षण करना ठीक हो सकता है?
- यदि नहीं, तो क्रॉस-वेलिडेशन करते समय मैं अंतिम मॉडल कैसे चुनूं?
- मैं आरंभिक चर कैसे चुनूं, इसलिए मैं ओवर-पैरामीटर करना चाहता हूं?
मेरे गन्दे सवालों और मेरी अज्ञानता के लिए क्षमा करें। मुझे पता है कि इसी तरह के सवाल पूछे गए हैं लेकिन फिर भी थोड़ा उलझन में है। किसी भी विचार और सुझाव की सराहना करें।