परिचय:
मेरे पास एक शास्त्रीय "बड़े पी, छोटे एन समस्या" के साथ एक डेटासेट है। उपलब्ध नमूनों की संख्या n = 150 जबकि संभावित भविष्यवक्ताओं की संख्या p = 400। परिणाम एक सतत चर है।
मैं सबसे "महत्वपूर्ण" वर्णनकर्ताओं को ढूंढना चाहता हूं, अर्थात, जो परिणाम की व्याख्या करने और एक सिद्धांत बनाने में मदद करने के लिए सबसे अच्छे उम्मीदवार हैं।
इस विषय पर शोध के बाद मैंने पाया कि एलएएसओ और इलास्टिक नेट आमतौर पर बड़े पी, छोटे एन के मामले के लिए उपयोग किया जाता है। मेरे कुछ भविष्यवक्ता अत्यधिक सहसंबद्ध हैं और मैं उनके समूहों को महत्वपूर्ण मूल्यांकन में संरक्षित करना चाहता हूं, इसलिए, मैंने स्थैतिक नेट का विकल्प चुना । मुझे लगता है कि मैं महत्व के उपाय के रूप में प्रतिगमन गुणांक के पूर्ण मूल्यों का उपयोग कर सकता हूं (कृपया मुझे गलत होने पर सही करें; मेरा डेटासेट मानकीकृत है)।
संकट:
जैसा कि मेरे नमूनों की संख्या छोटी है, मैं एक स्थिर मॉडल कैसे प्राप्त कर सकता हूं?
मेरा वर्तमान दृष्टिकोण MSE स्कोर के 10 गुना क्रॉस-सत्यापन के साथ 90% डेटासेट पर ग्रिड खोज में सर्वोत्तम ट्यूनिंग पैरामीटर (लैम्ब्डा और अल्फा) खोजना है। तब मैं संपूर्ण 90% डेटासेट पर सर्वोत्तम ट्यूनिंग मापदंडों के साथ मॉडल को प्रशिक्षित करता हूं। मैं अपने मॉडल का मूल्यांकन करने में सक्षम हूं, जो कि आर 10 से अधिक डेटासेट के 10% (जो कि केवल 15 नमूनों के लिए है) का उपयोग कर रहा है।
इस प्रक्रिया को बार-बार चलाने पर, मुझे आर स्क्वेर्ड असेसमेंट में एक बड़ा विचरण मिला। साथ ही, गैर-शून्य भविष्यवक्ताओं की संख्या उनके गुणांक के अनुसार भी भिन्न होती है।
मैं भविष्यवक्ताओं के महत्व का अधिक स्थिर मूल्यांकन और अंतिम मॉडल प्रदर्शन का अधिक स्थिर मूल्यांकन कैसे प्राप्त कर सकता हूं?
क्या मैं कई मॉडल बनाने के लिए बार-बार अपनी प्रक्रिया चला सकता हूं, और फिर औसत प्रतिगमन गुणांक? या क्या मुझे इसके महत्व स्कोर के रूप में मॉडल में एक भविष्यवक्ता की घटनाओं की संख्या का उपयोग करना चाहिए?
वर्तमान में, मुझे लगभग 40-50 गैर-शून्य भविष्यवक्ता मिलते हैं। क्या मुझे बेहतर स्थिरता के लिए भविष्यवक्ताओं की संख्या को दंडित करना चाहिए?