मैं वास्तव में पूर्वसूचक संकोचन / चयन के लिए लोचदार शुद्ध प्रक्रिया में दिलचस्पी ले रहा हूं। यह बहुत शक्तिशाली लगता है।
लेकिन वैज्ञानिक दृष्टिकोण से मुझे पता नहीं है कि मुझे एक बार गुणांक प्राप्त करने के लिए क्या करना चाहिए। मैं किस प्रश्न का उत्तर दे रहा हूं? ये वे चर हैं जो परिणाम को सबसे अधिक प्रभावित करते हैं और ये गुणांक हैं जो सत्यापन के दौरान सबसे अच्छा विचरण / पूर्वाग्रह अनुपात देते हैं?
यह निश्चित रूप से शास्त्रीय पी मूल्य / आत्मविश्वास अंतराल दृष्टिकोण की तुलना में एक बहुत ही वर्णनात्मक / भविष्य कहनेवाला दृष्टिकोण है। टिफ़िरानी एंड कंपनी द्वारा अब तक अनुमान का अध्ययन किया जा रहा है, लेकिन अभी भी प्रायोगिक है।
कुछ लोग शास्त्रीय हीन विश्लेषण करने के लिए लोचदार जाल द्वारा चुने गए चर का उपयोग कर रहे हैं, लेकिन यह तकनीक द्वारा लाए गए विचरण में सीमा को समाप्त कर देगा।
एक और समस्या यह है कि चूँकि इलास्टिक नेट के लिए लैम्ब्डा और अल्फा पैरामीटर क्रॉस वेलिडेशन द्वारा चुने जाते हैं, वे यादृच्छिक परिवर्तनशीलता के अधीन होते हैं। इसलिए हर बार जब आप दौड़ते हैं (उदाहरण के लिए) cv.glmnet () आप हमेशा अलग-अलग गुणांक वाले भविष्यवक्ताओं के थोड़े अलग उपसमूह का चयन करेंगे।
हालांकि मैं इसे सही लैम्ब्डा और अल्फा को रैंडम वैरिएबल मानकर इसे हल करने के बारे में हूं और इन पैरामीटर्स का डिस्ट्रीब्यूशन पाने के लिए क्रॉस वेलिडेशन स्टेप n रन करता हूं। इस तरह हर भविष्यवक्ता के लिए मेरे पास घटनाओं की संख्या होगी और प्रत्येक गुणांक के लिए मेरे पास परिणामों का वितरण होगा। यह मुझे रेंज के आँकड़ों (जैसे गुणांक के एसडी) के साथ अधिक सामान्य परिणाम देने चाहिए। यह देखना भी दिलचस्प होगा कि लैम्ब्डा और अल्फा ने इस तरह से कुछ वितरण के लिए आसन्न रूप से चुना, क्योंकि इससे कुछ इंट्रेंस टेस्ट का रास्ता खुल जाएगा (लेकिन मैं एक सांख्यिकीविद् नहीं हूं इसलिए मुझे इस बारे में नहीं कहना चाहिए। 'पूरी तरह से समझते हैं)।
तो अंत में मेरा सवाल यह है: एक बार जब आप भविष्यवाणियों और गुणांक एक लोचदार नेट से क्रॉस सत्यापन आधारित अल्फा और लैम्ब्डा के साथ प्राप्त करते हैं, तो आपको इन परिणामों को किस और कैसे प्रस्तुत करना चाहिए? आपको उनकी चर्चा कैसे करनी चाहिए? हमने क्या सीखा? हम किस परिकल्पना / सामान्यीकरण का सामना कर रहे हैं?