LASSO और फॉरवर्ड / बैकवर्ड मॉडल चयन में ताकत और सीमाएं दोनों हैं। कोई दूर की सिफारिश नहीं की जा सकती। इसे संबोधित करने के लिए सिमुलेशन हमेशा खोजा जा सकता है।
पीnपी » n
ओवरफिटिंग को मॉडल मूल्यांकन के लिए स्प्लिट सैंपल क्रॉस वेलिडेशन (सीवी) का उपयोग करके हटा दिया जाता है। चूँकि आपने इसका वर्णन नहीं किया है, मुझे लगता है कि आपने ऐसा नहीं किया। स्टेप वाइज मॉडल चयन के विपरीत, LASSO मॉडल में मापदंडों की संख्या को दंडित करने के लिए एक ट्यूनिंग पैरामीटर का उपयोग करता है। आप ट्यूनिंग पैरामीटर को ठीक कर सकते हैं, या इस मान को चुनने के लिए एक जटिल पुनरावृत्ति प्रक्रिया का उपयोग कर सकते हैं। डिफ़ॉल्ट रूप से , LASSO उत्तरार्द्ध करता है। यह CV के साथ किया जाता है ताकि भविष्यवाणी के MSE को कम से कम किया जा सके। मुझे स्टेपवाइज मॉडल चयन के किसी भी कार्यान्वयन के बारे में पता नहीं है जो इस तरह की परिष्कृत तकनीकों का उपयोग करता है, यहां तक कि एक मानदंड के रूप में बीआईसी आंतरिक सत्यापन पूर्वाग्रह से ग्रस्त होगा। मेरे खाते से, यह स्वचालित रूप से "आउट-ऑफ-द-बॉक्स" स्टेपवाइज मॉडल चयन पर LASSO उत्तोलन देता है।
अन्त में, स्टेप वाइज मॉडल चयन में विभिन्न रजिस्टरों को शामिल / बाहर करने के लिए अलग-अलग मानदंड हो सकते हैं। यदि आप विशिष्ट मॉडल मापदंडों के Wald परीक्षण या परिणामी मॉडल R ^ 2 के लिए पी-मान का उपयोग करते हैं, तो आप अच्छा नहीं करेंगे, ज्यादातर आंतरिक सत्यापन पूर्वाग्रह (फिर से, सीवी के साथ फिर से बनाया जा सकता है) के कारण। मुझे आश्चर्य है कि यह अभी भी इस तरह के मॉडल को लागू करने की प्रवृत्ति है। मॉडल चयन के लिए एआईसी या बीआईसी बहुत बेहतर मानदंड हैं।
प्रत्येक विधि के साथ कई समस्याएं हैं। स्टेप वाइज मॉडल चयन की समस्याएं बहुत अच्छी तरह से समझी जाती हैं, और LASSO की तुलना में कहीं ज्यादा खराब हैं। आपके प्रश्न के साथ मुझे जो मुख्य समस्या दिख रही है, वह यह है कि आप भविष्यवाणी का मूल्यांकन करने के लिए सुविधा चयन साधनों का उपयोग कर रहे हैं । वे अलग-अलग कार्य हैं। LASSO सुविधा चयन या विरल मॉडल चयन के लिए बेहतर है। रिज प्रतिगमन बेहतर भविष्यवाणी दे सकता है क्योंकि यह सभी चर का उपयोग करता है।
पी » n
पी » n