मॉडल के क्रॉस सत्यापन भविष्यवाणी त्रुटि के संदर्भ में आगे चयन / पिछड़े उन्मूलन पर LASSO की श्रेष्ठता


10

मैंने एक मूल पूर्ण मॉडल का उपयोग करके तीन कम किए गए मॉडल प्राप्त किए

  • आगे का चयन
  • पिछड़ा उन्मूलन
  • L1 दंड तकनीक (LASSO)

फॉरवर्ड सिलेक्शन / बैकवर्ड एलिमिनेशन का उपयोग कर प्राप्त किए गए मॉडल के लिए, मैंने उपलब्ध CVlmपैकेज में उपयोग करके भविष्यवाणी की त्रुटि का क्रॉस वैरिफाइड अनुमान प्राप्त DAAGकिया R। LASSO के माध्यम से चयनित मॉडल के लिए, मैंने उपयोग किया cv.glm

LASSO के लिए भविष्यवाणी की त्रुटि दूसरों के लिए प्राप्त की तुलना में कम थी। इसलिए LASSO के माध्यम से प्राप्त मॉडल अपनी पूर्वानुमान क्षमता और परिवर्तनशीलता के मामले में बेहतर प्रतीत होता है। क्या यह एक सामान्य घटना है जो हमेशा होती है या क्या यह समस्या विशिष्ट है? यदि यह सामान्य घटना है तो इसके लिए सैद्धांतिक तर्क क्या है?


3
सुनिश्चित करें कि आप अनुचित सटीकता स्कोरिंग नियम का उपयोग नहीं करते हैं जैसे कि अनुपात सही श्रेणी में, क्योंकि यह अनुचित भविष्यवाणी / मॉडल को पुरस्कृत करता है। और एल 2 मानदंड के साथ तुलना करें। मुझे यकीन है कि यह बेहतर होगा तो 3 दृष्टिकोण जो आपने कोशिश किए।
फ्रैंक हरेल

जवाबों:


16

LASSO और फॉरवर्ड / बैकवर्ड मॉडल चयन में ताकत और सीमाएं दोनों हैं। कोई दूर की सिफारिश नहीं की जा सकती। इसे संबोधित करने के लिए सिमुलेशन हमेशा खोजा जा सकता है।

पीnपी»n

ओवरफिटिंग को मॉडल मूल्यांकन के लिए स्प्लिट सैंपल क्रॉस वेलिडेशन (सीवी) का उपयोग करके हटा दिया जाता है। चूँकि आपने इसका वर्णन नहीं किया है, मुझे लगता है कि आपने ऐसा नहीं किया। स्टेप वाइज मॉडल चयन के विपरीत, LASSO मॉडल में मापदंडों की संख्या को दंडित करने के लिए एक ट्यूनिंग पैरामीटर का उपयोग करता है। आप ट्यूनिंग पैरामीटर को ठीक कर सकते हैं, या इस मान को चुनने के लिए एक जटिल पुनरावृत्ति प्रक्रिया का उपयोग कर सकते हैं। डिफ़ॉल्ट रूप से , LASSO उत्तरार्द्ध करता है। यह CV के साथ किया जाता है ताकि भविष्यवाणी के MSE को कम से कम किया जा सके। मुझे स्टेपवाइज मॉडल चयन के किसी भी कार्यान्वयन के बारे में पता नहीं है जो इस तरह की परिष्कृत तकनीकों का उपयोग करता है, यहां तक ​​कि एक मानदंड के रूप में बीआईसी आंतरिक सत्यापन पूर्वाग्रह से ग्रस्त होगा। मेरे खाते से, यह स्वचालित रूप से "आउट-ऑफ-द-बॉक्स" स्टेपवाइज मॉडल चयन पर LASSO उत्तोलन देता है।

अन्त में, स्टेप वाइज मॉडल चयन में विभिन्न रजिस्टरों को शामिल / बाहर करने के लिए अलग-अलग मानदंड हो सकते हैं। यदि आप विशिष्ट मॉडल मापदंडों के Wald परीक्षण या परिणामी मॉडल R ^ 2 के लिए पी-मान का उपयोग करते हैं, तो आप अच्छा नहीं करेंगे, ज्यादातर आंतरिक सत्यापन पूर्वाग्रह (फिर से, सीवी के साथ फिर से बनाया जा सकता है) के कारण। मुझे आश्चर्य है कि यह अभी भी इस तरह के मॉडल को लागू करने की प्रवृत्ति है। मॉडल चयन के लिए एआईसी या बीआईसी बहुत बेहतर मानदंड हैं।

प्रत्येक विधि के साथ कई समस्याएं हैं। स्टेप वाइज मॉडल चयन की समस्याएं बहुत अच्छी तरह से समझी जाती हैं, और LASSO की तुलना में कहीं ज्यादा खराब हैं। आपके प्रश्न के साथ मुझे जो मुख्य समस्या दिख रही है, वह यह है कि आप भविष्यवाणी का मूल्यांकन करने के लिए सुविधा चयन साधनों का उपयोग कर रहे हैं । वे अलग-अलग कार्य हैं। LASSO सुविधा चयन या विरल मॉडल चयन के लिए बेहतर है। रिज प्रतिगमन बेहतर भविष्यवाणी दे सकता है क्योंकि यह सभी चर का उपयोग करता है।

पी»n

पी»n


4

आप कुछ मानदंडों के अनुसार भविष्यवक्ताओं का सबसेट चुनना चाहते हैं। नमूना एआईसी में हो सकता है या आर ^ 2 समायोजित किया जा सकता है, या क्रॉस-सत्यापन, कोई फर्क नहीं पड़ता।

आप हर एक भविष्यवक्ता सबसेट संयोजन का परीक्षण कर सकते हैं और सबसे अच्छा सबसेट चुन सकते हैं। तथापि

  • मापदंडों के दहनशील विस्फोट के कारण बहुत समय लेने वाली।
  • काम करता है अगर आपके पास इस अर्थ में टिप्पणियों से अधिक पैरामीटर हैं कि आप सभी भविष्यवक्ता संयोजनों का परीक्षण करते हैं जो समाधान देते हैं

आप आगे के स्टेप वाइज सिलेक्शन का इस्तेमाल कर सकते हैं

  • कम समय लेने वाली, लेकिन पूर्ण सर्वोत्तम संयोजन नहीं मिल सकता है, esp। जब भविष्यवक्ता सहसंबद्ध होते हैं (एक भविष्यवक्ता चुन सकते हैं और 2 अन्य भविष्यवक्ताओं को जोड़ने पर सुधार में और सुधार लाने में असमर्थ हो सकते हैं)
  • तब भी काम करता है जब आपके पास प्रेक्षणों से अधिक पैरामीटर हों

आप पिछड़े उन्मूलन का उपयोग कर सकते हैं

  • काम नहीं करता है अगर आपके पास टिप्पणियों से अधिक पैरामीटर हैं, तो कोई भी अच्छा प्रारंभिक बिंदु (सिद्धांत में आप सभी मान्य शुरुआती बिंदुओं से शुरू कर सकते हैं, पीछे की ओर काम कर सकते हैं, सबसे अच्छा एक चुन सकते हैं, लेकिन यह सामान्य रूप से पीछे की ओर उन्मूलन का मतलब नहीं है)
  • फॉरवर्ड स्टेपवाइज की तरह, सभी सबसैट की तुलना में कम समय लेने वाला, लेकिन हो सकता है कि संपूर्ण बेस्ट कॉम्बिनेशन, एस्प न मिले। जब भविष्यवक्ता सहसंबद्ध होते हैं

आप LASSO का उपयोग कर सकते हैं

  • तब भी काम करता है जब आपके पास प्रेक्षणों से अधिक पैरामीटर हों
  • सीपीयू-कुशल जब आपके पास कई पैरामीटर हैं और सबसेट के दहनशील विस्फोट
  • नियमितीकरण जोड़ता है

सीवी में आपके डेटा पर LASSO बेहतर प्रदर्शन क्यों करता है के आपके सवाल के रूप में

  • एक संभावना ऊपर वर्णित पथ-निर्भरता है - LASSO एक बेहतर सबसेट मिल सकता है। शायद यह भाग्यशाली है, शायद LASSO आम तौर पर / कभी-कभी बेहतर सबसेट मिल जाता है, मुझे यकीन नहीं है। शायद इस विषय पर साहित्य है।
  • एक और (अधिक संभावना) संभावना है कि एलएएसओ नियमितीकरण ओवरफिटिंग को रोकता है, इसलिए एलएएसओ नमूना के सीवी / आउट में बेहतर प्रदर्शन करता है।

निचला रेखा, LASSO आपको नियमितीकरण और कुशल सबसेट चयन देता है, खासकर जब आपके पास बहुत सारे भविष्यवक्ता होते हैं।

BTW आप LASSO कर सकते हैं और CV (सबसे आम) का उपयोग करके अपने मॉडल का चयन कर सकते हैं लेकिन AIC या कुछ अन्य मानदंडों का उपयोग भी कर सकते हैं। अपने मॉडल को L1 नियमितीकरण और किसी बाधा के साथ न चलाएं, फिर धीरे-धीरे कसना कसें जब तक कि AIC न्यूनतम, या CV त्रुटि, या आपकी पसंद की कसौटी पर न पहुंच जाए। Http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.html देखें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.