जब फीचर्स के सहसंबद्ध होने पर लासो या इलास्टिकनेट रिज से बेहतर प्रदर्शन करते हैं


17

मेरे पास 150 विशेषताओं का एक सेट है, और उनमें से कई एक-दूसरे के साथ अत्यधिक सहसंबद्ध हैं। मेरा लक्ष्य एक असतत चर के मूल्य का अनुमान लगाना है, जिसकी सीमा 1-8 है । मेरे नमूने का आकार 550 है , और मैं 10-गुना क्रॉस-सत्यापन का उपयोग कर रहा हूं ।

AFAIK, नियमितीकरण विधियों (लैस्सो, इलास्टिकनेट और रिज) के बीच, रिज सुविधाओं के बीच सहसंबंध के लिए अधिक कठोर है। यही कारण है कि मुझे उम्मीद थी कि रिज के साथ, मुझे अधिक सटीक भविष्यवाणी प्राप्त करनी चाहिए। हालाँकि, मेरे परिणाम बताते हैं कि लास्सो या इलास्टिक की औसत निरपेक्ष त्रुटि लगभग 0.61 है, जबकि यह स्कोर है रैशेज रिग्रेशन के लिए 0.97 है । मुझे आश्चर्य है कि इसके लिए एक स्पष्टीकरण क्या होगा। क्या यह इसलिए है क्योंकि मेरे पास कई विशेषताएं हैं, और लास्सो बेहतर प्रदर्शन करता है क्योंकि यह एक प्रकार की सुविधा का चयन करता है, जो अनावश्यक सुविधाओं से छुटकारा दिलाता है?


1
आपको क्या लगता है कि रिज को बेहतर प्रदर्शन करना चाहिए? आपका नमूना आकार क्या है?
बोदोनोविक

1
"प्रतिगमन के लिए अधिक कठोर" का क्या अर्थ है?
बोडोनोविक

1
संबंधित और बहुत मददगार: सांख्यिकी.स्टैकएक्सचेंज. com
kjetil b halvorsen

जवाबों:


21

मान लीजिए कि आपके पास दो उच्च सहसंबंधित भविष्यवक्ता चर , और मान लें कि दोनों केंद्रित हैं और स्केल किए गए हैं (मतलब शून्य, भिन्न एक)। तब पैरामीटर वेक्टर पर रिज दंड है बीटा 2 1 + बीटा 2 2 जबकि लैसो दंड शब्द है | बीटा 1 | + | बीटा 2 | । अब, चूंकि मॉडल अत्यधिक ठंडा माना जाता है, ताकि x और z कमोबेश Y की भविष्यवाणी करने में एक-दूसरे को स्थानापन्न कर सकें, इसलिए x , z के कई रैखिक संयोजन जहां हम बस भाग में स्थानापन्न करते हैंx,zβ12+β22β1+β2xzYx,zz के लिए x , भविष्यवाणियों के समान ही काम करेगा, उदाहरण के लिए 0.2 x + 0.8 x , 0.3 x + 0.7 z या 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zभविष्यवक्ताओं के बारे में भी उतना ही अच्छा होगा। अब इन तीन उदाहरणों को देखें, तीनों मामलों में लास्सो का जुर्माना बराबर है, यह 1 है, जबकि रिज का जुर्माना अलग-अलग है, यह क्रमशः 0.68, 0.58, 0.5 है, इसलिए रिज जुर्माना पेनल्टी के दौरान कॉलिनियर वैरिएंट के बराबर भार को पसंद करेगा। चुनने में सक्षम नहीं होगा। यह एक कारण रिज (या आमतौर पर, लोचदार नेट, जो कि लासो और रिज दंड का एक रैखिक संयोजन है) कॉलिनियर भविष्यवक्ताओं के साथ बेहतर काम करेगा: जब डेटा कॉलिनियर भविष्यवक्ताओं के विभिन्न रैखिक संयोजनों के बीच चयन करने का बहुत कम कारण देता है, तो लासो बस होगा "घूमना" जबकि रिज समान भार का चयन करने के लिए जाता है। यह आखिरी भविष्य के डेटा के साथ उपयोग के लिए बेहतर अनुमान हो सकता है! और, अगर वर्तमान डेटा के साथ ऐसा है, तो रिज के साथ बेहतर परिणाम के रूप में क्रॉस सत्यापन में दिखा सकता है।

हम इसे एक द्विअर्थी तरीके से देख सकते हैं: रिज और लास्सो का तात्पर्य अलग-अलग पूर्व सूचनाओं से है, और रिज द्वारा निहित पूर्व सूचना ऐसी स्थितियों में अधिक उचित है। (ट्रेवर हस्ती, रॉबर्ट टिब्शिरानी और मार्टिन वेनराइट द्वारा "इस व्याख्या को मैंने कमोबेश किताब से सीखा:" सांख्यिकीय लर्निंग विद स्पार्सिटी द लास्सो एंड जेनुअलाइजेशन ", लेकिन इस समय मुझे एक प्रत्यक्ष उद्धरण नहीं मिल पाया था)।


4
रिज के भविष्य के आंकड़ों पर बेहतर काम करने की संभावना के बारे में अच्छी बात। वर्तमान डेटा में क्रॉस-वैलिडेशन में त्रुटि और नए डेटा पर उपयोगिता के बीच का अंतर बहुत बार छूट जाता है। उत्तरार्द्ध के कुछ अनुमानों के लिए, ओपी डेटा के कई बूटस्ट्रैप नमूनों पर पूरे LASSO, लोचदार-नेट और रिज मॉडल-निर्माण प्रक्रियाओं को दोहरा सकता है, और फिर पूर्ण डेटा सेट पर लागू होने पर त्रुटियों की जांच कर सकता है। यह कम से कम मॉडल-निर्माण प्रक्रिया का परीक्षण करता है।
ईडीएम

मेरे लिए यह स्पष्ट नहीं है कि कोलियर डेटा के लिए समान वजन को चुनना क्यों फायदेमंद होगा? क्या कोई उस बिंदु पर विस्तार से बता सकता है?
रेमन मार्टिनेज

3

लासो और रिज के बीच सबसे महत्वपूर्ण अंतर यह है कि लासो स्वाभाविक रूप से एक चयन करता है, पूरी तरह से जहां कोवरिएट्स बहुत सहसंबद्ध होते हैं। फिट किए गए गुणांक को देखे बिना वास्तव में निश्चित होना असंभव है, लेकिन यह सोचना आसान है कि उन सहसंबद्ध विशेषताओं में से कई बस बेकार थे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.