यदि केवल भविष्यवाणी में रुचि है, तो रिज पर लस्सी का उपयोग क्यों करें?


37

पृष्ठ संख्या 223 में सांख्यिकीय शिक्षा के लिए एक परिचय में , लेखक रिज रिग्रेशन और लासो के बीच के अंतर को संक्षेप में प्रस्तुत करते हैं। वे एक उदाहरण (चित्र 6.9) प्रदान करते हैं, जब "लास्सो पूर्वाग्रह, प्रसरण और MSE के संदर्भ में रिज प्रतिगमन को बेहतर बनाता है"।

मैं समझता हूं कि लसो वांछनीय क्यों हो सकता है: यह विरल समाधानों में परिणत होता है क्योंकि यह कई गुणांक को 0 तक सिकोड़ देता है, जिसके परिणामस्वरूप सरल और व्याख्यात्मक मॉडल होते हैं। लेकिन मुझे यह समझ में नहीं आता है कि यह कैसे रिज को बेहतर बना सकता है, जब केवल भविष्यवाणियां ब्याज की होती हैं (यानी उदाहरण में इसे कम एमएसई कैसे मिल रहा है?)।

रिज के साथ, अगर कई भविष्यवक्ताओं की प्रतिक्रिया पर लगभग कोई प्रभाव नहीं पड़ता है (कुछ भविष्यवक्ताओं के पास एक बड़ा प्रभाव होता है), तो क्या उनके गुणांक केवल एक छोटी संख्या में शून्य के बहुत करीब सिकुड़ेंगे नहीं ... जिसके परिणामस्वरूप कुछ हद तक लस्सो के समान है ? तो अंतिम मॉडल में लसो से भी बदतर प्रदर्शन क्यों होगा?



2
मैंने उस लिंक को देखा। यह प्रश्न का उत्तर नहीं देता है।
ओलिवर एंजेल

जवाबों:


34

यह सवाल पूछने के लिए आप सही हैं। सामान्य तौर पर, जब एक उचित सटीकता स्कोरिंग नियम का उपयोग किया जाता है (उदाहरण के लिए, चुकता पूर्वानुमान त्रुटि), रिज प्रतिगमन लसो से बेहतर प्रदर्शन करेगा। लास्सो ने कुछ जानकारी "सही" भविष्यवक्ताओं को खोजने की कोशिश में खर्च की और यह कई मामलों में ऐसा करने में महान नहीं है। दोनों के सापेक्ष प्रदर्शन, सही प्रतिगमन गुणांक के वितरण पर निर्भर करेगा। यदि आपके पास सत्य में नॉनज़ेरो गुणांक का एक छोटा सा अंश है, तो लासो बेहतर प्रदर्शन कर सकता है। व्यक्तिगत रूप से मैं लगभग हर समय रिज का उपयोग करता हूं जब भविष्यवाणी की सटीकता में रुचि होती है।


1
क्या ऐसे उदाहरण हैं जब आप भविष्य कहनेवाला सटीकता में रुचि नहीं रखते हैं?
वालरस

1
@AlrustheCat कुछ लोग, स्टैनफोर्ड से आम तौर पर आने वाले स्टीरियो, उच्च-आयामी चर चयन में लासो के उपयोग की वकालत करते हैं। संभवतया, फ्रैंक का अर्थ "... मुख्य रूप से पूर्वसूचक सटीकता में" केवल "के बजाय" ... भविष्य कहनेवाला सटीकता में दिलचस्पी "में रुचि रखता है, हालांकि, मेरी राय में, इन दोनों के बीच का अंतर उपयोगी होने के लिए दो पांडित्य है।
जॉन मैडेन

मैंने कभी भी "नियमितीकरण को आयामीता में कमी" दृष्टिकोण के रूप में नहीं समझा है। आप लैसो नियमितीकरण के माध्यम से या तो आयामी कमी कर सकते हैं, या फिर परिणामी सुविधाओं पर अपनी मूल समस्या के लिए सबसे अच्छा नियमितीकरण फ़ंक्शन का उपयोग कर सकते हैं। लेकिन मैं पीछे हटा।
वालरस

9
"सामान्य तौर पर [...] रिज रिग्रेशन लस्सो को बेहतर बनाएगा" और "यदि आपके पास सत्य में नॉनज़ेरो गुणांक का एक छोटा सा अंश है, तो लसो बेहतर प्रदर्शन कर सकता है" यह प्रतीत होता है कि अधिकांश भविष्यवाणी समस्याओं में जमीनी सच्चाई विरल नहीं है। यह आप क्या कह रहे हैं?
अमीबा

5
हाँ, मुख्य रूप से। यदि आप "वितरण में जमीनी सच्चाई" जानते हैं, तो आप अज्ञात रिग्रेशन गुणांक के लिए बायेसियन पूर्व वितरण बनाएंगे जो आपको इष्टतम परिणाम देगा। और यहां तक ​​कि जब, कहते हैं, 3/4 भविष्यवक्ताओं के पास बिल्कुल शून्य प्रभाव है, रिज लसो के साथ प्रतिस्पर्धी है।
फ्रैंक हरेल

11

मुझे लगता है कि आपके द्वारा संदर्भित उदाहरण का विशिष्ट सेटअप यह समझने की कुंजी है कि लासो आउटपरफॉर्म रिज क्यों है: 45 में से केवल 2 भविष्यवाणियां वास्तव में प्रासंगिक हैं।

एक पैथोलॉजिकल केस में यह सीमाएँ: लासो, विशेष रूप से शून्य को आसान बनाने के लिए कम करने का इरादा रखती हैं, बिल्कुल उसी तरह से प्रदर्शन करती हैं, जबकि रिज को बड़ी संख्या में बेकार शब्दों से निपटना होगा (यहां तक ​​कि उनका प्रभाव शून्य तक कम हो जाता है, यह अभी भी है गैर-शून्य प्रभाव)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.