मान लीजिए कि आपके पास दो उच्च सहसंबंधित भविष्यवक्ता चर , और मान लें कि दोनों केंद्रित हैं और स्केल किए गए हैं (मतलब शून्य, भिन्न एक)। तब पैरामीटर वेक्टर पर रिज दंड है बीटा 2 1 + बीटा 2 2 जबकि लैसो दंड शब्द है | बीटा 1 | + | बीटा 2 | । अब, चूंकि मॉडल अत्यधिक ठंडा माना जाता है, ताकि x और z कमोबेश Y की भविष्यवाणी करने में एक-दूसरे को स्थानापन्न कर सकें, इसलिए x , z के कई रैखिक संयोजन जहां हम बस भाग में स्थानापन्न करते हैंx,zβ21+β22∣β1∣+∣β2∣xzYx,zz के लिए x , भविष्यवाणियों के समान ही काम करेगा, उदाहरण के लिए 0.2 x + 0.8 x , 0.3 x + 0.7 z या 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zभविष्यवक्ताओं के बारे में भी उतना ही अच्छा होगा। अब इन तीन उदाहरणों को देखें, तीनों मामलों में लास्सो का जुर्माना बराबर है, यह 1 है, जबकि रिज का जुर्माना अलग-अलग है, यह क्रमशः 0.68, 0.58, 0.5 है, इसलिए रिज जुर्माना पेनल्टी के दौरान कॉलिनियर वैरिएंट के बराबर भार को पसंद करेगा। चुनने में सक्षम नहीं होगा। यह एक कारण रिज (या आमतौर पर, लोचदार नेट, जो कि लासो और रिज दंड का एक रैखिक संयोजन है) कॉलिनियर भविष्यवक्ताओं के साथ बेहतर काम करेगा: जब डेटा कॉलिनियर भविष्यवक्ताओं के विभिन्न रैखिक संयोजनों के बीच चयन करने का बहुत कम कारण देता है, तो लासो बस होगा "घूमना" जबकि रिज समान भार का चयन करने के लिए जाता है। यह आखिरी भविष्य के डेटा के साथ उपयोग के लिए बेहतर अनुमान हो सकता है! और, अगर वर्तमान डेटा के साथ ऐसा है, तो रिज के साथ बेहतर परिणाम के रूप में क्रॉस सत्यापन में दिखा सकता है।
हम इसे एक द्विअर्थी तरीके से देख सकते हैं: रिज और लास्सो का तात्पर्य अलग-अलग पूर्व सूचनाओं से है, और रिज द्वारा निहित पूर्व सूचना ऐसी स्थितियों में अधिक उचित है। (ट्रेवर हस्ती, रॉबर्ट टिब्शिरानी और मार्टिन वेनराइट द्वारा "इस व्याख्या को मैंने कमोबेश किताब से सीखा:" सांख्यिकीय लर्निंग विद स्पार्सिटी द लास्सो एंड जेनुअलाइजेशन ", लेकिन इस समय मुझे एक प्रत्यक्ष उद्धरण नहीं मिल पाया था)।