आर स्क्वेरड LASSO का उपयोग करके प्रतिगमन के लिए एक अच्छा उपाय क्यों नहीं है?


12

मैंने कई स्थानों पर पढ़ा है कि जब LASSO का उपयोग करके एक मॉडल फिट किया जाता है तो R Squared एक आदर्श उपाय नहीं है। हालाँकि, मैं स्पष्ट नहीं हूँ कि ऐसा क्यों है।

इसके अलावा, क्या आप सबसे अच्छा विकल्प सुझा सकते हैं?

जवाबों:


19

LASSO का उपयोग करने का लक्ष्य कई covariates नहीं होने के अर्थ में एक विरल प्रतिनिधित्व (एक अनुमानित मात्रा का) प्राप्त कर रहा है। के मॉडल की तुलना बहुत सारे कोवरिएट्स वाले मॉडल के पक्ष में होती है: वास्तव में, परिणाम में असंबंधित covariates को जोड़ना कभी भी R 2 में कमी नहीं करेगा और लगभग हमेशा इसे कम से कम थोड़ा बढ़ाता है। LASSO मॉडल इष्टतम पेनल्टी लॉग-लाइबिलिटी के साथ मॉडल की पहचान करेगा (एक अनपेकेलाइज्ड लॉग-संभावना आर 2 से नीरस रूप से संबंधित है )। वैधता के आँकड़े जिनका उपयोग व्यापक रूप से LASSO मॉडल की तुलना अन्य प्रकार के मॉडल के लिए किया जाता है, उदाहरण के लिए, BIC या क्रॉस-वेरिफ़ाइड R 2आर2आर2आर2आर2


1
+1 स्पष्ट रूप से कारण प्रस्तुत करने और वैकल्पिक उपलब्ध कराने के लिए
Haitao Du

1
शानदार जवाब के लिए बहुत बहुत धन्यवाद! क्या आप इस बारे में विस्तार से विचार करेंगे कि "LASSO मॉडल इष्टतम पेनल्टी लॉग-लाइबिलिटी के साथ मॉडल की पहचान करेगा (एक अनपेक्षित रूप से लॉग-लाइबिलिटी monotonically R2 से संबंधित है)।" मैं इसका पहला भाग लेता हूं, इसका मतलब है कि यह कम से कम त्रुटि (भविष्यवाणी में और दंड के माध्यम से) के साथ मॉडल का चयन करेगा? लेकिन मैं इस बात पर स्पष्ट नहीं हूं कि कोष्ठक में बिट का क्या मतलब है। क्या इसका मतलब यह है कि अनपीलेलाइज्ड एलएल ऊपर चला जाता है क्योंकि आर 2 नीचे चला जाता है? इसके अलावा, क्या क्रॉस-वेलिडेड R2 को पूरी तरह से नए डेटासेट में होना चाहिए? या यह प्रशिक्षण डेटा पर आधारित हो सकता है?
डेव

3
log(2π)N+1log(N)+log(i=1nri2)1i=1nri2/i=1nyi2। दण्ड अप्रत्यक्ष रूप से त्रुटि में योगदान देता है, यह एक मूल्य है जिसे आप स्पार्सनेस लागू करने के लिए भुगतान करते हैं। अनपेक्षित मॉडल में हमेशा कम (आंतरिक) त्रुटि होगी। आमतौर पर लोग समान डेटासेट के साथ क्रॉस-वैरिफिकेशन करते हैं। नए डेटासेट में मॉडल का परीक्षण एक पूरी दूसरी चीज़ है ("क्रॉस" भाग की कोई आवश्यकता नहीं है) और यह पर्याप्त नहीं है।
एडम

@ अदमो मुझे लगता है कि आपकी टिप्पणी को अपने उत्तर में संपादित करना एक अच्छा विचार होगा, यह बहुत अच्छा है।
मैथ्यू डॉरी

हाय @AdamO एक अंतिम सवाल का पालन करें। मैं अब समझता हूं कि पारंपरिक आर 2 एक बुरा उपाय क्यों है। लेकिन, मैं स्पष्ट नहीं हूं कि आर 2 के पार-वैरिफाइड (एक ही डाटासेट के भीतर) ठीक क्यों है?
डेव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.