L1 नियमितीकरण L2 और इसके विपरीत से बेहतर कब काम करेगा?


30

नोट: मुझे पता है कि L1 में सुविधा चयन संपत्ति है। मैं यह समझने की कोशिश कर रहा हूं कि फीचर चयन पूरी तरह से अप्रासंगिक होने पर किसे चुनना है।

  1. कैसे तय करें कि किस नियमितीकरण (L1 या L2) का उपयोग करना है?
  2. एल 1 / एल 2 नियमितीकरण के पेशेवरों और विपक्ष क्या हैं?
  3. क्या यह एल 1 का उपयोग करके 1 चयन करने की सिफारिश की गई है और फिर इन चयनित चर पर L2 लागू करें?

2
ध्यान दें कि "L1 सुविधा चयन" को सुविधा स्थान का नियमितीकरण कहा जाना चाहिए; फीचर चयन करने के कई तरीके बेहतर तरीके से समझे जाते हैं जैसे कि मॉडल की गई समस्या के लिए क्या जानकारी प्रासंगिक है।

@mbq: मैं उत्सुक हूं कि "कई तरह से बेहतर तरीके" क्या आपका मतलब यहां है?
अमीबा का कहना है कि मोनिका

1
उन लोगों की तरह जो यहां भर्ती हैं

जवाबों:


31

कैसे तय करें कि किस नियमितीकरण (L1 या L2) का उपयोग करना है?

आपका लक्ष्य क्या है? दोनों गुणांक को दंडित करके मॉडल सामान्यीकरण में सुधार कर सकते हैं, क्योंकि परिणाम के विपरीत संबंध वाली विशेषताएं एक दूसरे को "ऑफसेट" कर सकती हैं (एक बड़ा सकारात्मक मूल्य एक बड़े नकारात्मक मूल्य द्वारा प्रतिसंतुलित होता है)। यह तब उत्पन्न हो सकता है जब कोलियर फीचर्स हों। डेटा में छोटे परिवर्तन नाटकीय रूप से भिन्न पैरामीटर अनुमान (उच्च विचरण अनुमान) के परिणामस्वरूप हो सकते हैं। दंड छोटे होने के लिए दोनों गुणांक को रोक सकता है। (हस्ती एट अल, एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग , 2 डी संस्करण, पृष्ठ 63)

एल 1 / एल 2 नियमितीकरण के पेशेवरों और विपक्ष क्या हैं?

L1 नियमितीकरण गुणांक मान को सीमित करके और कुछ गुणांक मानों को 0. कम करके कम्प्यूटेशनल रूप से बहुसंख्यात्मकता समस्या को संबोधित कर सकता है, Lasso प्रतिगमन (L1 दंड के साथ प्रतिगमन) एक द्विघात कार्यक्रम है जिसे हल करने के लिए कुछ विशेष उपकरणों की आवश्यकता होती है। जब आपके पास टिप्पणियों तुलना में अधिक विशेषताएं हैं , तो लासो अधिकांश गैर-शून्य गुणांक पर रखेगाNN । संदर्भ के आधार पर, यह वह नहीं हो सकता जो आप चाहते हैं।

एल 1 नियमितीकरण को कभी-कभी एक सुविधा चयन विधि के रूप में उपयोग किया जाता है। मान लीजिए कि आपके पास उपयोग की जाने वाली सुविधाओं की संख्या पर किसी प्रकार की सख्त टोपी है (क्योंकि सभी सुविधाओं के लिए डेटा संग्रह महंगा है, या आपके पास कितने मूल्यों को संग्रहीत कर सकते हैं, आदि पर सख्त इंजीनियरिंग बाधाएं हैं)। आप गैर-शून्य विशेषताओं की अपनी वांछित संख्या को हिट करने के लिए L1 पेनल्टी को ट्यून करने का प्रयास कर सकते हैं।

एल 2 नियमितीकरण गुणांक मानदंड को बाधित करके और सभी चर को रखकर मल्टीकोलिनरिटी समस्या का समाधान कर सकता है। यह ठीक से 0. होने के लिए एक गुणांक का अनुमान लगाने की संभावना नहीं है। यह जरूरी नहीं कि यह एक खामी है, जब तक कि किसी कारण के लिए एक विरल गुणांक वेक्टर महत्वपूर्ण नहीं है।

प्रतिगमन सेटिंग में, टिप्पणियों की तुलना में अधिक विशेषताओं के साथ प्रतिगमन का आकलन करने की समस्या का "क्लासिक" समाधान है। L2 नियमितीकरण प्रत्येक सुविधा के लिए गुणांक का अनुमान लगा सकता है, भले ही टिप्पणियों की तुलना में अधिक विशेषताएं हों (वास्तव में, यह "रिज प्रतिगमन" के लिए मूल प्रेरणा थी)।

एक विकल्प के रूप में, लोचदार नेट एल 1 और एल 2 नियमितीकरण को विशेष मामलों के रूप में अनुमति देता है। उद्योग में एक डेटा वैज्ञानिक के लिए एक विशिष्ट उपयोग-मामला यह है कि आप केवल सबसे अच्छा मॉडल चुनना चाहते हैं, लेकिन जरूरी नहीं कि अगर यह L1, L2 या दोनों का उपयोग करके दंडित हो। इलास्टिक नेट इन जैसी स्थितियों में अच्छा है।

क्या यह एल 1 का उपयोग करके 1 चयन करने की सिफारिश की गई है और फिर इन चयनित चर पर L2 लागू करें?

मैं L1- तत्कालीन L2 पाइपलाइन के प्रस्ताव के प्रकाशन से परिचित नहीं हूँ, लेकिन यह शायद मेरी ओर से केवल अज्ञानता है। वहाँ इसके साथ कुछ भी गलत नहीं लगता है। मैं एक साहित्य समीक्षा करूँगा।

इसी तरह के "चरणबद्ध" पाइपलाइनों के कुछ उदाहरण मौजूद हैं। एक "रिलैक्स्ड लस्सो" है, जो दो बार लसो रिग्रेशन को लागू करता है , एक बार डाउन-सलेक्ट करने के लिए एक बड़े समूह से सुविधाओं के एक छोटे समूह तक, और दूसरा मॉडल में उपयोग के लिए गुणांक का अनुमान लगाने के लिए। यह दंड के परिमाण को चुनने के लिए प्रत्येक चरण पर क्रॉस-सत्यापन का उपयोग करता है। तर्क यह है कि पहले चरण में, आप क्रॉस-वैलिडेट करेंगे और संभवतः अप्रासंगिक भविष्यवाणियों को स्क्रीन करने के लिए एक बड़ा जुर्माना चुनेंगे; दूसरे चरण में, आप क्रॉस-वैलिड करते हैं और संभवतः छोटे दंड (और इसलिए बड़े गुणांक) को चुनेंगे। इसका उल्लेख निकोलई मेन्सहॉसेन ("रिलैक्स्ड लासो।" कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस) के उद्धरण के साथ तत्वों के सांख्यिकीय अध्ययन में संक्षेप में किया गया है । वॉल्यूम 52, अंक 1, 15 सितंबर 2007, पीपी 374-393)।

उपयोगकर्ता @amoeba एक L1-then-OLS पाइपलाइन का भी सुझाव देता है; यह अच्छा हो सकता है क्योंकि इसमें एल 1 दंड के परिमाण के लिए केवल 1 हाइपरपरमीटर है, इसलिए कम फ़िडलिंग की आवश्यकता होगी।

एक समस्या जो किसी भी "चरणबद्ध" विश्लेषण पाइपलाइन के साथ उत्पन्न हो सकती है जो कुछ चरणों को करती है और फिर कुछ अन्य चरणों को अलग-अलग करती है, उन विभिन्न एल्गोरिदम के बीच कोई "दृश्यता" नहीं है, इसलिए एक प्रक्रिया किसी भी डेटा स्नूपिंग को विरासत में लेती है जो पिछले चरणों में हुई थी। यह प्रभाव नगण्य नहीं है; खराब कल्पना वाले मॉडलिंग के परिणामस्वरूप कचरा मॉडल हो सकते हैं।

डेटा-स्नूपिंग साइड-इफेक्ट्स के खिलाफ बचाव का एक तरीका आपकी सभी पसंदों को पार करना है। हालांकि, बढ़ी हुई कम्प्यूटेशनल लागत निषेधात्मक साबित हो सकती है।


क्षमा करें, मैंने अपने तीसरे बिंदु के उत्तर का पालन नहीं किया। क्या तुम समझा सकते हो?
जॉर्जऑफTheRF

1
यह आशावाद के लिए ठीक से लेखांकन के बारे में है। उसी कारण के लिए जिसे हम आउट-ऑफ-सैंपल डेटा पर प्रदर्शन को मापते हैं, यह आवश्यक है कि सभी फ़िल्टरिंग / प्रीप्रोसेसिंग चरणों को इस तरह से किया जाए कि कदमों के बीच सूचना रिसाव की अनुमति न हो। यदि आप अपने संपूर्ण डेटा सेट पर सुविधा का चयन करते हैं और फिर कुछ विश्लेषण चलाते हैं, तो आपको शोर में सिग्नल मिलेगा।
साइकोरैक्स का कहना है कि मोनिका

ठीक है। फिर एक एमएल मॉडल चलाने से पहले सुविधा चयन के लिए अनुशंसित दृष्टिकोण क्या है?
जॉर्जऑफTheRF

3
मेरी सिफारिश है "नहीं।" उदाहरण के लिए यहां देखें कि यह कैसे जा सकता है: आंकड़े.stackexchange.com/questions/164048/… लेकिन यह आपके प्रारंभिक प्रश्न से पर्याप्त रूप से अलग है कि आपको बस एक नया प्रश्न पूछना चाहिए। (यह आपके लाभ के लिए है, जैसा कि आप नए प्रश्न पर अतिरिक्त प्रतिनिधि अर्जित करने में सक्षम होंगे।)
साइकोरैक्स ने कहा कि मोनिका

3
(+1) मैंने साहित्य में चर्चा की गई L1-follow-by-L2 नहीं देखी है, लेकिन यह मेरे लिए समझ में आता है। एल 1-फॉलो-बाय-ओएलएस (उर्फ "लार्स-ओएलएस हाइब्रिड") और एल 1-फॉलो-बाय-एल 1 (आराम से लस्सो) हैं, इसलिए कोई भी एल 1-फॉलो-बाय-एल 2 पर विचार कर सकता है। जब तक दोनों हाइपरपैरामीटर क्रॉस-वेलिडेटेड हैं, तब तक यह एक व्यवहार्य नियमितीकरण रणनीति होनी चाहिए।
अमीबा का कहना है कि

19

आम तौर पर बोलते हुए अगर आप चाहते हैं कि इष्टतम भविष्यवाणी L2 का उपयोग करें। यदि आप भविष्यवाणिय विवेक के कुछ त्याग पर पारसीमोनी चाहते हैं तो L1 का उपयोग करें। लेकिन ध्यान दें कि पार्सिमोनी भ्रामक हो सकती है, उदाहरण के लिए, बूटस्ट्रैप का उपयोग करते हुए लासो प्रक्रिया को दोहराते हुए अक्सर "चयनित" सुविधाओं की सूची में महत्वपूर्ण अस्थिरता प्रकट करेंगे, खासकर जब भविष्यवक्ता एक-दूसरे के साथ सहसंबद्ध होते हैं।


"इष्टतम भविष्यवाणी" - आपका मतलब है L2 सामान्य रूप से अनदेखी डेटा पर बेहतर सटीकता देता है?
जॉर्जऑफ TheRF

3
हां, विशेष रूप से भविष्य कहनेवाला भेदभाव के संबंध में।
फ्रैंक हेरेल

1
L2L1

2
L2L1

कूल, स्पष्टीकरण के लिए धन्यवाद। यह अच्छा समझ में आता है। (हां, आप सही हैं; मैं पीडी को जोखिम के संदर्भ में सही वर्गीकरण और / या विषयों के आदेश से संबंधित उपायों से जोड़ता हूं, इसलिए मुझे "वर्गीकरण कार्य" कहने की जल्दी थी; मेरा बुरा, मुझे अधिक सावधान रहना चाहिए।)
us --r11852
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.