कैसे तय करें कि किस नियमितीकरण (L1 या L2) का उपयोग करना है?
आपका लक्ष्य क्या है? दोनों गुणांक को दंडित करके मॉडल सामान्यीकरण में सुधार कर सकते हैं, क्योंकि परिणाम के विपरीत संबंध वाली विशेषताएं एक दूसरे को "ऑफसेट" कर सकती हैं (एक बड़ा सकारात्मक मूल्य एक बड़े नकारात्मक मूल्य द्वारा प्रतिसंतुलित होता है)। यह तब उत्पन्न हो सकता है जब कोलियर फीचर्स हों। डेटा में छोटे परिवर्तन नाटकीय रूप से भिन्न पैरामीटर अनुमान (उच्च विचरण अनुमान) के परिणामस्वरूप हो सकते हैं। दंड छोटे होने के लिए दोनों गुणांक को रोक सकता है। (हस्ती एट अल, एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग , 2 डी संस्करण, पृष्ठ 63)
एल 1 / एल 2 नियमितीकरण के पेशेवरों और विपक्ष क्या हैं?
L1 नियमितीकरण गुणांक मान को सीमित करके और कुछ गुणांक मानों को 0. कम करके कम्प्यूटेशनल रूप से बहुसंख्यात्मकता समस्या को संबोधित कर सकता है, Lasso प्रतिगमन (L1 दंड के साथ प्रतिगमन) एक द्विघात कार्यक्रम है जिसे हल करने के लिए कुछ विशेष उपकरणों की आवश्यकता होती है। जब आपके पास टिप्पणियों तुलना में अधिक विशेषताएं हैं , तो लासो अधिकांश गैर-शून्य गुणांक पर रखेगाNN । संदर्भ के आधार पर, यह वह नहीं हो सकता जो आप चाहते हैं।
एल 1 नियमितीकरण को कभी-कभी एक सुविधा चयन विधि के रूप में उपयोग किया जाता है। मान लीजिए कि आपके पास उपयोग की जाने वाली सुविधाओं की संख्या पर किसी प्रकार की सख्त टोपी है (क्योंकि सभी सुविधाओं के लिए डेटा संग्रह महंगा है, या आपके पास कितने मूल्यों को संग्रहीत कर सकते हैं, आदि पर सख्त इंजीनियरिंग बाधाएं हैं)। आप गैर-शून्य विशेषताओं की अपनी वांछित संख्या को हिट करने के लिए L1 पेनल्टी को ट्यून करने का प्रयास कर सकते हैं।
एल 2 नियमितीकरण गुणांक मानदंड को बाधित करके और सभी चर को रखकर मल्टीकोलिनरिटी समस्या का समाधान कर सकता है। यह ठीक से 0. होने के लिए एक गुणांक का अनुमान लगाने की संभावना नहीं है। यह जरूरी नहीं कि यह एक खामी है, जब तक कि किसी कारण के लिए एक विरल गुणांक वेक्टर महत्वपूर्ण नहीं है।
प्रतिगमन सेटिंग में, टिप्पणियों की तुलना में अधिक विशेषताओं के साथ प्रतिगमन का आकलन करने की समस्या का "क्लासिक" समाधान है। L2 नियमितीकरण प्रत्येक सुविधा के लिए गुणांक का अनुमान लगा सकता है, भले ही टिप्पणियों की तुलना में अधिक विशेषताएं हों (वास्तव में, यह "रिज प्रतिगमन" के लिए मूल प्रेरणा थी)।
एक विकल्प के रूप में, लोचदार नेट एल 1 और एल 2 नियमितीकरण को विशेष मामलों के रूप में अनुमति देता है। उद्योग में एक डेटा वैज्ञानिक के लिए एक विशिष्ट उपयोग-मामला यह है कि आप केवल सबसे अच्छा मॉडल चुनना चाहते हैं, लेकिन जरूरी नहीं कि अगर यह L1, L2 या दोनों का उपयोग करके दंडित हो। इलास्टिक नेट इन जैसी स्थितियों में अच्छा है।
क्या यह एल 1 का उपयोग करके 1 चयन करने की सिफारिश की गई है और फिर इन चयनित चर पर L2 लागू करें?
मैं L1- तत्कालीन L2 पाइपलाइन के प्रस्ताव के प्रकाशन से परिचित नहीं हूँ, लेकिन यह शायद मेरी ओर से केवल अज्ञानता है। वहाँ इसके साथ कुछ भी गलत नहीं लगता है। मैं एक साहित्य समीक्षा करूँगा।
इसी तरह के "चरणबद्ध" पाइपलाइनों के कुछ उदाहरण मौजूद हैं। एक "रिलैक्स्ड लस्सो" है, जो दो बार लसो रिग्रेशन को लागू करता है , एक बार डाउन-सलेक्ट करने के लिए एक बड़े समूह से सुविधाओं के एक छोटे समूह तक, और दूसरा मॉडल में उपयोग के लिए गुणांक का अनुमान लगाने के लिए। यह दंड के परिमाण को चुनने के लिए प्रत्येक चरण पर क्रॉस-सत्यापन का उपयोग करता है। तर्क यह है कि पहले चरण में, आप क्रॉस-वैलिडेट करेंगे और संभवतः अप्रासंगिक भविष्यवाणियों को स्क्रीन करने के लिए एक बड़ा जुर्माना चुनेंगे; दूसरे चरण में, आप क्रॉस-वैलिड करते हैं और संभवतः छोटे दंड (और इसलिए बड़े गुणांक) को चुनेंगे। इसका उल्लेख निकोलई मेन्सहॉसेन ("रिलैक्स्ड लासो।" कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस) के उद्धरण के साथ तत्वों के सांख्यिकीय अध्ययन में संक्षेप में किया गया है । वॉल्यूम 52, अंक 1, 15 सितंबर 2007, पीपी 374-393)।
उपयोगकर्ता @amoeba एक L1-then-OLS पाइपलाइन का भी सुझाव देता है; यह अच्छा हो सकता है क्योंकि इसमें एल 1 दंड के परिमाण के लिए केवल 1 हाइपरपरमीटर है, इसलिए कम फ़िडलिंग की आवश्यकता होगी।
एक समस्या जो किसी भी "चरणबद्ध" विश्लेषण पाइपलाइन के साथ उत्पन्न हो सकती है जो कुछ चरणों को करती है और फिर कुछ अन्य चरणों को अलग-अलग करती है, उन विभिन्न एल्गोरिदम के बीच कोई "दृश्यता" नहीं है, इसलिए एक प्रक्रिया किसी भी डेटा स्नूपिंग को विरासत में लेती है जो पिछले चरणों में हुई थी। यह प्रभाव नगण्य नहीं है; खराब कल्पना वाले मॉडलिंग के परिणामस्वरूप कचरा मॉडल हो सकते हैं।
डेटा-स्नूपिंग साइड-इफेक्ट्स के खिलाफ बचाव का एक तरीका आपकी सभी पसंदों को पार करना है। हालांकि, बढ़ी हुई कम्प्यूटेशनल लागत निषेधात्मक साबित हो सकती है।