लोचदार शुद्ध नियमितीकरण क्या है, और यह रिज (


35

क्या लोचदार शुद्ध नियमितीकरण हमेशा लसो और रिज के लिए पसंद किया जाता है क्योंकि यह इन विधियों की कमियों को हल करने के लिए लगता है? अंतर्ज्ञान क्या है और लोचदार जाल के पीछे का गणित क्या है?


6
हस्ती एट अल की जाँच करें। "सांख्यिकीय शिक्षा के तत्व" अध्याय 3 और 18 (खोज "लोचदार नेट")।
रिचर्ड हार्डी

जवाबों:


42

1. कौन सी विधि पसंद की जाती है?

हां, लस्सी और रिज रिग्रेशन पर इलास्टिक नेट हमेशा पसंद किया जाता है क्योंकि यह दोनों विधियों की सीमाओं को हल करता है, जबकि प्रत्येक विशेष मामलों को भी शामिल करता है। तो अगर रिज या लास्सो समाधान वास्तव में सबसे अच्छा है, तो कोई भी अच्छा मॉडल चयन दिनचर्या मॉडलिंग प्रक्रिया के हिस्से के रूप में पहचान करेगा।

मेरी पोस्ट की टिप्पणियों ने बताया है कि लोचदार नेट के फायदे अयोग्य नहीं हैं। मैं अपने विश्वास में कायम हूं कि लोचदार शुद्ध प्रतिगमन की सामान्यता अभी भी L1 या L2 नियमितीकरण के लिए बेहतर है । विशेष रूप से, मुझे लगता है कि मॉडलिंग की प्रक्रिया के बारे में हम और दूसरों के बीच विवाद के बिंदु सीधे-सीधे इस बात से जुड़े हैं कि हम किन धारणाओं के लिए तैयार हैं। अंतर्निहित डेटा के बारे में मजबूत ज्ञान की उपस्थिति में, कुछ तरीकों को दूसरों के लिए पसंद किया जाएगा। हालाँकि, लोचदार नेट के लिए मेरी प्राथमिकता मेरे संदेह में निहित है कि कोई आत्मविश्वास से जान लेगा कि L1 या L2 सही मॉडल है।

  1. दावा: पूर्व ज्ञान लोचदार शुद्ध प्रतिगमन का उपयोग करने की आवश्यकता में से एक को कम कर सकता है।

यह कुछ हद तक गोलाकार है। मुझे माफ कर दो अगर यह कुछ हद तक शानदार है, लेकिन अगर आप जानते हैं कि LASSO (रिज) सबसे अच्छा समाधान है, तो आप खुद से यह नहीं पूछेंगे कि इसे कैसे उचित रूप से मॉडल करना है; आप बस एक LASSO (रिज) मॉडल फिट करेंगे। यदि आपको पूरा यकीन है कि सही उत्तर LASSO (रिज) प्रतिगमन है, तो आप स्पष्ट रूप से आश्वस्त हैं कि एक लोचदार नेट फिटिंग समय बर्बाद करने का कोई कारण नहीं होगा। लेकिन अगर आप थोड़ा कम निश्चित हैं कि क्या LASSO (रिज) आगे बढ़ने का सही तरीका है, मेरा मानना ​​है कि यह अधिक लचीले मॉडल का अनुमान लगाने के लिए समझ में आता है, और मूल्यांकन करता है कि डेटा पूर्व विश्वास का कितनी दृढ़ता से समर्थन करता है।

  1. दावा: आमतौर पर बड़े डेटा L1 या L2 समाधानों की खोज की अनुमति नहीं देंगे , यहां तक ​​कि उन मामलों में भी जब L1 या L2 समाधान सही मॉडल है।

यह भी सच है, लेकिन मुझे लगता है कि यह एक समान कारण के लिए परिपत्र है: यदि आपने एक इष्टतम समाधान का अनुमान लगाया है और पाया है कि α{0,1}, तो वह मॉडल है जो डेटा का समर्थन करता है। एक तरफ, हां, आपका अनुमानित मॉडल सही मॉडल नहीं है, लेकिन मुझे आश्चर्य होना चाहिए कि किसी को कैसे पता चलेगा कि किसी मॉडल के अनुमान से पहले सच मॉडल α=1 (या α=0 ) है। ऐसे डोमेन हो सकते हैं जहां आपके पास इस तरह का पूर्व ज्ञान है, लेकिन मेरा पेशेवर काम उनमें से एक नहीं है।

  1. दावा: अतिरिक्त हाइपरपामेटर्स का परिचय मॉडल के आकलन की कम्प्यूटेशनल लागत को बढ़ाता है।

यह केवल तभी प्रासंगिक है जब आपके पास तंग समय / कंप्यूटर सीमाएं हों; अन्यथा यह सिर्फ एक उपद्रव है। GLMNET लोचदार शुद्ध समाधानों के आकलन के लिए स्वर्ण-मानक एल्गोरिथ्म है। उपयोगकर्ता अल्फा के कुछ मूल्य की आपूर्ति करता है, और यह नियमित रूप से समाधान के मार्ग गुणों का उपयोग करता है ताकि दंड परिमाण λ विभिन्न मूल्यों के लिए मॉडल के परिवार का जल्दी से अनुमान लगाया जा सके , और यह अक्सर समाधान के इस परिवार का अनुमान लगाने की तुलना में अधिक तेज़ी से अनुमान लगा सकता है। एक विशिष्ट मान λ लिए एक समाधान । तो, हाँ, GLMNET का उपयोग आपको ग्रिड-शैली विधियों ( α कुछ मूल्यों पर पुनरावृति) और GLMNET को λ s की एक किस्म की कोशिश करने के लिए डोमेन के लिए कंसाइन करता है , लेकिन यह बहुत तेज़ है।

  1. दावा: LASSO या रिज प्रतिगमन पर लोचदार नेट के बेहतर प्रदर्शन की गारंटी नहीं है।

यह सच है, लेकिन उस कदम पर जहां कोई विचार कर रहा है कि किस विधि का उपयोग करना है, किसी को पता नहीं होगा कि लोचदार नेट, रिज या एलएएसओ में से कौन सा सबसे अच्छा है। यदि एक कारण यह है कि सबसे अच्छा समाधान LASSO या रिज प्रतिगमन होना चाहिए, तो हम दावे (1) के डोमेन में हैं। यदि हम अभी भी अनिश्चित हैं जो सबसे अच्छा है, तो हम LASSO, रिज और इलास्टिक नेट सॉल्यूशंस का परीक्षण कर सकते हैं, और उस बिंदु पर एक अंतिम मॉडल का विकल्प बना सकते हैं (या, यदि आप एक अकादमिक हैं, तो बस अपने पेपर को तीनों के बारे में लिखें। )। पूर्व अनिश्चितता की यह स्थिति या तो हमें दावे के क्षेत्र में डाल देगी (2), जहां सच्चा मॉडल LASSO / रिज है, लेकिन हम समय से पहले ऐसा नहीं जानते थे, और हम गलती से खराब पहचाने गए हाइपरपरमीटर के कारण गलत मॉडल का चयन करते हैं, या लोचदार जाल वास्तव में सबसे अच्छा समाधान है।

  1. दावा: क्रॉस-वैलिडेशन के बिना हाइपरपरमेटर चयन अत्यधिक पक्षपाती और त्रुटि-प्रवण है

उचित मॉडल सत्यापन किसी भी मशीन लर्निंग एंटरप्राइज का एक अभिन्न अंग है। मॉडल सत्यापन आमतौर पर एक महंगा कदम है, इसलिए, यहां कोई भी अक्षमता को कम करने की कोशिश करेगा - यदि उन अक्षमताओं में से एक बेकार की कोशिश कर रहा है जो α मूल्यों को व्यर्थ माना जाता है, तो एक सुझाव ऐसा करने के लिए हो सकता है। हां, हर तरह से, यदि आप उस मजबूत बयान से सहज हैं, जो आपके डेटा को व्यवस्थित करने के तरीके के बारे में बता रहे हैं - लेकिन हम दावे (1) और दावे (2) के क्षेत्र में वापस आ गए हैं।

2. लोचदार जाल के पीछे अंतर्ज्ञान और गणित क्या है?

मैं इन विधियों पर साहित्य को पढ़ने का सुझाव देता हूं, जो कि नेट नेट पर मूल पेपर से शुरू होते हैं। कागज अंतर्ज्ञान और गणित को विकसित करता है, और अत्यधिक पठनीय है। इसे यहाँ फिर से प्रस्तुत करना केवल लेखकों के स्पष्टीकरण के विरोध के लिए होगा। लेकिन उच्च-स्तरीय सारांश कि लोचदार शुद्ध रिज और लैसो दंड की एक उत्तल योग है, इसलिए जैसे एक गाऊसी त्रुटि मॉडल दिखता है के लिए उद्देश्य समारोह

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

के लिए α[0,1].

हुई ज़ो और ट्रेवर हस्ती। " लोचदार नेट के माध्यम से नियमितीकरण और परिवर्तनशील चयन ।" जेआर स्टेटिस्टिक। सोस।, वॉल्यूम 67 (2005), भाग 2, पीपी 301-320।

रिचर्ड हार्डी बताते हैं कि हस्ती एट अल में इसे और अधिक विस्तार से विकसित किया गया है। "सांख्यिकीय शिक्षा के तत्व" अध्याय 3 और 18।

3. यदि आप अतिरिक्त जोड़ते हैं तो क्या होगा Lq मानदंडहैं?

यह एक सवाल है जो मुझे टिप्पणियों में दिया गया है:

मुझे अपने दृष्टिकोण के खिलाफ एक और तर्क देने की सलाह देते हैं कि लोचदार जाल अकेले या रासो की तुलना में बेहतर है। कल्पना कीजिए कि हम लोचदार शुद्ध लागत कार्य करने के लिए एक और जुर्माना जोड़ने के लिए, उदाहरण के लिए एक L3 एक hyperparameter साथ लागत, γ । मुझे नहीं लगता कि इस पर काफी शोध है, लेकिन मैं आपको यकीन है कि अगर आप एक 3 डी पैरामीटर ग्रिड पर एक क्रॉस सत्यापन खोज करते हैं, तो आप मिल जाएगा γ0 इष्टतम मूल्य के रूप में। यदि हां, तो क्या आप तर्क देंगे कि L3 लागत को भी शामिल करना हमेशा एक अच्छा विचार है।

मैं इस बात की सराहना करता हूं कि प्रश्न की भावना "यदि आप दावा करते हैं और दो दंड अच्छे हैं, तो दूसरे को क्यों नहीं जोड़ा जाए?" लेकिन मुझे लगता है कि इसका उत्तर यह है कि हम पहले स्थान पर क्यों नियमित हैं।

L1 नियमितीकरण विरल समाधानों का उत्पादन करता है, लेकिन परिणाम के साथ सबसे दृढ़ता से सहसंबद्ध सुविधा का चयन करने के लिए भी जाता है और बाकी को शून्य करता है। इसके अलावा,n अवलोकनों केसाथ सेट किए गए डेटा में, यह अधिकांशn विशेषताओंपर चयन कर सकताहै। L2 नियमितीकरण अत्यधिक (या पूरी तरह से) सहसंबद्ध सुविधाओं के परिणामस्वरूप होने वाली बीमार-समस्याओं से निपटने के लिए अनुकूल है। p सुविधाओं केसाथ सेट किए गए डेटा में,L2 नियमितीकरण का उपयोगp>n मामलेमें एक मॉडल को विशिष्ट रूप से पहचानने के लिए किया जा सकता है।

इन समस्याओं में से किसी एक को अलग करते हुए, नियमित मॉडल अभी भी एमएल मॉडल का प्रदर्शन कर सकता है क्योंकि अनुमानकर्ताओं के संकोचन गुण "निराशावादी" हैं और गुणांक को 0 की ओर खींचते हैं।

लेकिन मैं एल के लिए सांख्यिकीय गुणों से अवगत नहीं हूंL3 नियमितीकरण केहै। मैंने जिन समस्याओं पर काम किया है, उनमें हम आम तौर पर दोनों समस्याओं का सामना करते हैं: खराब सहसंबद्ध सुविधाओं का समावेश (परिकल्पनाएँ जो डेटा द्वारा वहन नहीं की जाती हैं), और सह-रैखिक सुविधाएँ।

दरअसल, मजबूर करने वाले कारण हैं कि L1 और L2मापदंडों पर 2 दंड आमतौर पर उपयोग किए जाने वाले एकमात्र हैं।

L1L2

L2L1L1L2

इसलिए हम प्रभावी रूप से उन विकल्पों की श्रेणी को कवर कर सकते हैं जो संभवतः एल 1 और एल 2 मानदंडों के संयोजन के रूप में Lq मानदंड द्वारा प्रदान किए जा सकते हैं - सभी अतिरिक्त हाइपरपरेटर ट्यूनिंग की आवश्यकता के बिना।L1L2


4
यह कहते हुए कि "लोचदार नेट हमेशा लसो और रिज प्रतिगमन पर पसंद किया जाता है" थोड़ा बहुत मजबूत हो सकता है। छोटे या मध्यम नमूनों में, लोचदार शुद्ध शुद्ध LASSO या शुद्ध रिज समाधान का चयन नहीं कर सकता है, भले ही पूर्व या उत्तरार्द्ध वास्तव में प्रासंगिक हो। मजबूत पूर्व ज्ञान को देखते हुए यह लोचदार नेट के स्थान पर LASSO या रिज का चयन करने के लिए समझ में आता है। हालांकि, पूर्व ज्ञान के अभाव में, लोचदार शुद्ध पसंदीदा समाधान होना चाहिए।
रिचर्ड हार्डी

4
α

7
γγ0

5
L1L2L3

3
"हम LASSO, रिज और इलास्टिक नेट सॉल्यूशंस का परीक्षण कर सकते हैं, और एक अंतिम मॉडल का विकल्प बना सकते हैं" - हम कर सकते हैं, लेकिन निश्चित रूप से खुद ही एक नई प्रक्रिया है, जो यादृच्छिक त्रुटि के लिए एक मानदंड विषय को अनुकूलित करता है, जो बेहतर प्रदर्शन नहीं कर सकता है या नहीं कर सकता है। LASSo, या रिज प्रतिगमन या अकेले लोचदार नेट की तुलना में।
Scortchi - को पुनः स्थापित मोनिका

11

मैं आमतौर पर @ साइकोरैक्स जवाब से सहमत हूं, लेकिन मैं कुछ योग्यता जोड़ना चाहूंगा।

यह कहते हुए कि "लोचदार नेट हमेशा लसो और रिज प्रतिगमन पर अधिक पसंद किया जाता है" थोड़ा बहुत मजबूत हो सकता है। छोटे या मध्यम नमूनों में, लोचदार शुद्ध शुद्ध LASSO या शुद्ध रिज समाधान का चयन नहीं कर सकता है, भले ही पूर्व या उत्तरार्द्ध वास्तव में प्रासंगिक हो। मजबूत पूर्व ज्ञान को देखते हुए यह लोचदार नेट के स्थान पर LASSO या रिज का चयन करने के लिए समझ में आता है। हालांकि, पूर्व ज्ञान के अभाव में, लोचदार शुद्ध पसंदीदा समाधान होना चाहिए।

इसके अलावा, इलास्टिक नेट, LASSO या रिज की तुलना में अधिक महंगा है क्योंकि LASSO बनाम रिज के सापेक्ष वजन को क्रॉस वैधीकरण का उपयोग करके चुना जाना है। यदि अल्फा मानों का एक उचित ग्रिड 0.1 के एक चरण आकार के साथ [0,1] है, तो इसका मतलब है कि इलास्टिक नेट लगभग 11 गुना है जितना कि लैसो या रिज के रूप में कम्प्यूटेशनल रूप से महंगा है। (चूंकि LASSO और रिज में काफी समान कम्प्यूटेशनल जटिलता नहीं है, इसलिए परिणाम सिर्फ एक मोटा लक्षण है)।


1
या वास्तव में LASSO या रिज प्रतिगमन अनपेक्षितकृत प्रतिगमन पर बेहतर पूर्वानुमान प्रदर्शन नहीं दे सकता है।
Scortchi - को पुनः स्थापित मोनिका

4
किस तरह के पूर्व ज्ञान के कारण लसो को पसंद किया जा सकता है और किस प्रकार के पूर्व ज्ञान से कोई व्यक्ति तरजीह देना पसंद करेगा?
अमीबा का कहना है कि मोनिका

4
@amoeba, यदि यह प्रशंसनीय है कि सभी रजिस्ट्रार प्रासंगिक हैं, लेकिन वे अत्यधिक सहसंबद्ध हैं, तो किसी भी चर चयन की आवश्यकता नहीं है और इस तरह रिज को प्राथमिकता दी जा सकती है। यदि, दूसरी ओर, कुछ रजिस्टरों के पूरी तरह से अप्रासंगिक होने की संभावना है (लेकिन हमें अभी यह नहीं पता है कि कौन से हैं) तो चर चयन की आवश्यकता है और LASSO को प्राथमिकता दी जा सकती है। यह ज्ञान विषय-वस्तु डोमेन से लिया जाएगा। मुझे लगता है कि हस्ती एट अल में कुछ उदाहरण हो सकते हैं। "सांख्यिकीय शिक्षा के तत्व" या संबंधित साहित्य में, मुझे अभी याद नहीं है कि मैंने कहां पढ़ा है।
रिचर्ड हार्डी

1
@kjetilbhalvorsen, धन्यवाद, यह मददगार था।
रिचर्ड हार्डी

1
@amoeba, रिज सहसंबद्ध डेटा के लिए बेहतर है, जहां L2 इनपुट पर कई छोटे वज़न (औसत) को प्रोत्साहित करता है..ज्यादातर उदाहरण स्वतंत्र शोर के साथ मापे जा रहे हैं (जैसे सिग्नल प्रोसेसिंग, या जैसे एक ही विषय के कई परीक्षा), जबकि l1। बेहतर है जहां 1 संस्करण दूसरे पर हावी है, क्लासिक मामला पदानुक्रमित डेटा है: जहां गुणांक का अनुमान पदानुक्रम में उच्चतम स्तर पर होना चाहिए।
seanv507
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.