क्या लोचदार शुद्ध नियमितीकरण हमेशा लसो और रिज के लिए पसंद किया जाता है क्योंकि यह इन विधियों की कमियों को हल करने के लिए लगता है? अंतर्ज्ञान क्या है और लोचदार जाल के पीछे का गणित क्या है?
क्या लोचदार शुद्ध नियमितीकरण हमेशा लसो और रिज के लिए पसंद किया जाता है क्योंकि यह इन विधियों की कमियों को हल करने के लिए लगता है? अंतर्ज्ञान क्या है और लोचदार जाल के पीछे का गणित क्या है?
जवाबों:
हां, लस्सी और रिज रिग्रेशन पर इलास्टिक नेट हमेशा पसंद किया जाता है क्योंकि यह दोनों विधियों की सीमाओं को हल करता है, जबकि प्रत्येक विशेष मामलों को भी शामिल करता है। तो अगर रिज या लास्सो समाधान वास्तव में सबसे अच्छा है, तो कोई भी अच्छा मॉडल चयन दिनचर्या मॉडलिंग प्रक्रिया के हिस्से के रूप में पहचान करेगा।
मेरी पोस्ट की टिप्पणियों ने बताया है कि लोचदार नेट के फायदे अयोग्य नहीं हैं। मैं अपने विश्वास में कायम हूं कि लोचदार शुद्ध प्रतिगमन की सामान्यता अभी भी या नियमितीकरण के लिए बेहतर है । विशेष रूप से, मुझे लगता है कि मॉडलिंग की प्रक्रिया के बारे में हम और दूसरों के बीच विवाद के बिंदु सीधे-सीधे इस बात से जुड़े हैं कि हम किन धारणाओं के लिए तैयार हैं। अंतर्निहित डेटा के बारे में मजबूत ज्ञान की उपस्थिति में, कुछ तरीकों को दूसरों के लिए पसंद किया जाएगा। हालाँकि, लोचदार नेट के लिए मेरी प्राथमिकता मेरे संदेह में निहित है कि कोई आत्मविश्वास से जान लेगा कि या सही मॉडल है।
यह कुछ हद तक गोलाकार है। मुझे माफ कर दो अगर यह कुछ हद तक शानदार है, लेकिन अगर आप जानते हैं कि LASSO (रिज) सबसे अच्छा समाधान है, तो आप खुद से यह नहीं पूछेंगे कि इसे कैसे उचित रूप से मॉडल करना है; आप बस एक LASSO (रिज) मॉडल फिट करेंगे। यदि आपको पूरा यकीन है कि सही उत्तर LASSO (रिज) प्रतिगमन है, तो आप स्पष्ट रूप से आश्वस्त हैं कि एक लोचदार नेट फिटिंग समय बर्बाद करने का कोई कारण नहीं होगा। लेकिन अगर आप थोड़ा कम निश्चित हैं कि क्या LASSO (रिज) आगे बढ़ने का सही तरीका है, मेरा मानना है कि यह अधिक लचीले मॉडल का अनुमान लगाने के लिए समझ में आता है, और मूल्यांकन करता है कि डेटा पूर्व विश्वास का कितनी दृढ़ता से समर्थन करता है।
यह भी सच है, लेकिन मुझे लगता है कि यह एक समान कारण के लिए परिपत्र है: यदि आपने एक इष्टतम समाधान का अनुमान लगाया है और पाया है कि तो वह मॉडल है जो डेटा का समर्थन करता है। एक तरफ, हां, आपका अनुमानित मॉडल सही मॉडल नहीं है, लेकिन मुझे आश्चर्य होना चाहिए कि किसी को कैसे पता चलेगा कि किसी मॉडल के अनुमान से पहले सच मॉडल (या ) है। ऐसे डोमेन हो सकते हैं जहां आपके पास इस तरह का पूर्व ज्ञान है, लेकिन मेरा पेशेवर काम उनमें से एक नहीं है।
यह केवल तभी प्रासंगिक है जब आपके पास तंग समय / कंप्यूटर सीमाएं हों; अन्यथा यह सिर्फ एक उपद्रव है। GLMNET लोचदार शुद्ध समाधानों के आकलन के लिए स्वर्ण-मानक एल्गोरिथ्म है। उपयोगकर्ता अल्फा के कुछ मूल्य की आपूर्ति करता है, और यह नियमित रूप से समाधान के मार्ग गुणों का उपयोग करता है ताकि दंड परिमाण विभिन्न मूल्यों के लिए मॉडल के परिवार का जल्दी से अनुमान लगाया जा सके , और यह अक्सर समाधान के इस परिवार का अनुमान लगाने की तुलना में अधिक तेज़ी से अनुमान लगा सकता है। एक विशिष्ट मान लिए एक समाधान । तो, हाँ, GLMNET का उपयोग आपको ग्रिड-शैली विधियों ( कुछ मूल्यों पर पुनरावृति) और GLMNET को s की एक किस्म की कोशिश करने के लिए डोमेन के लिए कंसाइन करता है , लेकिन यह बहुत तेज़ है।
यह सच है, लेकिन उस कदम पर जहां कोई विचार कर रहा है कि किस विधि का उपयोग करना है, किसी को पता नहीं होगा कि लोचदार नेट, रिज या एलएएसओ में से कौन सा सबसे अच्छा है। यदि एक कारण यह है कि सबसे अच्छा समाधान LASSO या रिज प्रतिगमन होना चाहिए, तो हम दावे (1) के डोमेन में हैं। यदि हम अभी भी अनिश्चित हैं जो सबसे अच्छा है, तो हम LASSO, रिज और इलास्टिक नेट सॉल्यूशंस का परीक्षण कर सकते हैं, और उस बिंदु पर एक अंतिम मॉडल का विकल्प बना सकते हैं (या, यदि आप एक अकादमिक हैं, तो बस अपने पेपर को तीनों के बारे में लिखें। )। पूर्व अनिश्चितता की यह स्थिति या तो हमें दावे के क्षेत्र में डाल देगी (2), जहां सच्चा मॉडल LASSO / रिज है, लेकिन हम समय से पहले ऐसा नहीं जानते थे, और हम गलती से खराब पहचाने गए हाइपरपरमीटर के कारण गलत मॉडल का चयन करते हैं, या लोचदार जाल वास्तव में सबसे अच्छा समाधान है।
उचित मॉडल सत्यापन किसी भी मशीन लर्निंग एंटरप्राइज का एक अभिन्न अंग है। मॉडल सत्यापन आमतौर पर एक महंगा कदम है, इसलिए, यहां कोई भी अक्षमता को कम करने की कोशिश करेगा - यदि उन अक्षमताओं में से एक बेकार की कोशिश कर रहा है जो मूल्यों को व्यर्थ माना जाता है, तो एक सुझाव ऐसा करने के लिए हो सकता है। हां, हर तरह से, यदि आप उस मजबूत बयान से सहज हैं, जो आपके डेटा को व्यवस्थित करने के तरीके के बारे में बता रहे हैं - लेकिन हम दावे (1) और दावे (2) के क्षेत्र में वापस आ गए हैं।
मैं इन विधियों पर साहित्य को पढ़ने का सुझाव देता हूं, जो कि नेट नेट पर मूल पेपर से शुरू होते हैं। कागज अंतर्ज्ञान और गणित को विकसित करता है, और अत्यधिक पठनीय है। इसे यहाँ फिर से प्रस्तुत करना केवल लेखकों के स्पष्टीकरण के विरोध के लिए होगा। लेकिन उच्च-स्तरीय सारांश कि लोचदार शुद्ध रिज और लैसो दंड की एक उत्तल योग है, इसलिए जैसे एक गाऊसी त्रुटि मॉडल दिखता है के लिए उद्देश्य समारोह
के लिए
हुई ज़ो और ट्रेवर हस्ती। " लोचदार नेट के माध्यम से नियमितीकरण और परिवर्तनशील चयन ।" जेआर स्टेटिस्टिक। सोस।, वॉल्यूम 67 (2005), भाग 2, पीपी 301-320।
रिचर्ड हार्डी बताते हैं कि हस्ती एट अल में इसे और अधिक विस्तार से विकसित किया गया है। "सांख्यिकीय शिक्षा के तत्व" अध्याय 3 और 18।
यह एक सवाल है जो मुझे टिप्पणियों में दिया गया है:
मुझे अपने दृष्टिकोण के खिलाफ एक और तर्क देने की सलाह देते हैं कि लोचदार जाल अकेले या रासो की तुलना में बेहतर है। कल्पना कीजिए कि हम लोचदार शुद्ध लागत कार्य करने के लिए एक और जुर्माना जोड़ने के लिए, उदाहरण के लिए एक एक hyperparameter साथ लागत, । मुझे नहीं लगता कि इस पर काफी शोध है, लेकिन मैं आपको यकीन है कि अगर आप एक 3 डी पैरामीटर ग्रिड पर एक क्रॉस सत्यापन खोज करते हैं, तो आप मिल जाएगा इष्टतम मूल्य के रूप में। यदि हां, तो क्या आप तर्क देंगे कि लागत को भी शामिल करना हमेशा एक अच्छा विचार है।
मैं इस बात की सराहना करता हूं कि प्रश्न की भावना "यदि आप दावा करते हैं और दो दंड अच्छे हैं, तो दूसरे को क्यों नहीं जोड़ा जाए?" लेकिन मुझे लगता है कि इसका उत्तर यह है कि हम पहले स्थान पर क्यों नियमित हैं।
नियमितीकरण विरल समाधानों का उत्पादन करता है, लेकिन परिणाम के साथ सबसे दृढ़ता से सहसंबद्ध सुविधा का चयन करने के लिए भी जाता है और बाकी को शून्य करता है। इसके अलावा, अवलोकनों केसाथ सेट किए गए डेटा में, यह अधिकांश विशेषताओंपर चयन कर सकताहै। नियमितीकरण अत्यधिक (या पूरी तरह से) सहसंबद्ध सुविधाओं के परिणामस्वरूप होने वाली बीमार-समस्याओं से निपटने के लिए अनुकूल है। सुविधाओं केसाथ सेट किए गए डेटा में, नियमितीकरण का उपयोग मामलेमें एक मॉडल को विशिष्ट रूप से पहचानने के लिए किया जा सकता है।
इन समस्याओं में से किसी एक को अलग करते हुए, नियमित मॉडल अभी भी एमएल मॉडल का प्रदर्शन कर सकता है क्योंकि अनुमानकर्ताओं के संकोचन गुण "निराशावादी" हैं और गुणांक को 0 की ओर खींचते हैं।
लेकिन मैं एल के लिए सांख्यिकीय गुणों से अवगत नहीं हूं नियमितीकरण केहै। मैंने जिन समस्याओं पर काम किया है, उनमें हम आम तौर पर दोनों समस्याओं का सामना करते हैं: खराब सहसंबद्ध सुविधाओं का समावेश (परिकल्पनाएँ जो डेटा द्वारा वहन नहीं की जाती हैं), और सह-रैखिक सुविधाएँ।
दरअसल, मजबूर करने वाले कारण हैं कि और मापदंडों पर 2 दंड आमतौर पर उपयोग किए जाने वाले एकमात्र हैं।
इसलिए हम प्रभावी रूप से उन विकल्पों की श्रेणी को कवर कर सकते हैं जो संभवतः एल 1 और एल 2 मानदंडों के संयोजन के रूप में मानदंड द्वारा प्रदान किए जा सकते हैं - सभी अतिरिक्त हाइपरपरेटर ट्यूनिंग की आवश्यकता के बिना।
मैं आमतौर पर @ साइकोरैक्स जवाब से सहमत हूं, लेकिन मैं कुछ योग्यता जोड़ना चाहूंगा।
यह कहते हुए कि "लोचदार नेट हमेशा लसो और रिज प्रतिगमन पर अधिक पसंद किया जाता है" थोड़ा बहुत मजबूत हो सकता है। छोटे या मध्यम नमूनों में, लोचदार शुद्ध शुद्ध LASSO या शुद्ध रिज समाधान का चयन नहीं कर सकता है, भले ही पूर्व या उत्तरार्द्ध वास्तव में प्रासंगिक हो। मजबूत पूर्व ज्ञान को देखते हुए यह लोचदार नेट के स्थान पर LASSO या रिज का चयन करने के लिए समझ में आता है। हालांकि, पूर्व ज्ञान के अभाव में, लोचदार शुद्ध पसंदीदा समाधान होना चाहिए।
इसके अलावा, इलास्टिक नेट, LASSO या रिज की तुलना में अधिक महंगा है क्योंकि LASSO बनाम रिज के सापेक्ष वजन को क्रॉस वैधीकरण का उपयोग करके चुना जाना है। यदि अल्फा मानों का एक उचित ग्रिड 0.1 के एक चरण आकार के साथ [0,1] है, तो इसका मतलब है कि इलास्टिक नेट लगभग 11 गुना है जितना कि लैसो या रिज के रूप में कम्प्यूटेशनल रूप से महंगा है। (चूंकि LASSO और रिज में काफी समान कम्प्यूटेशनल जटिलता नहीं है, इसलिए परिणाम सिर्फ एक मोटा लक्षण है)।