प्रतिगमन के लिए नियमितीकरण विधियों का उपयोग कब करें?


83

ओएलएस के बजाय नियमितीकरण विधियों (रिज, लास्सो या कम से कम कोण प्रतिगमन) का उपयोग करके किन परिस्थितियों में विचार करना चाहिए?

मामले में यह चर्चा को तेज करने में मदद करता है, मेरी मुख्य रुचि पूर्वानुमान सटीकता में सुधार कर रही है।

जवाबों:


75

संक्षिप्त उत्तर: जब भी आप इन स्थितियों में से एक का सामना कर रहे हैं:

  • बड़ी संख्या में चर या कोई कम अनुपात। टिप्पणियों के लिए नहीं। चर ( केस सहित ),np
  • उच्च संपार्श्विकता,
  • एक विरल समाधान की तलाश में (यानी, मॉडल मापदंडों का आकलन करते समय सुविधा चयन एम्बेड करें), या
  • उच्च-आयामी डेटा सेट में चर समूहन के लिए लेखांकन।

पूर्वाग्रह और विचरण के बीच एक बेहतर समझौता के माध्यम से रिज प्रतिगमन आम तौर पर ओएलएस समाधान की तुलना में बेहतर भविष्यवाणियों का उत्पादन करता है। इसका मुख्य दोष यह है कि सभी भविष्यवाणियों को मॉडल में रखा जाता है, इसलिए यह बहुत दिलचस्प नहीं है यदि आप एक पारसमणि मॉडल की तलाश करते हैं या किसी प्रकार की सुविधा का चयन करना चाहते हैं।

स्पार्सिटी प्राप्त करने के लिए, लैस्सो अधिक उपयुक्त है, लेकिन यह जरूरी नहीं कि उच्च कोलीनारिटी की उपस्थिति में अच्छे परिणाम देगा (यह देखा गया है कि यदि भविष्यवाणियों को अत्यधिक सहसंबद्ध किया जाता है, तो रेस्स प्रतिगमन पर लैस्सो की भविष्यवाणी का प्रदर्शन हावी है)। एल 1 पेनल्टी के साथ दूसरी समस्या यह है कि लैस्सो सॉल्यूशन विशिष्ट रूप से निर्धारित नहीं किया जाता है, जब चर की संख्या विषयों की संख्या से अधिक होती है (यह रिज रिग्रेशन का मामला नहीं है)। लास्सो का अंतिम दोष यह है कि यह उच्च युग्मक सहसंबंधों वाले भविष्यवक्ताओं के समूह के बीच केवल एक चर का चयन करता है। इस मामले में, समूह की तरह वैकल्पिक समाधान हैं (यानी, कोवरिएट्स के ब्लॉक पर सिकुड़न प्राप्त करें, जो प्रतिगमन गुणांक के कुछ ब्लॉक बिल्कुल शून्य हैं) या फ्यूज़्डलैसो। ग्राफिकल कमंद भी GGMs के लिए आशाजनक सुविधाओं (आर देखने प्रदान करता है glasso पैकेज)।

लेकिन, निश्चित रूप से, इलास्टिनेट मानदंड, जो एल 1 और एल 2 दंड का एक संयोजन है, दोनों संकोचन और स्वचालित चर चयन प्राप्त करते हैं, और यह उस मामले में चर रखने की अनुमति देता है जहां । Zou और Hastie (2005) के बाद, इसे उस तर्क के रूप में परिभाषित किया गया है जो कम से कम (ओवर में )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

जहाँ और।β2=j=1pβj2β1=j=1p|βj|

फ्रीडमैन और कोल द्वारा हाल ही में पेपर में वर्णित समन्वय के आधार पर लास्सो की गणना एक एल्गोरिथ्म के साथ की जा सकती है। कोर्डिनेट डिसेंट (JSS, 2010) या LASS एल्गोरिथ्म के माध्यम से सामान्यीकृत रैखिक मॉडल के लिए नियमितीकरण पथ । आर में, दंडित , लार्स या बिग्लार और ग्लमनेट पैकेज उपयोगी पैकेज हैं; पायथन में, सभी तीन तरह की नियमित योजनाओं को लागू करने के लिए उपयोग किए जाने वाले एल्गोरिदम पर व्यापक प्रलेखन के साथ scikit.learn टूलकिट है ।

सामान्य संदर्भों के लिए, लास्सो पृष्ठ में लसो रिग्रेशन और एल 1-पेनल्टी के बारे में तकनीकी विवरण के साथ शुरुआत करने के लिए सबसे अधिक आवश्यक है, और इस संबंधित प्रश्न में आवश्यक संदर्भ हैं, मुझे लसो बनाम रिज का उपयोग कब करना चाहिए?


1
क्या होगा यदि मेरे पास अपेक्षाकृत कुछ चर के साथ बहुत सारे अवलोकन हैं, लेकिन बहुत कम सिग्नल-टू-शोर अनुपात? इतना कम, वास्तव में, कि ओवरफिटिंग एक बहुत ही वास्तविक समस्या है। क्या नियमितीकरण भविष्यवाणी की सटीकता में सुधार करने की कोशिश करने और देखने के लिए एक समझदार चीज होगी?
NPE

1
@aix यह इस बात पर निर्भर करता है कि आप वास्तव में कुछ चर कहते हैं, और आप किस प्रकार के चर के साथ काम कर रहे हैं। लेकिन मुझे लगता है कि आपके मामले में एक रिज एप्रोच को प्राथमिकता दी जानी चाहिए। आप बूस्टिंग रिज रिज्रेशन (टुट्ज़ एंड बिंडर, 2005) को भी देख सकते हैं । ओवरफिटिंग से बचने के लिए एक अंतर्निहित विधि के रूप में दंडित एमएल अनुमान भी प्रस्तावित किया गया था; उदाहरण के लिए, द्विआधारी परिणामों की भविष्यवाणी करने के लिए अधिकतम संभावित संभावना अनुमान: मोन्स केजी, अण्डर, स्टेयरबर्ग ईडब्ल्यू, हरेल फे। जे क्लिन। Epidemiol। 2004, 57 (12): 1262–70।
१२:१०

20

रिज प्रतिगमन के उपयोग के लिए एक सैद्धांतिक औचित्य यह है कि इसका समाधान गुणांक पर सामान्य से पहले दिया जाने वाला पश्च माध्य है। यही है, यदि आप चुकता त्रुटि के बारे में परवाह करते हैं और आप एक सामान्य पूर्व में विश्वास करते हैं, तो रिज का अनुमान इष्टतम है।

इसी तरह, लास्सो का अनुमान आपके गुणांक से पहले एक डबल-घातीय के तहत पोस्टीरियर मोड है। यह एक शून्य-एक नुकसान फ़ंक्शन के तहत इष्टतम है।

व्यवहार में, ये तकनीक आम तौर पर उन स्थितियों में पूर्वानुमानित सटीकता में सुधार करती है जहां आपके पास कई सहसंबंधित चर हैं और बहुत अधिक डेटा नहीं है। जबकि ओएलएस अनुमानक सबसे अच्छा रैखिक निष्पक्ष है, इसकी इन स्थितियों में उच्च विचरण है। यदि आप पूर्वाग्रह-विचरण व्यापार को देखते हैं, तो भविष्यवाणी की सटीकता में सुधार होता है क्योंकि पूर्वाग्रह में छोटी वृद्धि विचरण में बड़ी कमी से ऑफसेट की तुलना में अधिक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.