रिज और LASSO मानदंड


12

यह पोस्ट इस प्रकार है: विकर्ण में स्थिरांक जोड़कर रिज अनुमान ओएलएस से बेहतर क्यों हो जाता है?

यहाँ मेरा सवाल है:

जहाँ तक मुझे पता है, रिज नियमितीकरण एक -norm (euclidean दूरी) का उपयोग करता है । लेकिन हम इस आदर्श के वर्ग का उपयोग क्यों करते हैं? ( का एक सीधा अनुप्रयोग बीटा वर्ग के योग के वर्गमूल के साथ होगा)।222

एक तुलना के रूप में, हम LASSO के लिए ऐसा नहीं करते हैं, जो नियमित करने के लिए -orm का उपयोग करता है। लेकिन यहाँ यह "वास्तविक"111 मानदंड है (बस बीटा पूर्ण मानों के वर्ग का योग, और इस राशि का वर्ग नहीं)।

क्या कोई मुझे स्पष्ट करने में मदद कर सकता है?


2
रिज प्रतिगमन में दंड शब्द L2 मानदंड है। उदाहरण के तौर पर तिब्शीरानी द्वारा लिखी इन स्लाइड्स को देखें (स्लाइड 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf यहां भी देखें en.wikipedia.org.wiki/Tikhonov_
अनियमितिकरण

स्पष्टीकरण के छोटे बिंदु, ये रयान टिब्शिरानी नहीं रोब से स्लाइड हैं ।
एलिस वैलेंटाइनर

ठीक है, स्पष्टीकरण के लिए बहुत बहुत धन्यवाद। लेकिन मुझे समझ में नहीं आता है कि एल 2 के लिए चुकता क्यों नहीं है और एल 1 के लिए चुकता नहीं है। क्या हमारे पास किसी भी तरह के नियमितीकरण के लिए एक सामान्य सूत्र नहीं है?
PLOTZ

@ user12202013: इस ओर इशारा करने के लिए धन्यवाद। मैंने उस पर ध्यान नहीं दिया।
बोस्कॉविच

जवाबों:


9

रिज और लासो नियमित करने के दो तरीके हैं और एक प्रतिगमन है। लासो प्रतिगमन पूर्ण गुणांक के योग पर एक बाधा डालता है:

iβi2=||β||1

रिज प्रतिगमन चुकता अंतर के योग का एक बाधा डालता है:

iβi2=iβi22=||βi||22

आपने यह भी सुझाव दिया कि एक और आदर्श, गुणांक की यूक्लिडियन लंबाई:

iβi2=||βi||2

रिज प्रतिगमन और यूक्लिडियन लंबाई के बीच का अंतर वर्ग है। इससे नियमितीकरण की व्याख्या बदल जाती है। जबकि रिज और यूक्लिडियन लंबाई दोनों शून्य की ओर नियमित होते हैं, रिज रिज्रेशन भी नियमितीकरण की मात्रा को अलग करता है। गुणांक जो शून्य से आगे हैं, शून्य की ओर मजबूत होते हैं। यह शून्य के आसपास इसे और अधिक स्थिर बनाता है क्योंकि नियमितीकरण धीरे-धीरे शून्य के आसपास बदल जाता है। यह यूक्लिडियन लंबाई के लिए, या तथ्य की बात के रूप में, लासो प्रतिगमन के लिए मामला नहीं है।


7

बहुत सारे दंडात्मक दृष्टिकोण हैं जिनके पास अब सभी प्रकार के विभिन्न दंड कार्य हैं (रिज, लासो, एमसीपी, एससीएडी)। क्यों एक विशेष रूप से एक का प्रश्न मूल रूप से है "इस तरह का जुर्माना क्या फायदे / नुकसान प्रदान करता है?"।

ब्याज के गुण हो सकते हैं:

1) लगभग निष्पक्ष अनुमानक (सभी दंडित अनुमानों का पक्षपाती होगा)

2) स्पार्सिटी (नोट रिग रिग्रेशन विरल परिणाम उत्पन्न नहीं करता है अर्थात यह गुणांक को शून्य करने के लिए सभी तरह से सिकुड़ता नहीं है)

3) निरंतरता (मॉडल भविष्यवाणी में अस्थिरता से बचने के लिए)

ये सिर्फ कुछ गुण हैं जो एक दंड समारोह में रुचि रखते हैं।

व्युत्पन्न और सैद्धांतिक काम में राशि के साथ काम करना बहुत आसान है: उदाहरण के लिए और | | β | | 1 = | β i | । सोचिए अगर हमारे पास √ होता||β||22=|βi|2||β||1=|βi| या(Σ|बीटामैं|)2। व्युत्पत्ति लेना (जो कि सैद्धांतिक परिणामों जैसे स्थिरता, विषमता सामान्यता आदि को दर्शाने के लिए आवश्यक है) जैसे दंड के साथ एक दर्द होगा।(|βi|2)(|βi|)2


ठीक है धन्यवाद। लेकिन L2 के लिए वर्ग क्यों और L1 के लिए चुकता नहीं है? क्या हमारे पास किसी भी तरह के नियमितीकरण के लिए एक सामान्य सूत्र नहीं है? यह मुझे हैरान कर रहा है ...
PLOTZ

@PLOTZ मैंने अपने उत्तर में थोड़ा सा जोड़ा।
बोडोनोविक

बहुत बहुत धन्यवाद बेंजामिन! निश्चित रूप से यह अब स्पष्ट है! मुझे आपके उत्तर से पहले यह सैद्धांतिक उद्देश्य नहीं मिला। आपके उत्तर के लिए बहुत धन्यवाद।
PLOTZ

@ बेंजामिन: बिंदु # 1 में क्या आपका वास्तव में मतलब था "( सभी दंडित अनुमान निष्पक्ष नहीं होंगे")? रिज रिग्रेशन – एक नाम रखने के लिए अन्याय-पक्षपाती है।
बोस्कॉविच

वूप्स हां पकड़ने के लिए धन्यवाद! मुझे लगता है कि वास्तव में सभी दंडित अनुमानक पक्षपाती होंगे।
बोदोनोविक

5

21 पी > 0βppp>0

रिज प्रतिगमन तब और Lasso उपयोग कर रहा है, लेकिन अन्य मानों का उपयोग कर सकता है ।पी = 1 पीp=2p=1p

उदाहरण के लिए आपके पास सभी मानों के लिए विरल घोल है , और स्पार्सर घोल का मूल्य जितना छोटा है ।पीp1p

के मूल्यों के लिए आपका उद्देश्य अधिक सुचारू नहीं है, इसलिए अनुकूलन कठिन हो जाता है; के लिए उद्देश्य गैर उत्तल और इतने अनुकूलन और भी कठिन है ...पी < 1p1p<1


2

मेरा मानना ​​है कि यहां एक और भी सरल उत्तर है, हालांकि "क्यों" प्रश्न एक तकनीक विकसित होने पर उत्तर देने के लिए हमेशा कठिन होता है। चुकता -norm का उपयोग किया जाता है ताकि नियमितीकरण शब्द आसानी से भिन्न हो सके। रिज प्रतिगमन कम करता है:l2

yXβ22+λβ22

जो यह भी लिखा जा सकता है:

yXβ22+λβTβ

यह अब आसानी से विभेदित wrt को बंद-प्रपत्र समाधान प्राप्त करने के लिए किया जा सकता है:β

β^ridge=(XTX+λI)1XTy

जिससे सभी प्रकार के अनुमान निकाले जा सकते हैं।


1

222x||x||2xx||x||22β=02

22

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.