Glmnet Zou और Hastie मूल पेपर से "भोले" लोचदार जाल का उपयोग क्यों करता है?


27

मूल इलास्टिक नेट पेपर Zou & Hastie (2005) रेगुलराइजेशन और वैरिएबल सिलेक्शन के जरिए इलास्टिक नेट पेश किया लीनियर रिग्रेशन के लिए इलास्टिक नेट लॉस फंक्शन (यहां मेरा मानना ​​है कि सभी वेरिएबल्स को केंद्रित और स्केल किया गया है): लेकिन इसे "भोला लोचदार जाल" कहा जाता है। उन्होंने तर्क दिया कि यह डबल संकोचन (लासो और रिज) करता है, अति-सिकुड़ जाता है, और परिणामस्वरूप समाधान को निम्नानुसार सुधार कर सुधार किया जा सकता है: \ hat \ beta ^ * = (1+ \ lambda_2) \ hat \ beta। उन्होंने कुछ सैद्धांतिक तर्क और प्रयोगात्मक सबूत दिए कि इससे बेहतर प्रदर्शन होता है।

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

हालाँकि, बाद के glmnetपेपर फ्रीडमैन, हेस्टी, और तिब्शीरानी (2010) समन्वयित वंश के माध्यम से सामान्यीकृत रैखिक मॉडल के लिए नियमितीकरण के रास्तों ने इस rescaling का उपयोग नहीं किया और केवल एक संक्षिप्त फुटनोट कहा था

Zou और Hastie (2005) ने इस दंड को भोले लोचदार जाल कहा, और एक पुनर्विकसित संस्करण को प्राथमिकता दी जिसे उन्होंने लोचदार जाल कहा। हम इस भेद को यहाँ छोड़ देते हैं।

आगे कोई स्पष्टीकरण नहीं दिया गया है (या हस्ती एट अल। पाठ्यपुस्तकों में से किसी में)। मुझे यह कुछ अजीब लगता है। क्या लेखकों ने पुनर्विचार को छोड़ दिया क्योंकि उन्होंने इसे बहुत तदर्थ माना था ? क्योंकि इसने कुछ और प्रयोगों में बुरा प्रदर्शन किया? क्योंकि यह स्पष्ट नहीं था कि इसे GLM मामले में कैसे सामान्य किया जाए? मुझे पता नहीं है। लेकिन किसी भी मामले में glmnetपैकेज तब से बहुत लोकप्रिय हो गया और इसलिए मेरी धारणा है कि आजकल कोई भी Zou & Hastie से rescaling का उपयोग नहीं कर रहा है, और अधिकांश लोग शायद इस संभावना के बारे में जानते भी नहीं हैं।

प्रश्न: आखिर, क्या यह एक अच्छा विचार या बुरा विचार था?

glmnetपैराड्राइज़ेशन के साथ , Zou & Hastie rescaling को

β^=(1+λ(1α))β^.

1
चूँकि ग्लैंड पेपर में, लक्ष्य पूरे नियमितीकरण पथ को फिट करना है, संभवतः यह विचार है कि पुनर्विक्रय केवल पथ का एक मोनोटोनिक परिवर्तन होगा?
मैथ्यू

1
@MatthewDrury सच है लेकिन फिर भी अगर फ्रीडमैन एट अल। माना जाता है कि rescaling एक अच्छा विचार है, वे इसे कागज से और विशेष रूप से glmnetकोड से बाहर नहीं छोड़ेंगे । यह एक वैकल्पिक सुविधा के रूप में भी उपलब्ध नहीं है (उनके पहले के कोड जो 2005 के पेपर के साथ पाठ्यक्रम के समर्थन के अनुसार है)।
अमीबा का कहना है कि मोनिका

4
दुर्भाग्य से, सार्वजनिक glmnet कोड पूरी तरह से अपठनीय है ...
मैथ्यू Drury

जवाबों:


25

मैंने Zou और Hastie को यह प्रश्न ईमेल किया और मुझे Hastie से निम्नलिखित उत्तर मिला (मुझे आशा है कि वह मुझे यहाँ उद्धृत नहीं करेगा):

मुझे लगता है कि Zou एट अल में हम अतिरिक्त पूर्वाग्रह के बारे में चिंतित थे, लेकिन निश्चित रूप से rescaling से विचरण बढ़ जाता है। तो यह सिर्फ एक पक्षपात-विचरण व्यापार की अवस्था के साथ बदलता है। हम जल्द ही रिलैक्स्ड लैस्सो के एक संस्करण को शामिल करेंगे जो कि एक बेहतर फॉर्म है।

मैं इन शब्दों की व्याख्या वैनिला लोचदार शुद्ध समाधान के "rescaling" के कुछ रूप के समर्थन के रूप में करता हूं, लेकिन Hastie अब Zou & Hastie 2005 में सामने आए विशेष दृष्टिकोण से खड़ा नहीं होता है।


निम्नलिखित में मैं संक्षेप में कई rescaling विकल्पों की समीक्षा और तुलना करूंगा।

मैं glmnetहानि समाधान के साथ रूप में दर्शाया गया है ।

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. Zou & Hastie का दृष्टिकोणध्यान दें कि इस शुद्ध रिज के लिए कुछ गैर तुच्छ rescaling पैदावार जब जो यकीनन बहुत मतलब नहीं है। दूसरी ओर, इस पैदावार कोई शुद्ध लैसो के लिए rescaling जब , साहित्य में विभिन्न दावों लैसो आकलनकर्ता कुछ rescaling से फायदा हो सकता है कि के बावजूद (नीचे देखें)।

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. शुद्ध लासो के लिए, टिब्शिरानी ने लासो द्वारा चुने गए भविष्यवक्ताओं के सबसेट का उपयोग करते हुए ओएलएस अनुमानक का उपयोग करने के लिए लासो-ओएलएस हाइब्रिड का उपयोग करने का सुझाव दिया। यह अनुमानक को सुसंगत बनाता है (लेकिन सिकुड़न को कम करता है, जिससे अपेक्षित त्रुटि बढ़ सकती है)। कोई व्यक्ति लोचदार नेट लिए एक ही दृष्टिकोण का उपयोग कर सकता है, लेकिन संभावित समस्या यह है कि लोचदार नेट का चयन कर सकते हैं भविष्यवाणियों और OLS से अधिक टूट जाएगा (इसके विपरीत, शुद्ध लसो कभी भी भविष्यवाणियों से अधिक का चयन नहीं करता है )।

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. ऊपर बताए गए हस्ती के ईमेल में उल्लिखित आराम से लस्सो, पहले लास्सो द्वारा चुने गए भविष्यवक्ताओं के सबसेट पर एक और लास्सो चलाने का सुझाव है। विचार दो अलग-अलग दंडों का उपयोग करने और क्रॉस-सत्यापन के माध्यम से दोनों का चयन करने के लिए है । एक ही विचार को लोचदार नेट पर लागू किया जा सकता है, लेकिन इसके लिए चार अलग-अलग नियमितीकरण मापदंडों की आवश्यकता होगी और उन्हें ट्यून करना एक बुरा सपना है।

    मेरा सुझाव है कि एक आसान रिलैक्स्ड इलास्टिक नेट स्कीम है: प्राप्त करने के बाद , भविष्यवाणियों के चयनित सबसेट पर और उसी साथ रिज रिग्रेशन करें :इस (ए) को किसी भी अतिरिक्त नियमितीकरण मापदंडों की आवश्यकता नहीं है, (बी) चयनित भविष्यवक्ताओं की किसी भी संख्या के लिए काम करता है, और (सी) कुछ भी नहीं करता है अगर कोई शुद्ध रिज से शुरू होता है। मुझे अच्छा लगता है।β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

मैं वर्तमान में और साथ एक छोटे से डेटासेट के साथ काम कर रहा हूं , जहां को के कुछ प्रमुख पीसी द्वारा अच्छी तरह से भविष्यवाणी की गई है । मैं उपरोक्त अनुमानकों के प्रदर्शन की तुलना 100x बार-बार 11 गुना क्रॉस-सत्यापन का उपयोग करके करूंगा। एक प्रदर्शन मीट्रिक के रूप में, मैं परीक्षण त्रुटि का उपयोग कर रहा हूं, आर-वर्ग की तरह कुछ उत्पन्न करने के लिए सामान्यीकृत:नीचे दिए गए आंकड़े में, धराशायी लाइनें वेनिला इलास्टिक नेट एसेटर मेल खाती हैं और तीन सबप्लाट तीन rescaling दृष्टिकोणों के अनुरूप हैं:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

यहाँ छवि विवरण दर्ज करें

तो, कम से कम इन आंकड़ों में, सभी तीन दृष्टिकोण वेनिला लोचदार नेट अनुमानक से बेहतर प्रदर्शन करते हैं, और "आराम लोचदार नेट" सबसे अच्छा प्रदर्शन करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.