Glmnet Zou और Hastie मूल पेपर से "भोले" लोचदार जाल का उपयोग क्यों करता है?

मूल इलास्टिक नेट पेपर Zou & Hastie (2005) रेगुलराइजेशन और वैरिएबल सिलेक्शन के जरिए इलास्टिक नेट पेश किया लीनियर रिग्रेशन के लिए इलास्टिक नेट लॉस फंक्शन (यहां मेरा मानना है कि सभी वेरिएबल्स को केंद्रित और स्केल किया गया है): लेकिन इसे "भोला लोचदार जाल" कहा जाता है। उन्होंने तर्क दिया कि यह डबल संकोचन (लासो और रिज) करता है, अति-सिकुड़ जाता है, और परिणामस्वरूप समाधान को निम्नानुसार सुधार कर सुधार किया जा सकता है: उन्होंने कुछ सैद्धांतिक तर्क और प्रयोगात्मक सबूत दिए कि इससे बेहतर प्रदर्शन होता है।

L = \frac{1}{n} ‖ y - X β ‖^{2} + λ_{1} ‖ β ‖_{1} + λ_{2} ‖ β ‖_{2}^{2},

$\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,$

{\hat{β}}^{*} = (1 + λ_{2}) \hat{β} .

$\hat\beta^* = (1+\lambda_2)\hat\beta.$

हालाँकि, बाद के glmnetपेपर फ्रीडमैन, हेस्टी, और तिब्शीरानी (2010) समन्वयित वंश के माध्यम से सामान्यीकृत रैखिक मॉडल के लिए नियमितीकरण के रास्तों ने इस rescaling का उपयोग नहीं किया और केवल एक संक्षिप्त फुटनोट कहा था

Zou और Hastie (2005) ने इस दंड को भोले लोचदार जाल कहा, और एक पुनर्विकसित संस्करण को प्राथमिकता दी जिसे उन्होंने लोचदार जाल कहा। हम इस भेद को यहाँ छोड़ देते हैं।

आगे कोई स्पष्टीकरण नहीं दिया गया है (या हस्ती एट अल। पाठ्यपुस्तकों में से किसी में)। मुझे यह कुछ अजीब लगता है। क्या लेखकों ने पुनर्विचार को छोड़ दिया क्योंकि उन्होंने इसे बहुत तदर्थ माना था ? क्योंकि इसने कुछ और प्रयोगों में बुरा प्रदर्शन किया? क्योंकि यह स्पष्ट नहीं था कि इसे GLM मामले में कैसे सामान्य किया जाए? मुझे पता नहीं है। लेकिन किसी भी मामले में glmnetपैकेज तब से बहुत लोकप्रिय हो गया और इसलिए मेरी धारणा है कि आजकल कोई भी Zou & Hastie से rescaling का उपयोग नहीं कर रहा है, और अधिकांश लोग शायद इस संभावना के बारे में जानते भी नहीं हैं।

प्रश्न: आखिर, क्या यह एक अच्छा विचार या बुरा विचार था?

glmnetपैराड्राइज़ेशन के साथ , Zou & Hastie rescaling को

{\hat{β}}^{*} = (1 + λ (1 - α)) \hat{β} .

$\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.$

— अमीबा का कहना है कि मोनिका को बहाल करो
स्रोत

चूँकि ग्लैंड पेपर में, लक्ष्य पूरे नियमितीकरण पथ को फिट करना है, संभवतः यह विचार है कि पुनर्विक्रय केवल पथ का एक मोनोटोनिक परिवर्तन होगा?

— मैथ्यू

@MatthewDrury सच है लेकिन फिर भी अगर फ्रीडमैन एट अल। माना जाता है कि rescaling एक अच्छा विचार है, वे इसे कागज से और विशेष रूप से glmnetकोड से बाहर नहीं छोड़ेंगे । यह एक वैकल्पिक सुविधा के रूप में भी उपलब्ध नहीं है (उनके पहले के कोड जो 2005 के पेपर के साथ पाठ्यक्रम के समर्थन के अनुसार है)।

— अमीबा का कहना है कि मोनिका

दुर्भाग्य से, सार्वजनिक glmnet कोड पूरी तरह से अपठनीय है ...

— मैथ्यू Drury

मैंने Zou और Hastie को यह प्रश्न ईमेल किया और मुझे Hastie से निम्नलिखित उत्तर मिला (मुझे आशा है कि वह मुझे यहाँ उद्धृत नहीं करेगा):

मुझे लगता है कि Zou एट अल में हम अतिरिक्त पूर्वाग्रह के बारे में चिंतित थे, लेकिन निश्चित रूप से rescaling से विचरण बढ़ जाता है। तो यह सिर्फ एक पक्षपात-विचरण व्यापार की अवस्था के साथ बदलता है। हम जल्द ही रिलैक्स्ड लैस्सो के एक संस्करण को शामिल करेंगे जो कि एक बेहतर फॉर्म है।

मैं इन शब्दों की व्याख्या वैनिला लोचदार शुद्ध समाधान के "rescaling" के कुछ रूप के समर्थन के रूप में करता हूं, लेकिन Hastie अब Zou & Hastie 2005 में सामने आए विशेष दृष्टिकोण से खड़ा नहीं होता है।

निम्नलिखित में मैं संक्षेप में कई rescaling विकल्पों की समीक्षा और तुलना करूंगा।

मैं glmnetहानि समाधान के साथ रूप में दर्शाया गया है ।

L = \frac{1}{2 n} ‖ y - β_{0} - X β ‖^{2} + λ (α ‖ β ‖_{1} + (1 - α) ‖ β ‖_{2}^{2} / 2),

$\mathcal L = \frac{1}{2n}\big\lVert y - \beta_0-X\beta\big\rVert^2 + \lambda\big(\alpha\lVert \beta\rVert_1 + (1-\alpha) \lVert \beta\rVert^2_2/2\big),$

\hat{β}

$\hat\beta$

Zou & Hastie का दृष्टिकोणध्यान दें कि इस शुद्ध रिज के लिए कुछ गैर तुच्छ rescaling पैदावार जब जो यकीनन बहुत मतलब नहीं है। दूसरी ओर, इस पैदावार कोई शुद्ध लैसो के लिए rescaling जब , साहित्य में विभिन्न दावों लैसो आकलनकर्ता कुछ rescaling से फायदा हो सकता है कि के बावजूद (नीचे देखें)।
${\hat{β}}_{rescaled} = (1 + λ (1 - α)) \hat{β} .$ $\hat\beta_\text{rescaled} = \big(1+\lambda(1-\alpha)\big)\hat\beta.$ $\alpha=0$ $\alpha=1$
शुद्ध लासो के लिए, टिब्शिरानी ने लासो द्वारा चुने गए भविष्यवक्ताओं के सबसेट का उपयोग करते हुए ओएलएस अनुमानक का उपयोग करने के लिए लासो-ओएलएस हाइब्रिड का उपयोग करने का सुझाव दिया। यह अनुमानक को सुसंगत बनाता है (लेकिन सिकुड़न को कम करता है, जिससे अपेक्षित त्रुटि बढ़ सकती है)। कोई व्यक्ति लोचदार नेट लिए एक ही दृष्टिकोण का उपयोग कर सकता है, लेकिन संभावित समस्या यह है कि लोचदार नेट का चयन कर सकते हैं भविष्यवाणियों और OLS से अधिक टूट जाएगा (इसके विपरीत, शुद्ध लसो कभी भी भविष्यवाणियों से अधिक का चयन नहीं करता है )।
${\hat{β}}_{elastic-OLS-hybrid} = OLS (X_{i} ∣ {\hat{β}}_{i} \neq 0)$ $\hat\beta_\text{elastic-OLS-hybrid}= \text{OLS}(X_i\mid\hat\beta_i\ne 0)$ $n$ $n$
ऊपर बताए गए हस्ती के ईमेल में उल्लिखित आराम से लस्सो, पहले लास्सो द्वारा चुने गए भविष्यवक्ताओं के सबसेट पर एक और लास्सो चलाने का सुझाव है। विचार दो अलग-अलग दंडों का उपयोग करने और क्रॉस-सत्यापन के माध्यम से दोनों का चयन करने के लिए है । एक ही विचार को लोचदार नेट पर लागू किया जा सकता है, लेकिन इसके लिए चार अलग-अलग नियमितीकरण मापदंडों की आवश्यकता होगी और उन्हें ट्यून करना एक बुरा सपना है।

मेरा सुझाव है कि एक आसान रिलैक्स्ड इलास्टिक नेट स्कीम है: प्राप्त करने के बाद , भविष्यवाणियों के चयनित सबसेट पर और उसी साथ रिज रिग्रेशन करें :इस (ए) को किसी भी अतिरिक्त नियमितीकरण मापदंडों की आवश्यकता नहीं है, (बी) चयनित भविष्यवक्ताओं की किसी भी संख्या के लिए काम करता है, और (सी) कुछ भी नहीं करता है अगर कोई शुद्ध रिज से शुरू होता है। मुझे अच्छा लगता है। $\hat\beta$ $\alpha=0$ $\lambda$
${\hat{β}}_{relaxed-elastic-net} = Ridge (X_{i} ∣ {\hat{β}}_{i} \neq 0) .$ $\hat\beta_\text{relaxed-elastic-net}= \text{Ridge}(X_i\mid\hat\beta_i\ne 0).$

मैं वर्तमान में और साथ एक छोटे से डेटासेट के साथ काम कर रहा हूं , जहां को के कुछ प्रमुख पीसी द्वारा अच्छी तरह से भविष्यवाणी की गई है । मैं उपरोक्त अनुमानकों के प्रदर्शन की तुलना 100x बार-बार 11 गुना क्रॉस-सत्यापन का उपयोग करके करूंगा। एक प्रदर्शन मीट्रिक के रूप में, मैं परीक्षण त्रुटि का उपयोग कर रहा हूं, आर-वर्ग की तरह कुछ उत्पन्न करने के लिए सामान्यीकृत:नीचे दिए गए आंकड़े में, धराशायी लाइनें वेनिला इलास्टिक नेट एसेटर मेल खाती हैं और तीन सबप्लाट तीन rescaling दृष्टिकोणों के अनुरूप हैं: $n\ll p$ $n=44$ $p=3000$ $y$ $X$

R_{test}^{2} = 1 - \frac{‖ y_{test} - {\hat{β}}_{0} - X_{test} \hat{β} ‖^{2}}{‖ y_{test} - {\hat{β}}_{0} ‖^{2}} .

$R^2_\text{test} = 1-\frac{\lVert y_\text{test} - \hat\beta_0 - X_\text{test}\hat\beta\rVert^2}{\lVert y_\text{test} - \hat\beta_0\rVert^2}.$

\hat{β}

$\hat\beta$

तो, कम से कम इन आंकड़ों में, सभी तीन दृष्टिकोण वेनिला लोचदार नेट अनुमानक से बेहतर प्रदर्शन करते हैं, और "आराम लोचदार नेट" सबसे अच्छा प्रदर्शन करता है।

— अमीबा का कहना है कि मोनिका को बहाल करो
स्रोत