रिज प्रतिगमन के समकक्ष सूत्र का प्रमाण


15

मैंने सांख्यिकीय शिक्षा में सबसे लोकप्रिय किताबें पढ़ी हैं

1- सांख्यिकीय शिक्षा के तत्व।

2- सांख्यिकीय शिक्षा का परिचय

दोनों का उल्लेख है कि रिज प्रतिगमन में दो सूत्र हैं जो समकक्ष हैं। क्या इस परिणाम का एक समझने योग्य गणितीय प्रमाण है?

मैं क्रॉस वैलिडेट के माध्यम से भी गया , लेकिन मुझे वहां कोई निश्चित प्रमाण नहीं मिला।

इसके अलावा, क्या LASSO एक ही प्रकार के प्रमाण का आनंद लेगा?

यहाँ छवि विवरण दर्ज करें



1
लसो रिज रिग्रेशन का एक रूप नहीं है।
शीआन

@ जीजा, क्या आप बता सकते हैं कि मेरे उत्तर में क्या कमी है? यह वास्तव में व्युत्पन्न सभी कनेक्शन के बारे में प्राप्त किया जा सकता है।
रॉय

@ जीजा, क्या आप विशिष्ट हो सकते हैं? जब तक आप विवश समस्या के लिए लैग्रैजियन अवधारणा को नहीं जानते हैं, संक्षिप्त उत्तर देना कठिन है।
रॉय

1
@ जेजा, एक विवश अनुकूलन समस्या को लैग्रैन्जियन फंक्शन / केकेटी स्थितियों के अनुकूलन में परिवर्तित किया जा सकता है (जैसा कि वर्तमान उत्तरों में समझाया गया है)। इस सिद्धांत के पहले से ही इंटरनेट पर कई अलग-अलग सरल स्पष्टीकरण हैं। प्रमाण की अधिक व्याख्या किस दिशा में आवश्यक है? Lagrangian गुणक / कार्य, स्पष्टीकरण / प्रमाण का स्पष्टीकरण / प्रमाण कैसे यह समस्या अनुकूलन का एक मामला है जो Lagrange, अंतर KKT / Lagrange की विधि से संबंधित है, नियमितीकरण के सिद्धांत की व्याख्या, आदि?
सेक्स्टस एम्पिरिकस

जवाबों:


19

क्लासिक रिज रिग्रेशन ( तिखोनोव रेगुलराइजेशन ) निम्न द्वारा दिया जाता है:

argminx12xy22+λx22

उपरोक्त दावा है कि निम्नलिखित समस्या समतुल्य है:

argminx12xy22subject tox22t

चलो परिभाषित एक्स पहली समस्या के इष्टतम समाधान के रूप में औरx^x~ दूसरी समस्या के इष्टतम समाधान के रूप में।

तुल्यता का मतलब है कि के दावे t,λ0:x^=x~
अर्थात् आप हमेशाt औरकी एक जोड़ी रख सकते हैंλ0 समस्या के इस तरह के समाधान में ही है।

हम एक जोड़ी कैसे पा सकते हैं?
खैर, समस्याओं को हल करने और समाधान के गुणों को देखकर।
दोनों समस्याएं उत्तल और चिकनी हैं, इसलिए इसे चीजों को सरल बनाना चाहिए।

पहली समस्या का हल उस बिंदु पर दिया जाता है, जिसमें ढाल गायब हो जाता है, जिसका अर्थ है:

x^y+2λx^=0

KKT स्थितियां दूसरी समस्या राज्यों के:

x~y+2μx~=0

तथा

μ(x~22t)=0

पिछले समीकरण पता चलता है कि या तो μ=0 या x~22=t

ध्यान दें कि 2 आधार समीकरण समतुल्य हैं।
अर्थात् यदि x = ~ एक्स और μ =x^=x~μ=λ दोनों समीकरणों पकड़ो।

तो इसका मतलब है कि मामले में y22t एक जरूरी सेट μ=0 जिसका अर्थ है कि के लिए t दोनों के लिए आदेश बराबर एक सेट करना होगा होने के लिए बड़ा पर्याप्त λ=0

अन्य मामले में एक को μ ढूंढना चाहिएμ जहां :

yt(I+2μI)1(I+2μI)1y=t

यह मूल रूप से जब है x~22=t

एक बार जब आप पाते हैं कि μ समाधान भिड़ना होगा।

के बारे में L1 (LASSO) मामले, ठीक है, यह एक ही विचार के साथ काम करता है।
एकमात्र अंतर यह है कि हमने समाधान के लिए बंद नहीं किया है इसलिए कनेक्शन को प्राप्त करना मुश्किल है।

StackExchange Cross Validated Q291962 और StackExchange सिग्नल प्रोसेसिंग Q21730 - बेसिस परसेंट में λ महत्व पर मेरे उत्तर पर एक नज़र डालें ।

टिप्पणी
क्या वास्तव में हो रहा है?
दोनों समस्याओं में, x , y जितना संभव हो उतना करीब होने की कोशिश करता है ।
पहले मामले में, x=y पहले शब्द ( L2 दूरी) को गायब कर देगा और दूसरे मामले में यह उद्देश्य फ़ंक्शन को गायब कर देगा।
अंतर यह है कि पहले मामले में एक्स के L2 नॉर्म को संतुलित करना चाहिए । जैसे ही λ उच्च हो जाता है संतुलन का मतलब है कि आपको एक्स को छोटा करना चाहिए । दूसरे मामले में एक दीवार है, आप एक्स को करीब और वाई के करीब लाते हैंxλx
xyजब तक आप उस दीवार से नहीं टकराते जो उसके नॉर्म ( t ) पर कसना है ।
यदि दीवार काफी दूर है ( t का उच्च मूल्य ) और पर्याप्त y के मानक पर निर्भर करता है तो मेरा कोई मतलब नहीं है, जैसे कि λ केवल प्रासंगिक है इसके मूल्य के बराबर y के आदर्श से गुणा करना सार्थक होने लगता है।
सटीक संबंध ऊपर बताए गए लैग्रैनिजियम द्वारा है।

साधन

मुझे आज यह पत्र मिला (०३/०४/२०१९):


क्या इसका मतलब यह है कि \ lambda और t समान होना चाहिए। क्योंकि मैं उस प्रमाण में नहीं देख सकता। धन्यवाद
jeza

@jeza, जैसा कि मैंने ऊपर लिखा है, किसी के लिए है λ 0 (जरूरी नहीं के बराबर टी लेकिन के एक समारोह टी और डेटा y ) ऐसी है कि दो रूपों में से समाधान एक ही हैं। tλ0tty
रॉय

3
@ जेजा, दोनों & t अनिवार्य रूप से यहां मुक्त पैरामीटर हैं। एक बार, आप कहते हैं, λ , कि एक विशिष्ट इष्टतम समाधान पैदावार। लेकिन टी एक मुक्त पैरामीटर है। तो इस बिंदु पर दावा है कि टी का कुछ मूल्य हो सकता है जो समान इष्टतम समाधान प्राप्त करेगा। अनिवार्य रूप से इस बात पर कोई अड़चन नहीं है कि टी क्या होनी चाहिए; यह ऐसा नहीं है कि इसे λ का कुछ निश्चित कार्य होना चाहिए , जैसे t = λ / 2 या कुछ। λtλtttλt=λ/2
गुंग - को पुनः स्थापित मोनिका

@ रोई, मैं जानना चाहूंगा 1- आपके सूत्र में (1/2) क्यों है, जबकि प्रश्न में सूत्र नहीं हैं? 2- दो फॉर्मूलों की समानता दिखाने के लिए केकेटी का उपयोग कर रहे हैं? 3- यदि हां, तो मैं अब भी उस समानता को नहीं देख सकता। मुझे यकीन नहीं है लेकिन मैं जो देखने की उम्मीद करता हूं, वह उस सूत्र को एक = सूत्र दो को दर्शाने का प्रमाण है।
जीजा

1. आसान है जब आप LS शब्द को अलग करते हैं। आप मेरे को दो के कारक से λ को ओपी λ पर ले जा सकते हैं । 2. मैंने केकेटी को दूसरे मामले के लिए इस्तेमाल किया। पहले मामले में कोई बाधा नहीं है, इसलिए आप इसे हल कर सकते हैं। 3. उनके बीच कोई बंद फॉर्म समीकरण नहीं है। मैंने तर्क दिखाया और आप उन्हें जोड़ने वाला एक ग्राफ कैसे बना सकते हैं। लेकिन जैसा कि मैंने लिखा है कि यह प्रत्येक y के लिए बदल जाएगा (यह डेटा निर्भर है)। λλy
रॉय

9

एक कम गणितीय रूप से कठोर, लेकिन संभवतः अधिक सहज, यह समझने के लिए कि क्या चल रहा है, बाधा संस्करण (प्रश्न में समीकरण 3.42) के साथ शुरू करने के लिए है और इसे "Lagrange गुणक" ( https: //en.wikipedia ) के तरीकों का उपयोग करके हल करें। .org / wiki / Lagrange_multiplier या आपका पसंदीदा बहुविकल्पी पथरी पाठ)। बस याद रखें कि कैलकुलस में चर का वेक्टर है, लेकिन हमारे मामले में एक्स स्थिर है और us चर वेक्टर है। एक बार जब आप लैगरेंज गुणक तकनीक लागू करते हैं, तो आप पहले समीकरण (3.41) के साथ समाप्त हो जाते हैं (अतिरिक्त - λ टी को फेंकने के बाद जो कम से कम करने के लिए निरंतर सापेक्ष है और इसे अनदेखा किया जा सकता है)।xxβλt

इससे यह भी पता चलता है कि यह लासो और अन्य बाधाओं के लिए काम करता है।


8

It's perhaps worth reading about Lagrangian duality and a broader relation (at times equivalence) between:

  • optimization subject to hard (i.e. inviolable) constraints
  • optimization with penalties for violating constraints.

Quick intro to weak duality and strong duality

Assume we have some function f(x,y) of two variables. For any x^ and y^, we have:

minxf(x,y^)f(x^,y^)maxyf(x^,y)

Since that holds for any x^ and y^ it also holds that:

maxyminxf(x,y)minxmaxyf(x,y)

इसे कमजोर द्वंद्व के रूप में जाना जाता है । कुछ परिस्थितियों में, आपके पास मजबूत द्वंद्व भी होता है (जिसे काठी बिंदु संपत्ति के रूप में भी जाना जाता है ):

maxyminxf(x,y)=minxmaxyf(x,y)

जब मजबूत द्वंद्व होता है, तो दोहरी समस्या को हल करना भी मौलिक समस्या को हल करता है। वे एक ही समस्या में हैं!

विवश रिज प्रतिगमन के लिए अंतराल

मुझे फ़ंक्शन को परिभाषित करने देंL as:

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

minbmaxλ0L(b,λ)

You pick b to minimize the objective, cognizant that after b is picked, your opponent will set λ to infinity if you chose b such that j=1pbj2>t.

If strong duality holds (which it does here because Slater's condition is satisfied for t>0), you then achieve the same result by reversing the order:

maxλ0minbL(b,λ)

Here, your opponent chooses λ first! You then choose b to minimize the objective, already knowing their choice of λ. The minbL(b,λ) part (taken λ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.


note that your answer can be extended to any convex function.
81235

6

They are not equivalent.

For a constrained minimization problem

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

we solve by minimize over b the corresponding Lagrangean

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

Here, t is a bound given exogenously, λ0 is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and λ are to be determined optimally through the minimization procedure given t.

Comparing (2) and eq (3.41) in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

(3)minb{Λ+λt}

Since in (3) the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve b, it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over b given λ>0. But, in the lens of the constrained minimization problem, assuming λ>0 imposes the condition that the constraint is binding, i.e that

j=1p(bj,ridge)2=t

The general constrained minimization problem allows for λ=0 also, and essentially it is a formulation that includes as special cases the basic least-squares estimator (λ=0) and the Ridge estimator (λ>0).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.


@MartijnWeterings Thanks for the comment, I have reworked my answer.
Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.
Alecos Papadopoulos

1
This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses λ0 instead of λ>0 and we could just as well add the constrain t<βOLS22 to exclude the cases where λ=0) .
Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).
Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.
Sextus Empiricus
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.