रिज प्रतिगमन समाधान कैसे प्राप्त करें?


40

मैं रिज प्रतिगमन के समाधान के व्युत्पन्न के साथ कुछ मुद्दे रख रहा हूं।

मैं नियमितीकरण शब्द के बिना प्रतिगमन समाधान जानता हूं:

β=(XTX)1XTy.

λβ22

β=(XTX+λI)1XTy.

जवाबों:


23

यह दंड को जोड़कर नुकसान फ़ंक्शन को संशोधित करने के लिए पर्याप्त है। मैट्रिक्स के संदर्भ में, प्रारंभिक द्विघात हानि समारोह बन जाता है संबंध में जानकारी सामान्य समीकरण ओर ले जाती है, जो रिज अनुमानक की ओर जाता है।β एक्स टी वाई = ( एक्स टी एक्स + λ मैं ) β

(YXβ)T(YXβ)+λβTβ.
β
XTY=(XTX+λI)β

1
कैसे के व्युत्पन्न आए बराबर हैλ मैं βλβTβλIβ
user34790

4
@ user34790 यह नहीं है। यह के बराबर है । लेकिन 2 अन्य शर्तों पर समान 2s के साथ रद्द करता है। बेशक, कारक "नियमित" बीजगणित में 1 के एक कारक की तरह है, आप इसे बिना कुछ बदले कहीं भी गुणा कर सकते हैं। 2λβI
बिल

4
@bill: यहाँ आप की जरूरत सही आयाम के एक मैट्रिक्स पाने के लिए तो इसके साथ काम करता है : सिर्फ एक अदिश हैX T X λIXTXλ
हेनरी

47

आइए हम जो जानते हैं उस पर निर्माण करते हैं, जो यह है कि जब भी मॉडल मैट्रिक्स , तो प्रतिक्रिया -vector , और पैरामीटर -vector , उद्देश्य फ़ंक्शन हैएक्स एन वाई पी βn×pXnypβ

f(β)=(yXβ)(yXβ)

(जो अवशिष्टों के वर्गों का योग है) को कम किया जाता है जब सामान्य समीकरणों को हल करता हैβ

(XX)β=Xy.

रिज रिग्रेशन ऑब्जेक्टिव फंक्शन में एक और शब्द जोड़ता है (आमतौर पर सभी वेरिएबल्स को मानकीकृत करने के बाद उन्हें एक सामान्य पायदान पर रखने के लिए), न्यूनतम करने के लिए कहता है

(yXβ)(yXβ)+λββ

कुछ गैर-नकारात्मक निरंतर । यह अवशिष्टों के वर्गों का योग है और गुणांक के वर्गों के योग का गुणक है (यह स्पष्ट है कि यह एक वैश्विक न्यूनतम है)। क्योंकि , इसमें एक सकारात्मक वर्गमूल ।λλ0ν2=λ

पर विचार करें मैट्रिक्स पंक्तियों के लिए इसी के साथ संवर्धित बार पहचान मैट्रिक्स :Xνp×pI

X=(XνI)

जब वेक्टर को इसी तरह zeros के साथ के अंत में विस्तारित किया जाता है , तो उद्देश्य फ़ंक्शन में मैट्रिक्स उत्पाद अतिरिक्त शर्तें जोड़ता है मूल उद्देश्य के लिए। इसलियेypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

बाएं हाथ की अभिव्यक्ति के रूप से यह तात्कालिक है कि सामान्य समीकरण हैं

(XX)β=Xy.

क्योंकि हमने शून्य को के अंत तक , दाहिने हाथ की तरफ । बाएं हाथ की ओर को मूल में जोड़ा जाता है । इसलिए नए सामान्य समीकरण सरल करते हैंyν 2 मैं = λ मैं एक्स ' एक्सXyν2I=λIXX

(XX+λI)β=Xy.

वैचारिक रूप से किफायती होने के अलावा - इस परिणाम को प्राप्त करने के लिए नए हेरफेर की आवश्यकता होती है - यह कम्प्यूटेशनल रूप से किफायती भी है: साधारण कम से कम वर्गों को करने के लिए आपका सॉफ़्टवेयर भी बिना किसी परिवर्तन के रिज रिग्रेशन करेगा। (यह फिर भी, उपयोग इस उद्देश्य के लिए डिज़ाइन किए गए सॉफ़्टवेयर के लिए बड़े समस्याओं में सहायक हो सकता है क्योंकि यह की विशेष संरचना का फायदा उठाने होगा के एक घनी दूरी अंतराल के लिए कुशलता से परिणाम प्राप्त करने के , पता लगाने के लिए कैसे जवाब अलग-अलग हो आप को सक्षम करने के with ।)Xλλ

चीजों को देखने के इस तरीके की एक और सुंदरता यह है कि यह रिज रिग्रेशन को समझने में हमारी मदद कैसे कर सकता है। जब हम वास्तव में प्रतिगमन को समझना चाहते हैं, तो यह लगभग हमेशा ज्यामितीय रूप से सोचने में मदद करता है: के स्तंभ आयाम एक वास्तविक वेक्टर अंतरिक्ष में वैक्टर का गठन करते हैं । आसपास के द्वारा करने के लिए , जिससे उन लोगों से समय को बढ़ाने -vectors को -vectors, हम एम्बेड कर रहे हैं एक बड़ा अंतरिक्ष में शामिल करके "काल्पनिक", पारस्परिक रूप से रूढ़िवादी दिशाएं। का पहला कॉलमXpnνIXnn+pRnRn+ppXआकार का एक छोटा सा काल्पनिक घटक दिया जाता है , जिससे यह लंबा है और यह मूल द्वारा उत्पन्न अंतरिक्ष से बाहर जाने कॉलम। दूसरा, तीसरा, ..., कॉलम समान रूप से लंबा और एक ही राशि - द्वारा मूल स्थान से बाहर चला गया है - लेकिन सभी अलग-अलग नई दिशाओं में। नतीजतन, मूल कॉलम में मौजूद किसी भी कोलिनियरिटी को तुरंत हल किया जाएगा। इसके अलावा, जितना बड़ा हो जाता है, उतने अधिक नए वैक्टर व्यक्तिगत पास पहुंच जाते हैंνppthννpकाल्पनिक दिशाएँ: वे अधिक से अधिक अलंकारिक बन जाती हैं। नतीजतन, सामान्य समीकरणों का हल तुरंत संभव हो जाएगा और यह से बढ़ता रूप में तेजी से संख्यात्मक रूप से स्थिर हो जाएगा ।ν0

इस प्रक्रिया का वर्णन कुछ उपन्यास और रचनात्मक दृष्टिकोण से पता चलता है कि समस्याओं को संबोधित करने के लिए रिज रिग्रेशन को संभालने के लिए डिज़ाइन किया गया था। उदाहरण के लिए, किसी भी तरह से (जैसे कि बेल्सली, कुह और वैल्श द्वारा वर्णित प्रतिगमन निदान , अध्याय 3) पर वर्णित विचरण अपघटन का उपयोग करते हुए , आप के लगभग कोलिन कॉलम के उपसमूह की पहचान करने में सक्षम हो सकते हैं , जहां प्रत्येक उपसमूह। किसी भी अन्य के लिए लगभग रूढ़िवादी है। आप केवल करने के लिए कई पंक्तियों के रूप में जुड़ा होना जरूरत है (और करने के लिए शून्य दूर अपने भाई-बहनों से एक समूह के प्रत्येक तत्व को विस्थापित करने के लिए एक नया "काल्पनिक" आयाम समर्पित) के रूप में वहाँ सबसे बड़े समूह में तत्व हैं,: आप की जरूरत नहीं है काल्पनिक ऐसा करने के लिए आयाम।XXyp


2
पुस्तक का अंतिम लेखक वेल्श है, न कि वेल्श।
मार्क एल। स्टोन

1
वाह, यह सिर्फ मेरे दिमाग उड़ा दिया। क्या इस बारे में कोई चर्चा है कि क्या होता है जब यह रैखिक मॉडल के बाहर सामान्यीकृत होता है, यानी चमक के लिए? जुर्माना को रिज रिग्रेशन के समान नहीं होना चाहिए ... लेकिन इस व्याख्या का अर्थ है कि यह अभी भी एक संभावित उपयोगी अनुमानक होगा!
क्लिफ एबी

2
@ क्लिफ यह एक बहुत ही दिलचस्प सुझाव है। चूंकि, जीएलएम का अनुमान पर अधिक जटिल तरीके से निर्भर करता है और उनके अनुमानकों को आमतौर पर ओएलएस (जहां लिए फॉर्म में नहीं किया जा सकता है और ), एक दंड फ़ंक्शन को लागू करने और के कॉलम को संशोधित करने के बीच एक उपयोगी संबंध स्थापित करना मुश्किल हो सकता है । विशेष रूप से, यह स्पष्ट नहीं है कि इस काम को करने के लिए में मूल्यों को कैसे बढ़ाया जाना चाहिए। β = जी ( एक्स ) ( y ) जी ( एक्स ) = ( एक्स ' एक्स ) - 1 एक्स '( y ) = y एक्स yX
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
हां, यह स्थापित करने के लिए कुछ विचार करना होगा कि जुर्माना क्या है, लेकिन मैं इसके बारे में चिंतित नहीं हूं। क्या का उपयोग करने का विचार आम तौर पर या तो आसान नहीं है ... शायद लॉजिस्टिक रिग्रेशन के मामले में, जहां हम दो जोड़ सकते हैं ; 0 में से एक और 1 में से एक है। यह वृद्धि तब "+2 द्विपद अनुमानक" का एक अधिक सामान्य संस्करण होगा (इस अनुमानक के लिए एक और अधिक उचित नाम है जिसे मैं रिक्त कर रहा हूं, जो मूल रूप से तब है जब आप एक द्विपद वितरण से का अनुमान लगा रहे हैं, जो पीछे की ओर है। पर पूर्व वर्दी के साथ अनुमान )। y * पी पीy ypp
क्लिफ एबी

@Mark सुधार के लिए धन्यवाद। आप बता सकते हैं मैं स्मृति से जा रहा था ... :-)।
whuber

20

व्युत्पत्ति में मैट्रिक्स पथरी शामिल है, जो काफी थकाऊ हो सकती है। हम निम्नलिखित समस्या को हल करना चाहेंगे:

minβ(YβTX)T(YβTX)+λβTβ

अब ध्यान दें कि और एक साथ हम पहली ऑर्डर स्थिति में आइसोलटिंग पैदावार हल करता है:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

मैं हाल ही में पी-स्प्लिंस के संदर्भ में एक ही सवाल पर अड़ गया हूं और जैसा कि अवधारणा है वही मैं रिज अनुमानक की व्युत्पत्ति पर अधिक विस्तृत जवाब देना चाहता हूं।

हम एक अंतिम मानदंड फ़ंक्शन के साथ शुरू करते हैं जो अंतिम योग में क्लासिक ओएलएस-मानदंड फ़ंक्शन से अलग होता है:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

कहा पे

  • p= मॉडल में प्रयुक्त कोवरिएबल्स की मात्रा
  • xiTβ= आपका मानक रैखिक भविष्यवक्ता
  • पहला समंद एमएसई (वास्तविक मूल्य से भविष्यवाणी के वर्ग विचलन) का प्रतिनिधित्व करता है जिसे हम सामान्य रूप से कम करना चाहते हैं
  • दूसरा सम्मन हम गुणांक पर लागू होने वाले दंड का प्रतिनिधित्व करता है। यहां हम रिज-संदर्भ में हैं, जिसका अर्थ यूक्लिडियन डिस्टेंस माप है और इसलिए दंड अवधि में 2 की डिग्री है। एक लास्सो-दंड के मामले में हम 1 की डिग्री लागू करेंगे और एक पूरी तरह से अलग आकलनकर्ता पैदा करेंगे।

हम मैट्रिक्स-संकेतन में इस मानदंड को फिर से लिख सकते हैं और आगे इसे तोड़ सकते हैं:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ साथ पहचान मैट्रिक्स रहाI

=yTy2βTXTy+βT(XTX+λI)β

अब हम हमारे मानदंड को कम करने वाले खोज करते हैं । अन्य लोगों के बीच हम मैट्रिक्स भेदभाव नियम का उपयोग कर सकते हैं - हम कर सकते हैं यहाँ : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@ जान, क्या आप यह समझा सकते हैं कि कैसे बन गया ? मुझे लगता है कि आपने अभी इस पर सही तरीके से आवेदन किया है। लेकिन, आप सभी समीकरणों पर इसे लागू किए बिना सिर्फ एक शब्द पर ट्रांज़ोज़ लागू नहीं कर सकते। मुझे यहां क्या समझ नहीं आ रहा है?
yTXβ
βTXTy
थियेटिस्ट

1
@theateist एक प्रत्यारोपित स्केलर समान स्केलर है।
कॉन्स्टेंटिन

2

कुछ महत्वपूर्ण चीजें हैं जो दिए गए उत्तरों में गायब हैं।

  1. लिए समाधान प्रथम-क्रम आवश्यक स्थिति से लिया गया है: जो पैदावार । लेकिन क्या यह पर्याप्त है? यही है, समाधान केवल एक वैश्विक न्यूनतम है अगर सख्ती से उत्तल है। यह सच दिखाया जा सकता है।आर मैं जी ( बीटा , λ )βबीटा=(एक्सटीएक्स+λमैं)-1एक्सटीवाईआरमैंजी(बीटा,λ)fridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. समस्या को देखने का एक और तरीका है और बीच समानता देखना। कंस्ट्रेन्ड को । OLS का मतलब ऑर्डिनरी लेस्टर स्क्वेयर है। इस दृष्टिकोण से सिर्फ लाग्रंगियन उत्तल ऑब्जेक्टिव समारोह के वैश्विक न्यूनतम खोजने के लिए इस्तेमाल किया समारोह है उत्तल समारोह के साथ विवश ।fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

इन बिंदुओं की एक अच्छी व्याख्या और की व्युत्पत्ति इन बढ़िया व्याख्यान नोट्स में पाई जा सकती है: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.