रिज रिग्रेशन में रिग्रेशन गुणांक


14

रिज प्रतिगमन में, उद्देश्य समारोह को कम से कम किया जा रहा है:

RSS+λβj2.

क्या यह लैगेंज गुणक विधि का उपयोग करके अनुकूलित किया जा सकता है? या यह सीधे भेदभाव है?


1
शीर्षक (जो पर केंद्रित है के बीच क्या संबंध है λ ) और प्रश्न (जो केवल के बारे में प्रतीत होता है βj )? मुझे चिंता है कि "अनुकूलित किया जा सकता है" अलग-अलग व्याख्याएं हो सकती हैं, जिसके आधार पर चर को उन लोगों के आधार पर माना जाता है जो विविध हो सकते हैं और जो तय होने हैं।
whuber

1
धन्यवाद ने सवाल को संशोधित किया। मैंने पढ़ा है कि λ पार सत्यापन द्वारा पाया जाता है - लेकिन मुझे विश्वास है कि इसका मतलब है आपके पास βj पहले से ही है और सबसे अच्छा लगता है भिन्न डेटा का उपयोग λ प्रश्न है - कैसे आप मिल रहा है βj 'पहली जगह में है जब λ एक अज्ञात है?
मिनाज

जवाबों:


22

रिज समस्या के लिए दो योग हैं। पहले वाला है

βR=argminβ(yXβ)(yXβ)

का विषय है

jβj2s.

यह सूत्रीकरण प्रतिगमन गुणांक पर आकार की कमी को दर्शाता है। ध्यान दें कि यह बाधा क्या है; हम गुणांक को त्रिज्या साथ मूल के आसपास एक गेंद में झूठ बोलने के लिए मजबूर कर रहे हैं ।s

दूसरा सूत्रीकरण आपकी समस्या है

βR=argminβ(yXβ)(yXβ)+λβj2

जिसे लार्जेंज मल्टीप्लायर फॉर्मुलेशन के रूप में देखा जा सकता है। ध्यान दें कि यहाँ एक ट्यूनिंग पैरामीटर है और इसके बड़े मान अधिक सिकुड़न को जन्म देंगे। आप संबंध में अभिव्यक्ति को अलग करने के लिए आगे बढ़ सकते हैं और प्रसिद्ध रिज अनुमानक प्राप्त कर सकते हैंλβ

(1)βR=(XX+λI)1Xy

दो योग पूरी तरह से समतुल्य हैं , क्योंकि और बीच एक-से-एक पत्राचार है ।sλ

मुझे उस पर थोड़ा विस्तार करना चाहिए। कल्पना करें कि आप आदर्श ऑर्थोगोनल केस में हैं, । यह एक बहुत ही सरलीकृत और अवास्तविक स्थिति है, लेकिन हम अनुमानक की जांच मेरे साथ थोड़ा और अधिक बारीकी से कर सकते हैं। विचार करें कि समीकरण (1) के साथ क्या होता है। रिज अनुमानक कम हो जाता हैXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

जैसे कि ऑर्थोगोनल केस में OLS आकलनकर्ता को । इस घटक-वार को देखते हुए अब हम प्राप्त करते हैंβOLS=Xy

(2)βR=βOLS1+λ

ध्यान दें कि अब संकोचन सभी गुणांक के लिए स्थिर है। यह सामान्य मामले में पकड़ नहीं हो सकता है और वास्तव में यह दिखाया जा सकता है कि अगर मैट्रिक्स में पतित हैं तो संकोचन व्यापक रूप से भिन्न होंगे ।XX

लेकिन विवश अनुकूलन समस्या पर वापस लौटते हैं। केकेटी सिद्धांत द्वारा, इष्टतमता के लिए एक आवश्यक शर्त है

λ(βR,j2s)=0

इसलिए या तो या (इस मामले में हम कहते हैं कि बाधा बाध्यकारी है)। यदि तो कोई जुर्माना नहीं है और हम नियमित OLS स्थिति में वापस आ गए हैं। मान लीजिए कि फिर बाधा बाध्यकारी है और हम दूसरी स्थिति में हैं। (2) में सूत्र का उपयोग करना, हमारे पास तब हैλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

जिसे हम प्राप्त करते हैं

λ=βOLS,j2s1

पहले एक-से-एक रिश्ते ने दावा किया था। मुझे उम्मीद है कि यह गैर-ऑर्थोगोनल मामले में स्थापित करना कठिन है, लेकिन परिणाम की परवाह किए बिना किया जाता है।

हालांकि (2) को फिर से देखें और आप देखेंगे कि हम अभी भी याद नहीं कर रहे हैं । इसके लिए एक इष्टतम मूल्य प्राप्त करने के लिए, आप या तो क्रॉस-सत्यापन का उपयोग कर सकते हैं या रिज ट्रेस को देख सकते हैं। उत्तरार्द्ध विधि में (0,1) में अनुक्रम का निर्माण करना और यह देखना है कि अनुमान कैसे बदलते हैं। फिर आप उन्हें स्थिर करने वाले चयन करते हैं। इस विधि को नीचे दिए गए संदर्भों के दूसरे तरीके से सुझाया गया था और यह सबसे पुराना है।λλλ

संदर्भ

होर्ल, आर्थर ई।, और रॉबर्ट डब्ल्यू। केनार्ड। "रिज रिग्रेशन: अपरंपरागत समस्याओं के लिए बायस्ड अनुमान।" टेक्नोमेट्रिक्स 12.1 (1970): 55-67।

होर्ल, आर्थर ई।, और रॉबर्ट डब्ल्यू। केनार्ड। "रिज रिग्रेशन: नॉनथोगोगोनल समस्याओं के लिए आवेदन।" टेक्नोमेट्रिक्स 12.1 (1970): 69-82।


2
@ मिनाज रिज प्रतिगमन में सभी गुणांक (अवरोधन के अलावा) के लिए निरंतर संकोचन होता है। इसलिए केवल एक गुणक है।
जॉनके

2
@amoeba यह एक सुझाव है जो होर्ल और केनेर्ड ने 1970 के दशक में रिज रिग्रेशन की शुरुआत की थी। उनके अनुभव के आधार पर - और मेरा - गुणांक मल्टीकोलिनरिटी के चरम डिग्री के साथ भी उस अंतराल में स्थिर हो जाएगा। बेशक, यह एक अनुभवजन्य रणनीति है और इसलिए हर समय काम करने की गारंटी नहीं है।
जॉनके

2
आप बस छद्म अवलोकन विधि भी कर सकते हैं और अनुमान लगा सकते हैं कि सीधे कम से कम वर्गों के प्रतिगमन कार्यक्रम से अधिक जटिल कुछ भी नहीं है। आप इसी तरह से बदलते के प्रभाव की भी जांच कर सकते हैं । λ
Glen_b -Reinstate मोनिका

2
@amoeba यह सच है कि रिज स्केल इंवेरिएंट नहीं है, इसलिए डेटा को पहले से मानकीकृत करना आम बात है। यदि आप एक नज़र रखना चाहते हैं तो मैंने प्रासंगिक संदर्भों को शामिल किया है। वे बेहद दिलचस्प हैं और इतने तकनीकी नहीं हैं।
जॉनके

2
@JohnK इन इफेक्ट रिज रिग्रेशन प्रत्येक को एक अलग राशि से सिकोड़ता है , इसलिए संकोचन स्थिर नहीं होता है, भले ही केवल एक संकोचन पैरामीटर । βλ
फ्रैंक हरेल

4

मेरी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ चुनने के लिए प्रभावी एआईसी के उपयोग में । यह दंडित लॉग लाइबिलिटी और स्वतंत्रता की प्रभावी डिग्री से आता है, बाद वाला एक फ़ंक्शन है जो पेनल्टीकरण द्वारा के कितने संस्करण कम किए जाते हैं। इस बारे में एक प्रस्तुति यहां दी गई है । R पैकेज ढूँढता है जो प्रभावी AIC को अनुकूलित करता है, और कई पेनल्टी पैरामीटर (उदाहरण के लिए, रैखिक मुख्य प्रभावों के लिए एक, nonlinear मुख्य प्रभावों के लिए एक, रैखिक संपर्क प्रभावों के लिए एक, और nonlinear इंटरैक्शन प्रभावों के लिए एक) की अनुमति देता है।λβ^rmspentraceλ


1
+1। आप स्पष्ट सूत्र के माध्यम से गणना किए गए लीव-वन-आउट सीवी त्रुटि का उपयोग करने के बारे में क्या सोचते हैं (यानी वास्तव में सीवी का प्रदर्शन किए बिना), चुनने के लिए ? क्या आपके पास इस बारे में कोई विचार है कि यह व्यवहार में "प्रभावी एआईसी" की तुलना कैसे करता है? λ
अमीबा का कहना है कि

मैंने उसका अध्ययन नहीं किया है। एलओओसीवी बहुत संगणना लेता है।
फ्रैंक हरेल

नहीं तो स्पष्ट सूत्र का उपयोग किया जाता है: आँकड़ें ।stackexchange.com / questions / 32542
अमीबा का कहना है कि

1
वह सूत्र ओएलएस के विशेष मामले के लिए काम करता है, सामान्य रूप से अधिकतम संभावना के लिए नहीं। लेकिन स्कोर अवशेषों का उपयोग करते हुए एक अनुमानित सूत्र है। मुझे लगता है कि हम मुख्य रूप से इस चर्चा में ओएलएस के बारे में बात कर रहे हैं।
फ्रैंक हरेल

1

मैं इसे विश्लेषणात्मक रूप से नहीं करता, बल्कि संख्यात्मक रूप से करता हूं। मैं आमतौर पर RMSE बनाम λ की साजिश करता हूं:

यहाँ छवि विवरण दर्ज करें

चित्रा 1. आरएमएसई और निरंतर λ या अल्फा।


क्या इसका मतलब है कि आप का एक निश्चित मूल्य तय करते हैं और फिर अभिव्यक्ति को अलग-अलग करने के लिए का पता जिसके बाद आप RMSE की गणना करते हैं और फिर से नए मूल्यों के लिए प्रक्रिया करते हैं ? λβjλ
मिनाज
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.