वास्तव में किन परिस्थितियों में रिज रिग्रेशन साधारण न्यूनतम वर्ग रिग्रेशन पर एक सुधार प्रदान करने में सक्षम है?


16

रिज रिग्रेशन का अनुमान एक रेखीय मॉडल में पैरामीटर by \ hat {\ boldsymbol \ Beta} _ \ lambda = (\ mathbff x ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, जहां \ lambda एक नियमितीकरण पैरामीटर है। यह सर्वविदित है कि यह अक्सर ओएलएस प्रतिगमन ( \ lambda = 0 के साथ ) से बेहतर प्रदर्शन करता है जब कई सहसंबद्ध भविष्यवक्ता होते हैं।βबीटा λ = ( एक्सएक्स + λ मैं ) - 1 एक्सy , λ λ = 0y=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

रिज प्रतिगमन के लिए एक अस्तित्व प्रमेय का कहना है कि वहाँ हमेशा एक पैरामीटर मौजूद है λ>0 ऐसी है कि के माध्य-चुकता त्रुटि β^λ OLS की संकरी-चुकता त्रुटि से सख्ती से छोटा होता है अनुमान β^OLS=β^0 । दूसरे शब्दों में, λ का एक इष्टतम मूल्य हमेशा गैर-शून्य होता है। यह जाहिरा तौर पर पहली बार होर्ल और केनेर्ड, 1970 में साबित हुआ था और कई व्याख्यान नोटों में दोहराया गया है जो मुझे ऑनलाइन (जैसे यहां और यहां ) मिलते हैं । मेरा प्रश्न इस प्रमेय की मान्यताओं के बारे में है:

  1. क्या सहसंयोजक मैट्रिक्स \ mathbf X ^ \ top \ mathbf X के बारे में कोई धारणा है XX?

  2. क्या \ mathbf X की आयामीता के बारे में कोई धारणा है X?

विशेष रूप से, क्या प्रमेय अभी भी सही है अगर भविष्यवक्ता ऑर्थोगोनल हैं (यानी XX विकर्ण है), या यहां तक ​​कि अगर XX=I ? और क्या यह अभी भी सच है अगर केवल एक या दो भविष्यवक्ता हैं (कहते हैं, एक भविष्यवक्ता और एक अवरोधक)?

यदि प्रमेय ऐसी कोई धारणा नहीं बनाता है और इन मामलों में भी सही रहता है, तो रिज प्रतिगमन आमतौर पर केवल सहसंबद्ध भविष्यवक्ताओं के मामले में अनुशंसित है, और कभी नहीं (?) सरल (यानी एकाधिक नहीं) प्रतिगमन के लिए अनुशंसित है?


यह संकोचन पर एकीकृत दृष्टिकोण के बारे में मेरे प्रश्न से संबंधित है : स्टीन के विरोधाभास, रिज प्रतिगमन और मिश्रित मॉडल में यादृच्छिक प्रभावों के बीच क्या संबंध है (यदि कोई है)? , लेकिन वहां कोई जवाब अब तक इस बिंदु को स्पष्ट नहीं करता है।


1
यह सब प्रतीत होता है, लेकिन अंतिम प्रश्न सीधे तौर पर Hoerl & Kennard पेपर में दिए गए हैं, विशेष रूप से परिचय के पहले वाक्य और निष्कर्ष के पहले वाक्य में। अंतिम प्रश्न का उत्तर निरंतर वेक्टर और किसी एकल भविष्यवक्ता के बीच सहसंयोजन को ध्यान में रखकर दिया जा सकता है, जो हमेशा शून्य (मानक तरीके से) को घटाकर है। XX1×1
whuber

1
धन्यवाद, @whuber मुझे विश्वास है कि होर्ल और केनेर्ड पेपर मेरे सवालों का जवाब देता है (कम से कम तकनीकी वाले) - एक को प्रमाण का पालन करने और मान्यताओं की जांच करने में सक्षम होना चाहिए (मैंने अभी तक ऐसा नहीं किया है)। लेकिन जिन वाक्यों का आप जिक्र कर रहे हैं, उनसे मैं पूरी तरह आश्वस्त नहीं हूं। इंट्रो का पहला वाक्य मेरे प्रश्न से संबंधित कैसे है? निष्कर्षों का पहला वाक्य यह बताता है कि अगर में एकसमान स्पेक्ट्रम है (जैसे कि बराबर ) तो प्रमेय लागू नहीं होता है। लेकिन मुझे 100% यकीन नहीं है, क्योंकि मैं इस धारणा को प्रमाण से पहले स्पष्ट रूप से नहीं बताता हूं। IXXI
अमीबा

यह देखें कि उच्च प्रतिनिधि उपयोगकर्ताओं (जो आमतौर पर केवल उन्हें उत्तर देते हैं) से किस प्रकार के प्रश्न पूछे जा सकते हैं (और इसी तरह आपके अन्य लिंक किए गए प्रश्नों के लिए जो मुझे यहां भेज दिए गए हैं। आँकड़े backchange.com/questions/122062/… !
javadba

जवाबों:


11

1 और 2 दोनों का उत्तर नहीं है, लेकिन अस्तित्व प्रमेय की व्याख्या करने में देखभाल की आवश्यकता है।

रिज एस्टिमेटर की भिन्नता

Let पेनल्टी तहत रिज का अनुमान हो , और मॉडल लिए असली पैरामीटर होने दें । Let हैं । होर्ल और केनार्ड समीकरण 4.2-4.5 से, जोखिम, (अपेक्षित त्रुटि के मानक के संदर्भ में) है कश्मीरβY=एक्सβ+ελ1,...,λपीएक्सटीएक्सएल2β^kβY=Xβ+ϵλ1,,λpXTX
L2

( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1γ1 ^ बीटा * -बीटाγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
जहाँ तक मैं बता सकता हूँ, वे टिप्पणी करते हैं कि में के आंतरिक उत्पाद के विचरण की व्याख्या है , जबकि पूर्वाग्रह का आंतरिक उत्पाद है।(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

मान , तो चलो जोखिम w / r / t के व्युत्पन्न हो । चूँकि , हम निष्कर्ष निकालते हैं कि कुछ ऐसा है कि । आर ( कश्मीर ) = पी σ 2 + कश्मीर 2 β टी βXTX=Ipआर'(कश्मीर)=2कश्मीर(1+कश्मीर)βटीβ-(पीσ2+कश्मीर2βटीβ)

R(k)=pσ2+k2βTβ(1+k)2.
कश्मीरलिमकश्मीर0+आर'(कश्मीर)=-2पीσ2<0कश्मीर*>0आर(कश्मीर*)<आर(0)
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

लेखक टिप्पणी करते हैं कि orthogonality वह सर्वोत्तम है जिसे आप पर जोखिम के संदर्भ में आशा कर सकते हैं , और जैसे ही की स्थिति संख्या बढ़ती है, दृष्टिकोण ।एक्स टी एक्स लिम कश्मीर 0 + आर ' ( कश्मीर ) - k=0XTXlimk0+R(k)

टिप्पणी

यहाँ एक विरोधाभास प्रतीत होता है, कि यदि और स्थिर है, तो हम केवल सामान्य चर के अनुक्रम का अनुमान लगा रहे हैं , और हम जानते हैं कि वेनिला निष्पक्ष अनुमान है इस मामले में स्वीकार्य है। इसका समाधान यह देखते हुए किया जाता है कि उपरोक्त तर्क केवल यह प्रदान करता है कि निर्धारित लिए का न्यूनतम मूल्य मौजूद है । लेकिन किसी भी , हम बड़ा करके जोखिम विस्फोट कर सकते हैं , इसलिए यह तर्क अकेले रिज अनुमान के लिए स्वीकार्यता नहीं दिखाता है।X ( β , σ 2 ) k β T β k β T βp=1X(β,σ2)kβTβkβTβ

आमतौर पर सहसंबद्ध भविष्यवक्ताओं के मामले में रिज रिग्रेशन की ही सिफारिश क्यों की जाती है?

H & K का जोखिम व्युत्पत्ति दर्शाता है कि यदि हम सोचते हैं कि छोटा है, और यदि डिजाइन लगभग-एकवचन है, तो हम अनुमान के जोखिम में बड़ी कटौती प्राप्त कर सकते हैं। मुझे लगता है कि रिज प्रतिगमन का सर्वव्यापी उपयोग नहीं किया जाता है क्योंकि ओएलएस अनुमान एक सुरक्षित डिफ़ॉल्ट है, और यह कि अदृश्य और निष्पक्षता गुण आकर्षक हैं। जब यह विफल होता है, तो यह ईमानदारी से विफल हो जाता है - आपका सहसंयोजक मैट्रिक्स फट जाता है। शायद एक दार्शनिक / हीन बिंदु भी है, कि यदि आपका डिज़ाइन लगभग विलक्षण है, और आपके पास अवलोकन डेटा है, तो में इकाई परिवर्तन के लिए में परिवर्तन के रूप में की व्याख्या संदिग्ध है - बड़ी सहसंयोजक मैट्रिक्स है उस का लक्षण। एक्स टी एक्स β वाई एक्सβTβXTXβEYX

लेकिन अगर आपका लक्ष्य पूरी तरह से भविष्यवाणी है, तो अनुमानात्मक चिंताएं नहीं रहती हैं, और आपके पास कुछ प्रकार के संकोचन अनुमानक का उपयोग करने के लिए एक मजबूत तर्क है।


2
वाह धन्यवाद! मुझे आपके "टिप्पणी" अनुभाग के बारे में मेरी समझ की जाँच करें: किसी भी दिए गए , एक इष्टतम गैर-शून्य है, लेकिन इसका मूल्य अलग-अलग बेटों के लिए अलग-अलग है, और कोई भी निश्चित , को सभी बेटों के लिए हरा नहीं सकता है , जो है ग्राह्यता के लिए क्या आवश्यक है। सही बात? इसके अलावा, क्या आप मेरे सामान्य प्रश्न पर टिप्पणी कर सकते हैं: [यदि प्रमेय ऐसी कोई धारणा नहीं बनाता है, तो] रिज प्रतिगमन आमतौर पर केवल सहसंबद्ध भविष्यवक्ताओं के लिए अनुशंसित है, और सरल (एकाधिक नहीं) प्रतिगमन के लिए कभी अनुशंसित नहीं है? क्या इसलिए कि सकारात्मक प्रभाव को परेशान करने के लिए अनुभवजन्य रूप से जाना जाता है? k k k = βkkk=0
अमीबा का कहना है कि मोनिका

2
H & K लगातार मान लेते हैं कि पूर्ण रैंक का है। यह बताते हुए कि # 1 का उत्तर "नहीं" है, क्या आप दावा कर रहे हैं कि जब ऐसा नहीं होता है तो उनके नतीजे क्या होते हैं? XX
whuber

3
@whuber: जोखिम के अपने व्युत्पत्ति के लिए केंद्रीय यह है कि रिज अनुमान , जहां ओएलएस अनुमान है और । यह स्पष्ट रूप से ऐसे नहीं पकड़ सकता है जब रैंक की कमी है। लेकिन OLS अनुमान मौजूद नहीं है - परिमित जोखिम के साथ तो शायद किसी भी अनुमान (ले बड़ा पर्याप्त और आप मिल जाएगा जोखिम के साथ, ) बेहतर है एक अनुमानक की तुलना में जो अस्तित्व में नहीं है? जहां तक ​​अगर जोखिम व्युत्पत्ति अभी भी है: मुझे यकीन नहीं है। एक अलग सबूत की जरूरत होगी। β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
एंड्रयू एम

3
@amoeba: हाँ, आपका प्रतिबंध सही लगता है। OLS आकलनकर्ता पर हावी होने के लिए, हमें किसी प्रकार की अनुकूली प्रक्रिया की आवश्यकता होती है, जिसमें डेटा का एक कार्य होता है। आपके अन्य सूत्र पर, शीआन ने अनुकूली रिज अनुमानों के बारे में एक टिप्पणी की थी, ताकि यह देखने के लिए एक जगह हो। आरई: ओर्थोगोनल डिजाइनों के लिए रिज का अनुमान - मैंने उनके प्रमाण से मार्गदर्शन के रूप में दूर तक एक और टिप्पणी जोड़ी है। λ
एंड्रयू एम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.