रिज रिग्रेशन को "रिज" क्यों कहा जाता है, इसकी आवश्यकता क्यों है, और क्या होता है जब अनंत तक जाता है?


71

रिज रिग्रेशन गुणांक अनुमान ऐसे मान हैं जो न्यूनतम होते हैंβ^R

RSS+λj=1pβj2.

मेरे प्रश्न हैं:

  1. यदि , तो हम देखते हैं कि ऊपर की अभिव्यक्ति सामान्य RSS पर कम हो जाती है। क्या होगा अगर ? मुझे गुणांक के व्यवहार की पाठ्यपुस्तक की व्याख्या समझ में नहीं आती है।λ=0λ

  2. किसी विशेष शब्द के पीछे की अवधारणा को समझने में सहायता करने के लिए, शब्द को RIDGE प्रतिगमन क्यों कहा जाता है? (रिज क्यों?) और क्या सामान्य / सामान्य प्रतिगमन के साथ गलत हो सकता है कि रिज प्रतिगमन नामक एक नई अवधारणा को पेश करने की आवश्यकता है?

आपकी अंतर्दृष्टि बहुत अच्छी होगी।

जवाबों:


89

चूंकि आप अंतर्दृष्टि के लिए पूछते हैं , इसलिए मैं अधिक गणितीय शुल्क के बजाय एक काफी सहज दृष्टिकोण अपनाने जा रहा हूं:

  1. मेरा उत्तर में अवधारणाओं के बाद यहाँ , हम जोड़कर डमी डेटा के साथ एक प्रतिगमन के रूप में एक रिज प्रतिगमन तैयार कर सकते हैं (अपने निर्माण में) टिप्पणियों, जहां , और लिए । यदि आप इस विस्तृत डेटा सेट के लिए नया RSS लिखते हैं, तो आप देखेंगे कि अतिरिक्त टिप्पणियों में से प्रत्येक में एक शब्द जोड़ा गया है , ताकि नया RSS मूल - है और इस नए, विस्तृत डेटा सेट पर RSS को कम करने के साथ ही रिज प्रतिगमन प्रतिगमन को कम करने के समान है।pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    तो हम यहां क्या देख सकते हैं? जैसा कि बढ़ता है, अतिरिक्त प्रत्येक में एक घटक होता है जो बढ़ता है, और इसलिए इन बिंदुओं का प्रभाव भी बढ़ता है। वे फिट हाइपरप्लेन को अपनी ओर खींचते हैं। तब के रूप में और की इसी घटकों के अनंत को बंद होने पर, सभी शामिल गुणांक के लिए "बाहर समतल" ।λxλx0

    यही है, , जुर्माना कम से कम हावी होगा, इसलिए s शून्य पर जाएगा। यदि अवरोधन को दंडित नहीं किया जाता है (सामान्य मामला) तो मॉडल प्रतिक्रिया के माध्यम की ओर अधिक से अधिक सिकुड़ता है।λβ

  2. मैं एक सहज ज्ञान देता हूं कि हम पहले लकीरें क्यों दिखा रहे हैं (जो यह भी बताता है कि इसकी आवश्यकता क्यों है), फिर थोड़ा इतिहास निपटाएं। पहले मेरे जवाब से अनुकूलित है :

    यदि बहुसंस्कृति है, तो आपको संभावना फ़ंक्शन में एक "रिज" मिलता है (संभावना है कि यह कार्य है )। यह बदले में आरएसएस में एक लंबी "घाटी" पैदा करता है (आरएसएस = )।β2logL

    रिज रिग्रेशन " रिज " को ठीक करता है - यह एक दंड जोड़ता है जो रिज को संभावना स्थान में एक अच्छे शिखर में बदल देता है, समान रूप से एक अच्छा अवसाद जिसे हम न्यूनतम कर रहे हैं:

    रास प्रतिगमन में रिज को एक चोटी में बदल दिया जाता है
    [ साफ छवि ]

    नाम के पीछे की वास्तविक कहानी थोड़ी अधिक जटिल है। 1959 में AE Hoerl [1] ने प्रतिक्रिया सतह कार्यप्रणाली के लिए रिज विश्लेषण पेश किया , और यह बहुत जल्द [2] प्रतिगमन ('रिज रिग्रेशन') में मल्टीकोलिनरिटी से निपटने के लिए अनुकूलित हो गया। उदाहरण के लिए देखें, RW Hoerl द्वारा चर्चा [3] में, जहाँ यह वर्णन करता है कि Hoerl's (AE not RW) प्रतिसाद सतह के समोच्च भूखंडों का उपयोग * पहचान में जहां स्थानीय ऑप्टिमा खोजने के लिए सिर (जहां एक सिर ऊपर हो) रिज ')। गैर-सशर्त समस्याओं में, एक बहुत लंबे रिज का मुद्दा उठता है, और रिज विश्लेषण से अंतर्दृष्टि और कार्यप्रणाली संबंधित मुद्दे के प्रति अनुकूल होते हैं / प्रतिगमन में आरएसएस के साथ, रिज प्रतिगमन का उत्पादन करते हैं।

* प्रतिक्रिया सतह समोच्च भूखंडों (द्विघात प्रतिक्रिया के मामले में) के उदाहरण यहां देखे जा सकते हैं (चित्र 3.9-3.12)।

यही है, "रिज" वास्तव में उस फ़ंक्शन की विशेषताओं को संदर्भित करता है जिसे हम मैट्रिक्स में "रिज" (+ वी विकर्ण) जोड़ने के बजाय अनुकूलित करने का प्रयास कर रहे थे (इसलिए जबकि रिज प्रतिगमन मूत्रवर्धक में जोड़ता है) इसलिए हम इसे 'रिज' प्रतिगमन कहते हैं।XTX

रिज प्रतिगमन की आवश्यकता के बारे में कुछ अतिरिक्त जानकारी के लिए, सूची 2 आइटम के तहत पहला लिंक देखें। ऊपर।


संदर्भ:

[१]: होर्ल, एई (१ ९ ५ ९)। कई चर समीकरणों का इष्टतम समाधान। केमिकल इंजीनियरिंग प्रगति , 55 (11) 69-78।

[२]: होर्ल, एई (१ ९ ६२)। प्रतिगमन समस्याओं के लिए रिज विश्लेषण के अनुप्रयोग। केमिकल इंजीनियरिंग प्रगति , 58 (3) 54-59।

[३] होर्ल, आरडब्ल्यू (१ ९ l५)। रिज विश्लेषण 25 साल बाद। अमेरिकी सांख्यिकीविद् , 39 (3), 186-192


2
यह बेहद मददगार है। हां, जब मैं अंतर्दृष्टि के लिए पूछ रहा था, तो मैं अंतर्ज्ञान की तलाश कर रहा था। बेशक गणित महत्वपूर्ण है, लेकिन मैं वैचारिक स्पष्टीकरण की भी तलाश कर रहा था, क्योंकि कुछ भाग ऐसे हैं जब गणित सिर्फ मेरे से परे था। एक बार फिर धन्यवाद।
सीजीओ

बुलेट पॉइंट 1 में "भारित" शब्द क्यों है?
अमीबा

1
यह एक अच्छा सवाल है; जब तक मूल प्रतिगमन भारित नहीं किया जाता है, तब तक इसे भारित करने की कोई आवश्यकता नहीं है। मैंने विशेषण हटा दिया है। इसे एक भारित प्रतिगमन के रूप में लिखना भी संभव है (यदि आप पहले से ही भारित प्रतिगमन कर रहे हैं तो इससे निपटने के लिए बहुत आसान हो सकता है)।
Glen_b

36
  1. यदि तो हमारा पेनल्टी शब्द अलावा किसी भी लिए अनंत होगा , इसलिए हम इसे प्राप्त करेंगे। कोई अन्य वेक्टर नहीं है जो हमें उद्देश्य फ़ंक्शन का एक सीमित मूल्य देगा।β β = 0λββ=0

(अपडेट: कृपया Glen_b का जवाब देखने के यह वह जगह है। नहीं सही ऐतिहासिक कारण!)

  1. यह मैट्रिक्स नोटेशन में रिज रिग्रेशन के समाधान से आता है। समाधान अवधि मुख्य विकर्ण के लिए एक "रिज" कहते हैं और गारंटी देता है कि परिणामस्वरूप मैट्रिक्स उलटी है। इसका मतलब है कि, OLS के विपरीत, हमें हमेशा एक समाधान मिलेगा।
    β^=(XTX+λI)1XTY.
    λI

जब भविष्यवक्ता सहसंबद्ध होते हैं तो रिज रिग्रेशन उपयोगी होता है। इस मामले में ओएलएस भारी गुणांक वाले जंगली परिणाम दे सकता है, लेकिन अगर उन्हें दंडित किया जाता है तो हम बहुत अधिक उचित परिणाम प्राप्त कर सकते हैं। सामान्य तौर पर रिज रिग्रेशन का एक बड़ा फायदा यह है कि समाधान हमेशा मौजूद होता है, जैसा कि ऊपर बताया गया है। यह उस स्थिति पर भी लागू होता है जहां , जिसके लिए OLS एक (अद्वितीय) समाधान प्रदान नहीं कर सकता है।n<p

रिज रिग्रेशन भी एक परिणाम है जब एक सामान्य पूर्व वेक्टर पर डाल दिया जाता है।β

यहाँ बेइज़ियन को रिज रिग्रेशन पर लिया गया है: मान लीजिए कि हमारे लिए । तब क्योंकि [धारणा से] हमारे पास वह ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

चलिए पोस्टीरियर मोड को खोजें (हम पोस्टीरियस माध्य या अन्य चीजों को भी देख सकते हैं लेकिन इसके लिए आइए मोड को देखें, अर्थात सबसे संभावित मान)। इसका मतलब है कि हम चाहते हैं जो के बराबर है

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
क्योंकि कड़ाई से एकरस है और यह बदले में बराबर है। log
minβRp||yXβ||2+λβTβ

जो बहुत परिचित दिखना चाहिए।

इस प्रकार हम देखते हैं कि अगर हम मतलब 0 और विचरण के साथ एक सामान्य से पहले डाल हमारे पर वेक्टर, का मान जो पीछे अधिकतम रिज आकलनकर्ता है। ध्यान दें कि यह एक प्रायोजक पैरामीटर के रूप में अधिक व्यवहार करता है क्योंकि इस पर कोई पूर्व नहीं है लेकिन यह ज्ञात नहीं है, इसलिए यह पूरी तरह से बायेसियन नहीं है।σ2λββσ2

संपादित करें: आपने उस मामले के बारे में पूछा जहां । हम जानते हैं कि एक हाइपरप्लेन in को बिल्कुल पॉइंट्स द्वारा परिभाषित किया गया है । हम एक रेखीय प्रतिगमन चल रहे हैं और अगर तो हम वास्तव में हमारे डेटा को जोड़ और मिल । यह एक समाधान है, लेकिन यह एक भयानक है: भविष्य के आंकड़ों पर हमारा प्रदर्शन सबसे अधिक संभावना है। अब मान लीजिए : अब इन बिंदुओं द्वारा परिभाषित एक अद्वितीय हाइपरप्लेन नहीं है। हम हाइपरप्लेन की एक भीड़ को फिट कर सकते हैं, प्रत्येक में 0 अवशिष्ट राशि के वर्ग हैं।n<pRppn=p||yXβ^||2=0n<p

एक बहुत ही सरल उदाहरण: मान लीजिए । फिर हम इन दो बिंदुओं के बीच में एक रेखा प्राप्त करेंगे। अब मान लीजिए लेकिन । इसमें इन दो बिंदुओं के साथ एक विमान का चित्र। हम इस विमान को इस तथ्य को बदलने के बिना घुमा सकते हैं कि ये दो बिंदु इसमें हैं, इसलिए हमारे उद्देश्य फ़ंक्शन के सही मूल्य के साथ सभी मॉडल बेशुमार हैं, इसलिए ओवरफ़िटिंग के मुद्दे से परे यह स्पष्ट नहीं है कि किसे चुनना है।n=p=2n=2p=3

अंतिम टिप्पणी (प्रति @ गंग के सुझाव) के रूप में, LASSO (एक दंड का उपयोग ) आमतौर पर उच्च आयामी समस्याओं के लिए उपयोग किया जाता है क्योंकि यह स्वचालित रूप से चर चयन (कुछ सेट करता है ) करता है। डिलाइट रूप से, यह पता चलता है कि LASSO पिछले मोड का उपयोग करने के बराबर है, जब डबल घातीय (उर्फ लाप्लास) से पहले वेक्टर का उपयोग किया जाता है। LASSO की भी कुछ सीमाएँ हैं, जैसे भविष्यवाणियों पर संतृप्ति करना और जरूरी नहीं कि एक आदर्श फैशन में सहसंबद्ध भविष्यवक्ताओं के समूह को संभालना, इसलिए लोचदार नेट ( और दंड का उत्तल संयोजन ) को लाया जा सकता है।L1βj=0βnL1L2


1
(+1) बेइज़ियन और रिज रिग्रेशन के बीच संबंध पर विस्तार से आपके उत्तर को बेहतर बनाया जा सकता है।
साइकोरैक्स

1
क्या करेंगे - इसे अभी टाइप करें।
जेएलडी

4
OLS एक अद्वितीय समाधान नहीं खोज सकता है जब क्योंकि डिज़ाइन मैट्रिक्स पूर्ण रैंक नहीं है। यह एक बहुत ही सामान्य प्रश्न है; यह क्यों काम नहीं करता है, इसके विवरण के लिए कृपया अभिलेखागार खोजें। n<p
साइकोरैक्स

2
@cgo: user777 के बारे में खोज करने के लिए स्पष्टीकरण और सुझाव एक अच्छा है, लेकिन पूर्णता के लिए मैंने एक (उम्मीद) सहज स्पष्टीकरण भी जोड़ा है।
जेएलडी

5
+1, अच्छा जवाब। Re n <p, आप उल्लेख कर सकते हैं कि LASSO आमतौर पर इस मामले में उपयोग किया जाता है और यह RR से निकटता से संबंधित है।
गुंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.