- यदि तो हमारा पेनल्टी शब्द अलावा किसी भी लिए अनंत होगा , इसलिए हम इसे प्राप्त करेंगे। कोई अन्य वेक्टर नहीं है जो हमें उद्देश्य फ़ंक्शन का एक सीमित मूल्य देगा।β β = 0λ→∞ββ=0
(अपडेट: कृपया Glen_b का जवाब देखने के यह वह जगह है। नहीं सही ऐतिहासिक कारण!)
- यह मैट्रिक्स नोटेशन में रिज रिग्रेशन के समाधान से आता है। समाधान
अवधि मुख्य विकर्ण के लिए एक "रिज" कहते हैं और गारंटी देता है कि परिणामस्वरूप मैट्रिक्स उलटी है। इसका मतलब है कि, OLS के विपरीत, हमें हमेशा एक समाधान मिलेगा।
β^=(XTX+λI)−1XTY.
λI
जब भविष्यवक्ता सहसंबद्ध होते हैं तो रिज रिग्रेशन उपयोगी होता है। इस मामले में ओएलएस भारी गुणांक वाले जंगली परिणाम दे सकता है, लेकिन अगर उन्हें दंडित किया जाता है तो हम बहुत अधिक उचित परिणाम प्राप्त कर सकते हैं। सामान्य तौर पर रिज रिग्रेशन का एक बड़ा फायदा यह है कि समाधान हमेशा मौजूद होता है, जैसा कि ऊपर बताया गया है। यह उस स्थिति पर भी लागू होता है जहां , जिसके लिए OLS एक (अद्वितीय) समाधान प्रदान नहीं कर सकता है।n<p
रिज रिग्रेशन भी एक परिणाम है जब एक सामान्य पूर्व वेक्टर पर डाल दिया जाता है।β
यहाँ बेइज़ियन को रिज रिग्रेशन पर लिया गया है: मान लीजिए कि हमारे लिए । तब क्योंकि [धारणा से] हमारे पास वह
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
चलिए पोस्टीरियर मोड को खोजें (हम पोस्टीरियस माध्य या अन्य चीजों को भी देख सकते हैं लेकिन इसके लिए आइए मोड को देखें, अर्थात सबसे संभावित मान)। इसका मतलब है कि हम चाहते हैं
जो के बराबर है
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
क्योंकि कड़ाई से एकरस है और यह बदले में बराबर है।
logminβ∈Rp||y−Xβ||2+λβTβ
जो बहुत परिचित दिखना चाहिए।
इस प्रकार हम देखते हैं कि अगर हम मतलब 0 और विचरण के साथ एक सामान्य से पहले डाल हमारे पर वेक्टर, का मान जो पीछे अधिकतम रिज आकलनकर्ता है। ध्यान दें कि यह एक प्रायोजक पैरामीटर के रूप में अधिक व्यवहार करता है क्योंकि इस पर कोई पूर्व नहीं है लेकिन यह ज्ञात नहीं है, इसलिए यह पूरी तरह से बायेसियन नहीं है।σ2λββσ2
संपादित करें: आपने उस मामले के बारे में पूछा जहां । हम जानते हैं कि एक हाइपरप्लेन in को बिल्कुल पॉइंट्स द्वारा परिभाषित किया गया है । हम एक रेखीय प्रतिगमन चल रहे हैं और अगर तो हम वास्तव में हमारे डेटा को जोड़ और मिल । यह एक समाधान है, लेकिन यह एक भयानक है: भविष्य के आंकड़ों पर हमारा प्रदर्शन सबसे अधिक संभावना है। अब मान लीजिए : अब इन बिंदुओं द्वारा परिभाषित एक अद्वितीय हाइपरप्लेन नहीं है। हम हाइपरप्लेन की एक भीड़ को फिट कर सकते हैं, प्रत्येक में 0 अवशिष्ट राशि के वर्ग हैं।n<pRppn=p||y−Xβ^||2=0n<p
एक बहुत ही सरल उदाहरण: मान लीजिए । फिर हम इन दो बिंदुओं के बीच में एक रेखा प्राप्त करेंगे। अब मान लीजिए लेकिन । इसमें इन दो बिंदुओं के साथ एक विमान का चित्र। हम इस विमान को इस तथ्य को बदलने के बिना घुमा सकते हैं कि ये दो बिंदु इसमें हैं, इसलिए हमारे उद्देश्य फ़ंक्शन के सही मूल्य के साथ सभी मॉडल बेशुमार हैं, इसलिए ओवरफ़िटिंग के मुद्दे से परे यह स्पष्ट नहीं है कि किसे चुनना है।n=p=2n=2p=3
अंतिम टिप्पणी (प्रति @ गंग के सुझाव) के रूप में, LASSO (एक दंड का उपयोग ) आमतौर पर उच्च आयामी समस्याओं के लिए उपयोग किया जाता है क्योंकि यह स्वचालित रूप से चर चयन (कुछ सेट करता है ) करता है। डिलाइट रूप से, यह पता चलता है कि LASSO पिछले मोड का उपयोग करने के बराबर है, जब डबल घातीय (उर्फ लाप्लास) से पहले वेक्टर का उपयोग किया जाता है। LASSO की भी कुछ सीमाएँ हैं, जैसे भविष्यवाणियों पर संतृप्ति करना और जरूरी नहीं कि एक आदर्श फैशन में सहसंबद्ध भविष्यवक्ताओं के समूह को संभालना, इसलिए लोचदार नेट ( और दंड का उत्तल संयोजन ) को लाया जा सकता है।L1βj=0βnL1L2