यह विचरण के बारे में है
OLS प्रदान करता है जिसे सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक (BLUE) कहा जाता है । इसका मतलब है कि यदि आप किसी अन्य निष्पक्ष अनुमानक को लेते हैं, तो इसके पास उच्चतर संस्करण है तो OLS समाधान है। तो क्यों पृथ्वी पर हमें इसके अलावा कुछ और विचार करना चाहिए?
अब नियमितीकरण के साथ चाल, जैसे कि लासो या रिज, को विचरण को कम करने की कोशिश में कुछ पूर्वाग्रह जोड़ना है। क्योंकि जब आप अपने भविष्यवाणी त्रुटि का अनुमान है, यह एक है तीन बातों का संयोजन :
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
अंतिम भाग इरेड्यूबल त्रुटि है, इसलिए हमारा उस पर कोई नियंत्रण नहीं है। ओएलएस समाधान का उपयोग करते हुए पूर्वाग्रह शब्द शून्य है। लेकिन यह हो सकता है कि दूसरा शब्द बड़ा हो। यह एक अच्छा विचार हो सकता है, (
यदि हम अच्छी भविष्यवाणी चाहते हैं ), कुछ पूर्वाग्रह में जोड़ने के लिए और उम्मीद है कि विचरण को कम करें।
तो क्या यह है ? यह आपके मॉडल में मापदंडों के अनुमानों में पेश किया गया विचरण है। रेखीय मॉडल रूप है
y = एक्स β + ε ,Var[f^(x))]
OLS समाधान हम न्यूनतम समस्या का समाधान प्राप्त करने के लिए
आर्ग मिनट बीटा | | y - एक्स β | | 2
यह समाधान प्रदान करता है
बीटा OLS = ( एक्स टी एक्स ) - 1 एक्स टी y
रिज प्रतिगमन के लिए न्यूनतम समस्या समान है:
आर्ग मिनट बीटा | | y - एक्स β | |
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
अब समाधान हो जाता है
β रिज = ( एक्स टी एक्स + λ मैं ) - 1 एक्स टी y
तो हम इस जोड़ रहे हैं
λ मैं (रिज कहा जाता है) मैट्रिक्स है कि हम invert के विकर्ण पर। मैट्रिक्स
एक्स टी एक्स पर इसका प्रभाव यहहै कि यहमैट्रिक्स के निर्धारक को शून्य से"
खींच" देता है। इस प्रकार जब आप इसे उल्टा करते हैं, तो आपको विशाल प्रतिध्वनि नहीं मिलती है। लेकिन यह एक और दिलचस्प तथ्य की ओर जाता है, अर्थात् पैरामीटर अनुमानों का विचरण कम हो जाता है।
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
λIXTX
मुझे यकीन नहीं है कि अगर मैं अधिक स्पष्ट उत्तर प्रदान कर सकता हूं तो यह। यह सब उबलता है कि मॉडल में मापदंडों के लिए सहसंयोजक मैट्रिक्स है और उस सहसंयोजक मैट्रिक्स में मूल्यों का परिमाण है।
मैंने उदाहरण के तौर पर रिज रिग्रेशन लिया, क्योंकि इसका इलाज करना बहुत आसान है। लैस्सो बहुत कठिन है और उस विषय पर अभी भी सक्रिय अनुसंधान चल रहा है ।
ये स्लाइड कुछ और जानकारी प्रदान करती हैं और इस ब्लॉग में कुछ प्रासंगिक जानकारी भी हैं।
संपादित करें: मेरा क्या मतलब है कि रिज को जोड़ने से निर्धारक शून्य से " खींच " जाता है?
XTX
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX−(t−λ)I)=0
(t−λ)tiटीमैं+ λλ
इसका वर्णन करने के लिए यहाँ कुछ आर कोड है:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
जो परिणाम देता है:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
तो सभी eigenvalues ठीक 3 से स्थानांतरित हो जाते हैं।
आप इसे सामान्य रूप से गेर्शगोरिन सर्कल प्रमेय का उपयोग करके भी साबित कर सकते हैं । वहाँ हलकों के केंद्रों में आइजनवेल्स होते हैं जो विकर्ण तत्व हैं। सकारात्मक वास्तविक अर्ध-समतल में सभी मंडलियों को बनाने के लिए आप हमेशा "पर्याप्त" विकर्ण तत्व को जोड़ सकते हैं। यह परिणाम अधिक सामान्य है और इसके लिए आवश्यक नहीं है।