लेज़ो की तरह जीरो रिग्रेसेशन कुछ गुणांक को शून्य में क्यों नहीं सिकोड़ता?


16

LASSO प्रतिगमन की व्याख्या करते समय, एक हीरे और वृत्त का आरेख अक्सर उपयोग किया जाता है। ऐसा कहा जाता है कि क्योंकि LASSO में कसना का आकार एक हीरा है, इसलिए प्राप्त न्यूनतम वर्ग समाधान हीरे के कोने को छू सकता है जैसे कि यह कुछ चर के संकोचन की ओर जाता है। हालांकि, रिज प्रतिगमन में, क्योंकि यह एक चक्र है, यह अक्सर अक्ष को नहीं छूएगा। मैं समझ नहीं पाया कि यह अक्ष को क्यों नहीं छू सकता है या शायद कुछ मापदंडों को सिकोड़ने के लिए LASSO की तुलना में कम संभावना है। उसके शीर्ष पर, LASSO और रिज में सामान्य से कम वर्गों की तुलना में कम विचरण क्यों होता है? ऊपर रिज और LASSO के बारे में मेरी समझ है और मैं गलत हो सकता है। क्या कोई मुझे यह समझने में मदद कर सकता है कि इन दो प्रतिगमन विधियों में कम विचलन क्यों है?



1
ठीक है, बोल्ड में विचरण हिस्सा नकल नहीं है, कम से कम इस सवाल का; तो शायद इस सवाल को उस पर ध्यान केंद्रित करने के लिए संपादित किया जा सकता है।
जुहो कोक्कला


@fcop मैंने किताब पढ़ी लेकिन मुझे गणित समझ में नहीं आया
user10024395

लेकिन तस्वीर को समझने के लिए आपको गणित की आवश्यकता नहीं है?

जवाबों:


26

यह विचरण के बारे में है

OLS प्रदान करता है जिसे सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक (BLUE) कहा जाता है । इसका मतलब है कि यदि आप किसी अन्य निष्पक्ष अनुमानक को लेते हैं, तो इसके पास उच्चतर संस्करण है तो OLS समाधान है। तो क्यों पृथ्वी पर हमें इसके अलावा कुछ और विचार करना चाहिए?

अब नियमितीकरण के साथ चाल, जैसे कि लासो या रिज, को विचरण को कम करने की कोशिश में कुछ पूर्वाग्रह जोड़ना है। क्योंकि जब आप अपने भविष्यवाणी त्रुटि का अनुमान है, यह एक है तीन बातों का संयोजन :

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
अंतिम भाग इरेड्यूबल त्रुटि है, इसलिए हमारा उस पर कोई नियंत्रण नहीं है। ओएलएस समाधान का उपयोग करते हुए पूर्वाग्रह शब्द शून्य है। लेकिन यह हो सकता है कि दूसरा शब्द बड़ा हो। यह एक अच्छा विचार हो सकता है, ( यदि हम अच्छी भविष्यवाणी चाहते हैं ), कुछ पूर्वाग्रह में जोड़ने के लिए और उम्मीद है कि विचरण को कम करें।

तो क्या यह है ? यह आपके मॉडल में मापदंडों के अनुमानों में पेश किया गया विचरण है। रेखीय मॉडल रूप है y = एक्स β + ε ,Var[f^(x))] OLS समाधान हम न्यूनतम समस्या का समाधान प्राप्त करने के लिए आर्ग मिनट बीटा | | y - एक्स β | | 2 यह समाधान प्रदान करता है बीटा OLS = ( एक्स टी एक्स ) - 1 एक्स टी y रिज प्रतिगमन के लिए न्यूनतम समस्या समान है: आर्ग मिनट बीटा | | y - एक्स β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
अब समाधान हो जाता है β रिज = ( एक्स टी एक्स + λ मैं ) - 1 एक्स टी y तो हम इस जोड़ रहे हैं λ मैं (रिज कहा जाता है) मैट्रिक्स है कि हम invert के विकर्ण पर। मैट्रिक्स एक्स टी एक्स पर इसका प्रभाव यहहै कि यहमैट्रिक्स के निर्धारक को शून्य से"खींच" देता है। इस प्रकार जब आप इसे उल्टा करते हैं, तो आपको विशाल प्रतिध्वनि नहीं मिलती है। लेकिन यह एक और दिलचस्प तथ्य की ओर जाता है, अर्थात् पैरामीटर अनुमानों का विचरण कम हो जाता है।
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
λIXTX

मुझे यकीन नहीं है कि अगर मैं अधिक स्पष्ट उत्तर प्रदान कर सकता हूं तो यह। यह सब उबलता है कि मॉडल में मापदंडों के लिए सहसंयोजक मैट्रिक्स है और उस सहसंयोजक मैट्रिक्स में मूल्यों का परिमाण है।

मैंने उदाहरण के तौर पर रिज रिग्रेशन लिया, क्योंकि इसका इलाज करना बहुत आसान है। लैस्सो बहुत कठिन है और उस विषय पर अभी भी सक्रिय अनुसंधान चल रहा है

ये स्लाइड कुछ और जानकारी प्रदान करती हैं और इस ब्लॉग में कुछ प्रासंगिक जानकारी भी हैं।

संपादित करें: मेरा क्या मतलब है कि रिज को जोड़ने से निर्धारक शून्य से " खींच " जाता है?

XTX

det(XTXtI)=0
t
det(XTX+λItI)=0
det(XTX(tλ)I)=0
(tλ)tiटीमैं+λλ

इसका वर्णन करने के लिए यहाँ कुछ आर कोड है:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

जो परिणाम देता है:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

तो सभी eigenvalues ​​ठीक 3 से स्थानांतरित हो जाते हैं।

आप इसे सामान्य रूप से गेर्शगोरिन सर्कल प्रमेय का उपयोग करके भी साबित कर सकते हैं । वहाँ हलकों के केंद्रों में आइजनवेल्स होते हैं जो विकर्ण तत्व हैं। सकारात्मक वास्तविक अर्ध-समतल में सभी मंडलियों को बनाने के लिए आप हमेशा "पर्याप्त" विकर्ण तत्व को जोड़ सकते हैं। यह परिणाम अधिक सामान्य है और इसके लिए आवश्यक नहीं है।


क्या आप समझा सकते हैं कि यह निर्धारक को शून्य (गणितीय) से "कैसे" खींचता है? धन्यवाद
user10024395

@ user2675516 मैंने अपना उत्तर संपादित किया है।
ग्यूमो

"इसका मतलब है कि यदि आप किसी अन्य निष्पक्ष अनुमानक को लेते हैं, तो इसके पास उच्चतर संस्करण है तो OLS समाधान है।" आप OLS की तुलना में उच्च पूर्वाग्रह का मतलब है? मुझे लगा कि ओएलएस में कम से कम पूर्वाग्रह है, इसलिए कुछ और अधिक पूर्वाग्रह होगा। Pls स्पष्ट करें
जॉर्जऑफTheRF

@ML_Pro OLS में शून्य पूर्वाग्रह है, और सभी निष्पक्ष अनुमानकों में, इसका सबसे छोटा संस्करण है। यह एक प्रमेय है । इसलिए यदि आप किसी अन्य को चुनते हैं, तो विचरण बढ़ जाएगा। लेकिन अगर आप नियमित करते हैं, तो आप पूर्वाग्रह का परिचय देते हैं।
ग्यूमो जूल

धन्यवाद! आपकी प्रतिक्रिया ने मुझे उत्सुक बना दिया। क्या आप मेरे द्वारा बनाए गए इस नए प्रश्न का उत्तर दे सकते हैं? आंकड़े.stackexchange.com/questions/294926/…
जॉर्जऑफTheRF

2

रिज रिग्रेशन

L2 = (y-xβ) ^ 2 + λ ^i ^ 2

इस समीकरण को केवल एक β के लिए हल करेगा और बाद के लिए आप इसे सामान्यीकृत कर सकते हैं:

तो, (y-xβ) ^ 2 + λ 2 ^ 2 यह एक β के लिए हमारा समीकरण है।

हमारा लक्ष्य उपरोक्त समीकरण को कम से कम करना है, ऐसा करने में सक्षम होना है, इसे शून्य के बराबर करना होगा और डेरिवेटिव को लेना होगा

Y ^ 2- 2xy ^ + x ^ 2 2- ^ 2 + λ 2 ^ 2 = 0 ------- (ab) ^ 2 विस्तार

आंशिक डेरिवेटिव wrt

-2xy + 2x ^ 2β + 2βλ = 0

2 (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

आखिरकार

β = xy / (x ^ 2 + λ)

यदि आप हर का निरीक्षण करते हैं, तो यह कभी शून्य नहीं होगा, क्योंकि हम λ (यानी हाइपर पैरामीटर) के कुछ मूल्य जोड़ रहे हैं। और इसलिए β का मान यथासंभव कम होगा लेकिन शून्य नहीं होगा।

LASSO प्रतिगमन:

L1 = (y-xβ) ^ 2 + λβ |। |

इस समीकरण को केवल एक for के लिए हल करेगा और बाद के लिए आप इसे और अधिक सामान्य कर सकते हैं:

तो, (y-xβ) ^ 2 + λ is यह एक one के लिए हमारा समीकरण है, यहाँ मैंने β का ve मान माना है।

हमारा लक्ष्य उपरोक्त समीकरण को कम से कम करना है, ऐसा करने में सक्षम होना है, इसे शून्य के बराबर करना होगा और डेरिवेटिव को लेना होगा

Y ^ 2- 2xy ^ + x ^ 2 2- ^ 2 + λ 0 = 0 ------- (ab) ^ 2 विस्तार

आंशिक डेरिवेटिव wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2 + λ = 2xy

2x ^ 2β = 2xy-λ

आखिरकार

β = (2xy-λ) / (2X ^ 2)

यदि आप अंश का निरीक्षण करते हैं, तो यह शून्य हो जाएगा, क्योंकि हम λ (यानी हाइपर पैरामीटर) के कुछ मूल्य घटा रहे हैं। और इसलिए β का मान शून्य के रूप में सेट किया जाएगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.