नियमित रूप से रैखिक बनाम आरकेएचएस-प्रतिगमन


9

मैं आरकेएचएस प्रतिगमन और रैखिक प्रतिगमन में नियमितीकरण के बीच अंतर का अध्ययन कर रहा हूं, लेकिन मेरे पास दोनों के बीच महत्वपूर्ण अंतर को समझने में कठिन समय है।

इनपुट-आउटपुट जोड़े दिए (xi,yi), मैं एक फ़ंक्शन का अनुमान लगाना चाहता हूं f() निम्नलिखित नुसार

f(x)u(x)=i=1mαiK(x,xi),
कहाँ पे K(,)एक कर्नेल फ़ंक्शन है। गुणांकαm या तो हल करके पाया जा सकता है
minαRn1nYKαRn2+λαTKα,
जहाँ, संकेतन के कुछ दुरुपयोग के साथ, i,j'कर्नेल मैट्रिक्स का प्रवेश K है K(xi,xj)। यह देता है
α=(K+λnI)1Y.
वैकल्पिक रूप से, हम समस्या को एक सामान्य रिज प्रतिगमन / रैखिक प्रतिगमन समस्या के रूप में मान सकते हैं:
minαRn1nYKαRn2+λαTα,
समाधान के साथ
α=(KTK+λnI)1KTY.

इन दो दृष्टिकोणों और उनके समाधानों के बीच महत्वपूर्ण अंतर क्या होगा?



@MThQ - क्या अभी भी दोहरे में काम कर रहे 'सामान्य' रिज प्रतिगमन का आपका वर्णन नहीं है? बस यह स्पष्ट करने के लिए कि मुझे लगता है कि सामान्य रिज प्रतिगमन को प्राइमल में काम करने के लिए माना जाता है (जहां स्पष्ट विशेषता प्रतिनिधित्व किया जाता है)।
rnoodle

जवाबों:


5

जैसा कि आपने शायद ऑप्टिमाइज़ेशन समस्याओं को लिखते समय ध्यान दिया है, न्यूनतमकरण में एकमात्र अंतर है जो पेनल्टीकरण के लिए उपयोग करने के लिए हिल्बर्ट मानदंड है। यह है कि, 'बड़े' मूल्यों को निर्धारित करने के लिएαदंड उद्देश्यों के लिए हैं। आरकेएचएस सेटिंग में, हम आरकेएचएस आंतरिक उत्पाद का उपयोग करते हैं,αtKα, जबकि रिज प्रतिगमन यूक्लिडियन मानदंड के संबंध में दंडित करता है।

एक दिलचस्प सैद्धांतिक परिणाम यह है कि प्रत्येक विधि प्रजनन कर्नेल के स्पेक्ट्रम को कैसे प्रभावित करती है K। आरकेएचएस सिद्धांत द्वारा, हमारे पास वह हैKसममित सकारात्मक निश्चित है। स्पेक्ट्रल प्रमेय द्वारा, हम लिख सकते हैंK=UtDU कहाँ पे D eigenvalues ​​का विकर्ण मैट्रिक्स है और Ueigenvectors का ऑर्थोनॉमिक मैट्रिक्स है। नतीजतन, आरकेएचएस सेटिंग में,

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
इस बीच, रिज प्रतिगमन सेटिंग में, ध्यान दें KtK=K2 समरूपता द्वारा,
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Let the spectrum of K be ν1,,νn. In RKHS regression, the eigenvalues are stabilized by νiνi+λn. In Ridge regression, we have νiνi+λn/νi. As a result, RKHS uniformly modifies the eigenvalues while Ridge adds a larger value if the corresponding νi is smaller.

Depending on the choice of kernel, the two estimates for α may be close or far from each other. The distance in the operator norm sense will be

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
However, this is still bounded for a given Y, so your two estimators cannot be arbitrarily far apart. Hence, if your kernel is close to the identity, then there will mostly likely be little difference in the approaches. If your kernels are vastly different, the two approaches can still lead to similar results.

व्यवहार में, निश्चित रूप से यह कहना मुश्किल है कि किसी दिए गए स्थिति के लिए एक दूसरे से बेहतर है या नहीं। जैसा कि हम कर्नेल फ़ंक्शन के संदर्भ में डेटा का प्रतिनिधित्व करते समय चुकता त्रुटि के संबंध में कम कर रहे हैं, हम प्रभावी रूप से फ़ंक्शन के संबंधित हिल्बर्ट स्थान से एक सर्वश्रेष्ठ प्रतिगमन वक्र चुन रहे हैं। इसलिए, आरकेएचएस आंतरिक उत्पाद के संबंध में दंड देना आगे बढ़ने का स्वाभाविक तरीका प्रतीत होता है।


1
क्या आपके पास इसके लिए कोई संदर्भ है?
rnoodle
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.