अब जब यह प्रश्न ब्याज की समस्या के अधिक सटीक सूत्रीकरण में परिवर्तित हो गया है, तो मुझे केस 1 (ज्ञात राउटर पैरामीटर) के लिए एक समाधान मिल गया है। यह केस 2 के लिए भी मदद करना चाहिए (बिल्कुल एक विश्लेषणात्मक समाधान नहीं है, लेकिन एक सरल सूत्र और कुछ बाधाएं)।
सारांश: दो व्युत्क्रम समस्या योगों में से किसी का भी अनूठा उत्तर नहीं है। में मामला 2 , जहां रिज पैरामीटर अज्ञात है, असीम कई समाधान देखते हैं , के लिए । 1 के मामले में, जहां दिया जाता है, एकवचन-मूल्य स्पेक्ट्रम में अस्पष्टता के कारण लिए कई समाधान हैं ।μ≡ω2Xωω∈[0,ωmax]ωXω
(व्युत्पत्ति थोड़ी लंबी है, इसलिए TL, DR: अंत में एक कार्यशील माटलब कोड है।)
अंडर-निर्धारित मामला ("ओएलएस")
आगे की समस्या
जहां , , और
minB∥XB−Y∥2
X∈Rn×pB∈Rp×qY∈Rn×q ।
अद्यतन किए गए प्रश्न के आधार पर, हम मान लेंगे , इसलिए निर्धारित और तहत है । सवाल में रूप में, हम "डिफ़ॉल्ट" समझेंगे (न्यूनतम -norm) समाधान
जहां है Pseudoinverse की ।B X Y L 2 B = X + Y X + Xn<p<qBXYL2
B=X+Y
X+X
के एकवचन मान अपघटन ( SVD ) से , * द्वारा दिए गए
को pududoinverse की तुलना **
(* पहला भाव पूर्ण SVD का उपयोग करता है, जबकि दूसरा भाव कम SVD का उपयोग करता है। ** सादगी के लिए मुझे लगता है कि में पूर्ण रैंक है, अर्थात मौजूद है।)X = U S V T = U S 0 V T 0 X + = V S + U T = V 0 S - 1 0 U T X S - 1 0X
X=USVT=US0VT0
X+=VS+UT=V0S−10UT
XS−10
तो आगे की समस्या का समाधान है
भविष्य के संदर्भ के लिए, मैं ध्यान देता कि , जहां एकवचन मानों का वेक्टर है।एस 0 = d मैं एक जी ( σ 0 ) σ 0 > 0
B≡X+Y=(V0S−10UT)Y
S0=diag(σ0)σ0>0
उलटे समस्या में, हमें और दिया जाता है । हम जानते हैं कि उपरोक्त प्रक्रिया से आया था, लेकिन हम नहीं जानते हैं । कार्य तब उचित निर्धारित करने के लिए है ।B B X XYBBXX
जैसा कि अद्यतन प्रश्न में उल्लेख किया गया है, इस मामले में हम को अनिवार्य रूप से उसी दृष्टिकोण का उपयोग करके पुनर्प्राप्त कर सकते हैं , अर्थात
अब के छद्म बिंदु का उपयोग कर ।एक्स 0 = वाई बी + बीX
X0=YB+
B
ओवर-निर्धारित केस (रिज आकलनकर्ता)
"ओएलएस" मामले में, न्यूनतम-मानक समाधान का चयन करके अंडर-निर्धारित समस्या को हल किया गया था , अर्थात हमारे "अद्वितीय" समाधान को नियमित रूप से नियमित किया गया था ।
न्यूनतम मानक समाधान चुनने के बजाय , यहां हम "कितना छोटा" मानदंड को नियंत्रित करने के लिए एक पैरामीटर का परिचय देते हैं, अर्थात हम रिज प्रतिगमन का उपयोग करते हैंω ।
इस स्थिति में, हमारे पास , लिए आगे की समस्याओं की एक श्रृंखला है , जो कि द्वारा दिए गए हैं
अलग-अलग बाएं और दाएं हाथ के वैक्टर को
एकत्रित कर रहा है समस्याओं को निम्न "OLS" समस्या में घटाया जा सकता है
जहाँ हमने संवर्धित matrices
कश्मीर = 1 , ... , क्ष मिनट β ‖ एक्स β - y कश्मीर ‖ 2 + ω 2 ‖ β ‖ 2 बी ω = [ β 1 , ... , β कश्मीर ]βkk=1,…,q
minβ∥Xβ−yk∥2+ω2∥β∥2
मिनट बी ‖ एक्स ω बी - वाई ‖ 2 एक्स ω = [ एक्स ω मैं ]Bω=[β1,…,βk],Y=[y1,…,yk]
minB∥XωB−Y∥2
Xω=[XωI],Y=[Y0]
इस ओवर-निर्धारित मामले में, समाधान अभी भी छद्म उलटा
दिया गया है, लेकिन छद्म व्युत्क्रम अब बदल गया है, जिसके परिणामस्वरूप *
जहां नया "विलक्षणता स्पेक्ट्रम" मैट्रिक्स है (व्युत्क्रम) विकर्ण **
(* इसे प्राप्त करने के लिए आवश्यक कुछ शामिल गणना संक्षिप्तता के लिए छोड़ दी गई है। यह यहाँ मामले के लिए प्रदर्शनी के समान है । यहाँ की प्रविष्टियाँ हैं। वेक्टर को वेक्टर के संदर्भ में व्यक्त किया जाता है, जहां सभी ऑपरेशन प्रवेश-वार होते हैं।)बी ω = ( वी 0 एस - 2 ω यू टी ) वाई σ 2 ω = σ 2 0 + ω 2
Bω=X+Y
Bω=(V0S−2ωUT)Y
पी≤nσωσ0σ2ω=σ20+ω2σ0
p≤nσωσ0
अब इस समस्या में हम अभी भी रूप में "आधार समाधान" को औपचारिक रूप से पुनर्प्राप्त कर सकते हैं,
लेकिन यह अब एक सही समाधान नहीं है।
Xω=YB+ω
हालांकि, सादृश्य अभी भी है कि इस "समाधान" में SVD
जो कि ऊपर दिए गए एकवचन मान है। σ 2 ω
Xω=US2ωVT0
σ2ω
इसलिए हम वांछित विलक्षण मूल्यों से संबंधित एक द्विघात समीकरण प्राप्त कर सकते हैं वसूली विलक्षण मूल्यों के लिए और नियमितीकरण पैरामीटर । इसका समाधान तब
σ0σ2ωω
σ0=σ¯±Δσ,σ¯=12σ2ω,Δσ=(σ¯+ω)(σ¯−ω)−−−−−−−−−−−−√
नीचे दिए गए मैटलैब डेमो ( ऑक्टेव के माध्यम से ऑनलाइन परीक्षण ) से पता चलता है कि यह समाधान पद्धति व्यवहार के साथ-साथ सिद्धांत में भी काम करती दिखाई देती है। अंतिम पंक्ति से पता चलता है कि सभी एकवचन मान पुनर्निर्माण , लेकिन मुझे पूरी तरह से पता नहीं चला है कि कौन सा रूट लेना है ( = बनाम )। के लिए यह हमेशा हो जाएगा जड़। यह आमतौर पर "छोटे" लिए पकड़ लगता है , जबकि "बड़े" लिए रूट को लगता है। (नीचे डेमो वर्तमान में "बड़े" मामले पर सेट है।)Xσ¯±Δσsgn
+−ω=0+ωω−
% Matlab demo of "Reverse Ridge Regression"
n = 3; p = 5; q = 8; w = 1*sqrt(1e+1); sgn = -1;
Y = rand(n,q); X = rand(n,p);
I = eye(p); Z = zeros(p,q);
err = @(a,b)norm(a(:)-b(:),Inf);
B = pinv([X;w*I])*[Y;Z];
Xhat0 = Y*pinv(B);
dBres0 = err( pinv([Xhat0;w*I])*[Y;Z] , B )
[Uw,Sw2,Vw0] = svd(Xhat0, 'econ');
sw2 = diag(Sw2); s0mid = sw2/2;
ds0 = sqrt(max( 0 , s0mid.^2 - w^2 ));
s0 = s0mid + sgn * ds0;
Xhat = Uw*diag(s0)*Vw0';
dBres = err( pinv([Xhat;w*I])*[Y;Z] , B )
dXerr = err( Xhat , X )
sigX = svd(X)', sigHat = [s0mid+ds0,s0mid-ds0]' % all there, but which sign?
मैं यह नहीं कह सकता कि यह समाधान कितना मजबूत है, क्योंकि उलटा समस्याएं आम तौर पर बीमार हैं, और विश्लेषणात्मक समाधान बहुत नाजुक हो सकते हैं। हालांकि, गौसियन शोर के साथ सरसरी प्रयोग को प्रदूषित करते हैं (इसलिए इसमें पूर्ण रैंक बनाम कम रैंक ) लगता है कि विधि उचित रूप से अच्छी तरह से व्यवहार किया गया है।Bpn
समस्या 2 (यानी अज्ञात) के लिए, उपरोक्त कम से कम एक ऊपरी पर बाध्य करता है । भेदभाव के लिए गैर-ऋणात्मक होने के लिए हमारे पास
ωω
ω≤ωmax=σ¯n=min[12σ2ω]
द्विघात-रूट साइन अस्पष्टता के लिए, निम्न कोड स्निपेट दर्शाता है कि साइन से स्वतंत्र, कोई भी एक ही फॉरवर्ड रिज-सॉल्यूशन देगा, यहां तक कि जब से भिन्न होगा ।X^Bσ0SVD[X]
Xrnd=Uw*diag(s0mid+sign(randn(n,1)).*ds0)*Vw0'; % random signs
dBrnd=err(pinv([Xrnd;w*I])*[Y;Z],B) % B is always consistent ...
dXrnd=err(Xrnd,X) % ... even when X is not