रैखिक प्रतिगमन जब आप केवल


13

मान लीजिए कि ।Xβ=Y

हम वास्तव में नहीं जानते हैं, प्रत्येक भविष्यवक्ता के साथ केवल इसका संबंध, ।YXtY

साधारण न्यूनतम-वर्ग (OLS) समाधान और इसमें कोई समस्या नहीं है।β=(XtX)1XtY

लेकिन मान लें कि एकवचन (बहुकोशिकीयता) के पास है, और आपको इष्टतम रिज पैरामीटर का अनुमान लगाने की आवश्यकता है। सभी तरीकों को के सटीक मूल्यों की आवश्यकता लगती है ।XtXY

क्या कोई वैकल्पिक विधि है जब केवल को जाना जाता है?XtY


दिलचस्प सवाल। शायद ईएम अल्गोरिदम के कुछ प्रकार काम करेंगे ...
संभावना 14

मुझे समझ में नहीं आता, क्या आप इष्टतम रिज पैरामीटर का आकलन करने के लिए क्रॉस-वैलिडेशन का उपयोग नहीं कर सकते हैं?
पारदीस

@ पेर्डिस: प्रश्न में कोई नुकसान समारोह नहीं दिया जाता है, इसलिए हमें पता नहीं है कि इष्टतम साधन क्या है। क्या आप देख सकते हैं कि अगर लॉस फंक्शन MSE है, तो हम किस मुसीबत में भागते हैं?
कार्डिनल

1
@ जॉनसन: आप उस बिंदु पर बात कर रहे हैं जिस पर मैं चला रहा था। "इष्टतमता" को मापने के तरीके का कोई संकेत नहीं है। आप जो प्रभावी ढंग से कर रहे हैं वह भविष्यवाणी या फिट की "गुणवत्ता" को मापने के लिए एक अलग मीट्रिक (दूरी समारोह) शुरू कर रहा है। हमें ओपी से और अधिक जानकारी चाहिए ताकि बहुत दूर निकल सकें, मुझे संदेह है।
कार्डिनल

1
@ कार्डिस: अनुमान लगाना समस्या नहीं है, जैसा कि आप ध्यान दें। :) हालांकि, यदि आप क्रॉसवेलाइडेशन करने का निर्णय लेते हैं, तो आप प्रत्येक पुनरावृत्ति के लिए बाएं-आउट फोल्ड पर एमएसई के आउट-ऑफ-सैंपल का अनुमान कैसे लगा सकते हैं? :)
कार्डिनल

जवाबों:


8

यह एक दिलचस्प सवाल है। आश्चर्यजनक रूप से, कुछ मान्यताओं के तहत कुछ करना संभव है, लेकिन अवशिष्ट विचरण के बारे में जानकारी का संभावित नुकसान है। यह पर निर्भर करता है कि कितना खो गया है।X

आइए निम्नलिखित विलक्षण मान को अपघटन के को साथ एक मैट्रिक्स के साथ orthonormal कॉलम, एक विकर्ण मैट्रिक्स के साथ सकारात्मक एकवचन मान विकर्ण में और a मैट्रिक्स। फिर के कॉलम और के कॉलम स्पेस के लिए एक अलौकिक आधार बनाते हैं। जब इस स्तंभ स्थान पर के प्रक्षेपण के लिए गुणांक के वेक्टर का विस्तार किया जाता हैX=UDVtयू एन × पी डी डी 1XUn×pDवी पी × पी यू एक्स जेड = यू टी वाई = डी - 1 वी टी वी डी यू टी वाई = डी - 1 वी टी एक्स टी वाई वाई यू जेड एक्सd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YU कालम आधार। सूत्र से हम देखते हैं कि केवल और ज्ञान से गणना योग्य है ।ZXXtY

चूँकि किसी दिए गए लिए रिज रिग्रेशन प्रेडिक्टर की गणना हम देखते हैं कि कॉलम के आधार में रिज रिग्रेशन प्रेडिक्टर के लिए गुणांक क्या है अब हम वितरणात्मक धारणा बनाते हैं कि का -dimensional mean और covariance मैट्रिक्स । तब का -dimensional मतलब और covariance मैट्रिक्स । यदि हम एक स्वतंत्र की कल्पना करते हैंY = 1 डी जेड वाई एन ξ σλ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
U
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew के समान वितरण के साथ (यहां से पर सब कुछ सशर्त रूप से) संगत समान है रूप में वितरण और स्वतंत्र है और यहां तीसरी समानता और orthogonality द्वारा अनुसरण की जाती है। और इस तथ्य से चौथा किYXZNew=UtYNewZ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U में अलंकारिक स्तंभ हैं। मात्रा एक त्रुटि है जिसके बारे में हमें कोई जानकारी नहीं मिल सकती है, लेकिन यह या तो पर निर्भर नहीं करता है । बाएं हाथ की तरफ की भविष्यवाणी की त्रुटि को कम करने के लिए हमें दाहिने हाथ की तरफ के दूसरे कार्यकाल को कम करना होगा।Err0λ

एक मानक संगणना द्वारा यहाँ को पैरामीटर साथ रिज प्रतिगमन के लिए स्वतंत्रता की प्रभावी डिग्री के रूप में जाना जाता है । का एक निष्पक्ष अनुमानक is df(λ)λ

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

हम इसे (निष्पक्ष) अनुमानक के साथ जोड़ते हैं का दिया गया जिसे हम जानते हैं , जिसे हमें फिर से छोटा करना होगा। जाहिर है, यह केवल किया जा सकता है, तो हम जानते हैं कि या के कम से एक उचित अनुमान या आकलनकर्ता है ।

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

अनुमान लगाना अधिक समस्याग्रस्त हो सकता है। यह दिखाना संभव है कि इस प्रकार अगर यह संभव है चुनने के लिए इतना छोटा वर्ग पूर्वाग्रह अनदेखा किया जा सकता है कि हम अनुमान लगाने के लिए कोशिश कर सकते हैं के रूप में अगर यह काम करेगा तो पर बहुत कुछ निर्भर करेगा ।σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2एक्स
σ^2=1pd(λ)||ZZ^||2.
X

कुछ विवरणों के लिए ESL में धारा 3.4.1 और अध्याय 7 या शायद GAM में अध्याय 2 को बेहतर देखें ।


0

परिभाषित करें सवाल और के रूप में विभिन्न मापदंडों के लिए और सेट नमूना लेबल की। तब अज्ञात के बाद से कम्प्यूटेबल है दोनों का विस्तार करते समय बूँदें निकलती हैं मानदंडों।ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

यह निम्नलिखित एल्गोरिथ्म की ओर जाता है:

  • प्रशिक्षण सेट कुछ विकल्पों के लिए गणना करें ।e(λ,K)K
  • परिणाम को फ़ंक्शन के रूप में प्लॉट करें ।λ
  • के एक मूल्य स्वीकार जहां भूखंड सपाट है।λ
  • उपयोग अंतिम अनुमान के रूप में।β=[XTX+λI]1XTY

1
मैं अनुमान लगा रहा हूँ "जहां भूखंड समतल है" बहुत छोटे जैसेλ
_

@ जंबोमैन: यह तभी होगा जब समस्या अच्छी तरह से हो और कोई नियमितीकरण की आवश्यकता हो, तो वास्तव में पर्याप्त है। बीमार स्थिति में, ओवरफिटिंग के कारण बाहर की वस्तुओं की भविष्यवाणी खराब होगी, और इसलिए इसलिए बड़ी होगी। λ=0Ke(λ,K)
अर्नोल्ड न्यूमैयर

3
@AnnoldNeumaier: गणना योग्य नहीं है। हम केवल प्रत्येक भविष्यवक्ता के साथ संबंध को जानते हैं। "भविष्यवक्ता डोमेन" में है, "Y डोमेन" में नहीं (यदि N नमूना आकार है और भविष्यवक्ताओं की संख्या p है, तो हमारे पास केवल p मान हैं, प्रत्येक भविष्यवक्ता के लिए एक)। (XTY)K(XTY)
जग

@ जग: तब \ lambda के चयन के लिए पर्याप्त जानकारी नहीं है λ। लेकिन XTY को किसी तरह एकत्र किया गया होगा। यदि इसके संग्रह के दौरान आप नमूना को बैचों में विभाजित करते हैं और प्रत्येक बैच के लिए अलग से इकट्ठा करते हैं तो एक क्रॉस सत्यापन के लिए प्रत्येक बैच को आरक्षित कर सकते हैं। kXTY
अर्नोल्ड न्यूमैयर

@AnnoldNeumaier: बाहरी रूप से दिए गए हैं, एकत्र नहीं किए गए हैं। XTY
जग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.