पक्षपात-विचरण व्यापार की व्युत्पत्ति को समझना


20

मैं सांख्यिकीय सीखने के तत्वों के पूर्वाग्रह-विचरण व्यापार के अध्याय को पढ़ रहा हूं और मुझे पृष्ठ 29 पर सूत्र में संदेह है। डेटा एक मॉडल से उत्पन्न होने दें, जैसे कि जहाँ यादृच्छिक है अपेक्षित मान के साथ संख्या और वेरिएंट । बता दें कि मॉडल की त्रुटि का अपेक्षित मूल्य जहां हमारे शिक्षार्थी के की भविष्यवाणी है । पुस्तक के अनुसार, त्रुटि

Y=f(x)+ϵ
ε = [ ε ] = 0 [ ( ε - ε ) 2 ] = [ ε 2 ] = σ 2[ ( वाई - कश्मीर ( एक्स ) ) 2 ] कश्मीर ( एक्स ) एक्स [ ( Y - f k ( x ) ) 2 ]ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

मेरा सवाल यह है कि पूर्वाग्रह शब्द 0 क्यों नहीं है? त्रुटि का सूत्र विकसित करते हुए मुझे

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

as एक स्वतंत्र यादृच्छिक संख्या2 [ ( ( एक्स ) - कश्मीर ( एक्स ) ) ε ] = 2 [ ( ( एक्स ) - कश्मीर ( एक्स ) ) ] [ ε ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

मैं कहां गलत हूं?

जवाबों:


20

आप गलत नहीं हैं, लेकिन आपने बाद से एक चरण में एक त्रुटि की । is ।[ ( ( एक्स ) - कश्मीर ( एक्स ) ) 2 ] एमएसई ( कश्मीर ( एक्स ) ) = वी एक आर ( कश्मीर ( एक्स )E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

नोट:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


द्विआधारी परिणामों के मामले में, क्या त्रुटि को मापने के रूप में क्रॉस एन्ट्रॉपी के साथ एक समान प्रमाण है?
Emanuele

1
यह द्विआधारी प्रतिक्रिया के साथ बहुत अच्छी तरह से काम नहीं करता है। "द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग" के दूसरे संस्करण में Ex 7.2 देखें।
मैथ्यू डॉरी

3
क्या आप बता सकते हैं कि आप से ? वी एक आर ( कश्मीरE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
एंटोनी

16

पूर्वाग्रह के कुछ और चरण - विघटन अपघटन

वास्तव में, पाठ्यपुस्तकों में पूर्ण व्युत्पत्ति शायद ही कभी दी जाती है क्योंकि इसमें बहुत से बिना बीजगणित के बीजगणित शामिल होते हैं। पृष्ठ 223 पर "एलिमेंट ऑफ़ स्टैटिस्टिकल लर्निंग" पुस्तक से अंकन का उपयोग करके यहां एक और अधिक पूर्ण व्युत्पत्ति है


यदि हम मान लेते हैं कि और और तो हम एक प्रतिगमन फिट की अपेक्षित भविष्यवाणी त्रुटि के लिए अभिव्यक्ति प्राप्त कर सकते हैं। चुकता त्रुटि हानि का उपयोग करके इनपुट परY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2 ( एक्स ) एक्स = एक्स 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

सादगी के लिए let , और याद रखें कि औरf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

शब्द के लिए हम उपरोक्त समान ट्रिक का उपयोग कर सकते हैं, पाने के लिए को जोड़ और घटा सकते हैं।E[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

इसे एक साथ रखना

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


पर कुछ टिप्पणियांE[f^Y]=fE[f^]

यहां एलेकोस पापाडोपोलस से लिया गया

याद रखें कि वह भविष्यवाणिका है जिसका निर्माण हमने डेटा पॉइंट्स इसलिए हम याद रखने के लिए लिख सकते हैं ।f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

दूसरी ओर भविष्यवाणी हम एक नए डेटा बिंदु पर कर रहे हैं है मॉडल पर निर्माण का उपयोग करके ऊपर डेटा बिंदुओं। तो मीन चुकता त्रुटि के रूप में लिखा जा सकता हैY(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

पिछले अनुभाग से समीकरण का विस्तार करना

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

समीकरण के अंतिम भाग को इस रूप में देखा जा सकता है

E[f^m(x(m+1))ϵ(m+1)]=0

चूँकि हम बिंदु बारे में निम्नलिखित धारणाएँ बनाते हैं :x(m+1)

  • इसका उपयोग उस समय नहीं किया गया था जब निर्माण किया गया थाf^m
  • यह अन्य सभी अवलोकनों से स्वतंत्र है{(x(1),y(1)),...,(x(m),y(m))}
  • यह से स्वतंत्र हैϵ(m+1)

पूर्ण व्युत्पत्तियों के साथ अन्य स्रोत


1
क्यों ? मुझे नहीं लगता कि और स्वतंत्र हैं, क्योंकि अनिवार्य रूप से का उपयोग करके बनाया गया है । Y YE[f^Y]=fE[f^]Yf^f^Y
फेलिप पेरेज़

5
लेकिन प्रश्न अनिवार्य रूप से एक ही है, क्यों ? की यादृच्छिकता त्रुटि से आती है, इसलिए मैं यह नहीं देखता कि क्यों और स्वतंत्र होंगे, और इसलिए, । ε ε ( ε ) = 0E[f^ϵ]=0f^ϵf^ϵE(f^ϵ)=0
फेलिप पेरेज़

आपके पूर्वाग्रह से ऐसा लगता है कि नमूना बनाम आउट ऑफ़ सैंपल परिप्रेक्ष्य महत्वपूर्ण है। यह ऐसा है? यदि हम केवल नमूने में काम करते हैं और फिर, को अवशिष्ट के रूप में देखते हैं कि पूर्वाग्रह विचलन ट्रेडऑफ गायब हो जाता है? ϵ
markowitz

1
@ FelipePérez जहाँ तक मैं समझता हूँ, ट्रेन-टेस्ट स्प्लिट (जो कि प्रशिक्षण सेट में समाप्त हो गया और प्रशिक्षित भविष्यवक्ता के रूप में दिया गया) से यादृच्छिकता _ की यादृच्छिकता आती है । दूसरे शब्दों में, का विचरण किसी दिए गए निश्चित डेटा-सेट के सभी संभावित सबसेट से आता है जिसे हम प्रशिक्षण सेट के रूप में ले सकते हैं। क्योंकि डेटा-सेट निश्चित है, इसलिए से कोई यादृच्छिकता नहीं आ रही है और इसलिए और स्वतंत्र हैं। ε εf^f^f^ϵf^ϵ
अल्बर्टो सेंटिनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.