सर्वश्रेष्ठ भविष्यवक्ता के रूप में सशर्त अपेक्षा के प्रमाण के साथ समस्या


19

के प्रमाण के साथ मेरे पास एक मुद्दा है

E(Y|X)argming(X)E[(Yg(X))2]

जो बहुत संभावना और सशर्त अपेक्षाओं की गहरी गलतफहमी को प्रकट करता है।

जो प्रमाण मुझे पता है वह इस प्रकार है (इस प्रमाण का दूसरा संस्करण यहां पाया जा सकता है )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

फिर प्रमाण आमतौर पर एक तर्क के साथ जारी रहता है जो यह दर्शाता है कि 2E[(YE(Y|X))(E(Y|X)g(X))]=0 , और इसलिए

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

जब को कम से कम देखा जा सकता है ।g(X)=E(Y|X)

सबूत के बारे में मेरी पहेली निम्नलिखित हैं:

  1. विचार करें

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

यह मुझे लगता है कि, स्वतंत्र रूप से किसी भी तर्क को दर्शाता है कि पहला शब्द हमेशा शून्य के बराबर होता है, कोई यह देख सकता है कि सेटिंग g(X)=E(Y|X) अभिव्यक्ति को कम करता है क्योंकि इसका मतलब है कि (E(Y|X)g(X))=0 और इसलिए

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0।

लेकिन अगर यह सच है, तो एक सबूत की जगह दोहराने सकता है के किसी भी अन्य समारोह से , का कहना है कि , और इस निष्कर्ष पर मिलता है कि यह है कि कम करता है अभिव्यक्ति। तो वहाँ कुछ मुझे गलत (सही?) होना चाहिए।E(Y|X)Xh(X)h(X)

  1. समस्या के कथन में के अर्थ के बारे में मुझे कुछ संदेह है। संकेतन की व्याख्या कैसे की जानी चाहिए? क्या इसका मतलब यह किE[(Yg(X))2]

EX[(Yg(X))2] , या ?EY[(Yg(X))2]EXY[(Yg(X))2]

जवाबों:


11

(यह ग्रेंजर एंड न्यूबोल्ड (1986) "फोरकास्टिंग इकोनॉमिक टाइम सीरीज़" से एक अनुकूलन है)।

निर्माण करके, अपने त्रुटि लागत समारोह है । यह एक महत्वपूर्ण धारणा को शामिल करता है (कि त्रुटि लागत फ़ंक्शन शून्य के आसपास सममित है) -एक अलग त्रुटि लागत फ़ंक्शन आवश्यक रूप से सशर्त अपेक्षित मूल्य नहीं होगा जैसा कि इसके अपेक्षित मूल्य के है। आप अपनी त्रुटि लागत फ़ंक्शन को कम नहीं कर सकते क्योंकि इसमें अज्ञात मात्राएँ हैं। तो आप इसके बजाय इसके अपेक्षित मूल्य को कम करने का निर्णय लेते हैं। तब आपका उद्देश्य कार्य बन जाता है[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

जो मैं मानता हूं कि उत्तर आपके दूसरे प्रश्न भी हैं। यह सहज है कि पर मूल्य सशर्त होगा , क्योंकि हम आधार पर का अनुमान लगाने / पूर्वानुमान करने की कोशिश कर रहे हैं । प्राप्त करने के लिए वर्ग का विरोध करेंYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

पहले शब्द में नहीं है, इसलिए यह न्यूनता को प्रभावित नहीं करता है, और इसे अनदेखा किया जा सकता है। दूसरे कार्यकाल में अभिन्न की सशर्त उम्मीद मूल्य के बराबर होती है दिया , और अंतिम पद में अभिन्न एकता के बराबर होती है। इसलिएg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

पहले व्युत्पन्न wrt है न्यूनीकरण के लिए पहले के आदेश हालत के लिए अग्रणी , जबकि दूसरा व्युत्पन्न के बराबर है जो न्यूनतम के लिए पर्याप्त है।g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ADDENDUM: प्रमाण दृष्टिकोण को "जोड़ें और घटाएं" का तर्क।

ओपी प्रश्न में बताए गए दृष्टिकोण से हैरान है, क्योंकि यह तांत्रिक लगता है। यह नहीं है, क्योंकि जोड़ने और घटाने की रणनीति का उपयोग करते हुए जोड़े और घटाए गए शब्द की मनमानी पसंद के लिए उद्देश्य फ़ंक्शन का एक विशिष्ट हिस्सा शून्य हो जाता है, यह मूल्य फ़ंक्शन , अर्थात् उद्देश्य के मूल्य की बराबरी नहीं करता है उम्मीदवार न्यूनतम पर मूल्यांकन कार्य।

पसंद हमारे पास मान फ़ंक्शन मनमानी पसंद हमारे पास मूल्य वर्धन ।g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

मैं दावा करता हूं कि

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

LHS और RHS का पहला कार्यकाल रद्द हो जाता है। यह भी ध्यान दें कि पर बाहरी अपेक्षा सशर्त है । सशर्त अपेक्षाओं के गुणों के साथ हम समाप्त होते हैंX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)h(x)]2
जो सख्त असमानता के साथ रखती है अगर । तो ग्लोबल और यूनिक मिनिमाइज़र है।h(x)E(YX)E(YX)

लेकिन यह भी कहता है कि "ऐड-एंड-घटाना" दृष्टिकोण यहां प्रमाण का सबसे रोशन तरीका नहीं है।


आपको जवाब के लिए धन्यवाद। यह मेरे दूसरे प्रश्न को स्पष्ट करने में मदद करता है। जैसा कि मैंने प्रश्न के शीर्षक में व्यक्त करने की कोशिश की, मेरा मुख्य मुद्दा (पोस्ट में पहला) प्रूफ तंत्र के बारे में अधिक था। मेरी मुख्य चिंता सवाल में प्रस्तुत किए गए प्रमाण की मेरी समझ के बारे में है। जैसा कि मैंने समझाया, प्रमाण के बारे में मेरी समझ मुझे स्पष्ट रूप से समस्याग्रस्त बयान की ओर ले जाती है। इसलिए मैं यह समझना चाहूंगा कि यह मेरी गलती थी क्योंकि यह अपेक्षा और सशर्त अपेक्षा की अवधारणाओं के बारे में कुछ गलतफहमियों को उजागर कर सकता है। इस बारे में कोई विचार?
मार्टिन वान डेर लिंडन

1
मैंने सबूत के लिए "जोड़ें और घटाना" दृष्टिकोण पर कुछ स्पष्टीकरण जोड़ा।
एलेकोस पापाडोपोलोस

मुझे इसे समझने में थोड़ा समय लगा, लेकिन मुझे आखिरकार मेरी बुनियादी गलती मिल गई: सच्चा पर्याप्त जब , लेकिन किसी भी तरह से यह मतलब नहीं है कि अभिव्यक्ति को कम करता है । कोई कारण नहीं है कि ब्रैकेटेड अभिव्यक्ति शून्य से कम नहीं हो सकती है। क्योंकि के सामने ऋण चिह्न के एक कुछ मिल सकता है ऐसी है कि । E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
मार्टिन वान डेर लिंडन

1
हम्म्म ... आपके द्वारा संदर्भित अभिव्यक्ति में ऋण चिह्न एक गलती है - यह एक प्लस चिन्ह होना चाहिए। आप निश्चित रूप से फिर से एक ऋण चिह्न प्राप्त करने के लिए शर्तों को पुनर्व्यवस्थित कर सकते हैं ... क्या इससे आपके द्वारा प्राप्त अंतर्ज्ञान को चोट पहुंचती है?
एलेकोस पापाडोपोलोस

सवाल के साथ रखने के लिए धन्यवाद। मैंने इस गलती को सुधारने के लिए प्रारंभिक पोस्ट को संपादित किया। सौभाग्य से, मुझे लगता है कि यह प्राप्त अंतर्ज्ञान को चोट नहीं पहुंचाता है। वास्तव में यह मुझे अभी तक एक और गलती को समझने में मदद करता है: मैं मान रहा था कि माइनस साइन यह गारंटी देने के लिए महत्वपूर्ण था कि जरूरी नहीं कि का न्यूनतम हो । लेकिन मुझे लगता है कि यह सिर्फ 2. के पहले संकेत के बारे में नहीं है (उम्मीद है) जो मुझे वास्तव में समझने की जरूरत है वह है, सामान्य रूप से (यानी मनमाना ) (दाएं कम करने की आवश्यकता नहीं है । 0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
मार्टिन वान डेर लिंडेन

5

ध्यान दें कि उत्तर को साबित करने के लिए, आपको वास्तव में केवल यह दिखाने की आवश्यकता है

E[2(YE(Y|X))(E(Y|X)g(X))]=0

जैसे कि किस अपेक्षा के लिए, आप इसे सशर्त रूप से लेते हैं, अन्यथा शब्द

argming(X)E[(Yg(X))2]

नहीं के रूप में, मतलब है एक यादृच्छिक चर अगर है है और नहीं । दिखाएँ कि आपको वास्तव में लिखना चाहिए या यह स्पष्ट करने के लिए। अब इस स्पष्टीकरण को देखते हुए, शब्द एक स्थिर है, और इसे शौच के बाहर खींचा जा सकता है, और आपके पास:g(X)EEXYEY|XE[(Yg(X))2|X]EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

इसलिए आप उद्देश्य समारोह को इस प्रकार लिख सकते हैं:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

न्यूनतम यहीं से स्पष्ट होता है। ध्यान दें कि यदि आप पर औसत से अधिक थे , तो एक बहुत ही समान तर्क दिखाने के लिए उपयोग किया जा सकता है:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

इससे पता चलता है कि यदि आप प्रत्येक लिए करते हैं , तो आपके पास इस फ़ंक्शन के साथ-साथ एक मिनिमाइज़र भी है। तो कुछ अर्थों में यह वास्तव में फर्क नहीं पड़ता कि है या ।g(X)=EY|X(Y|X)XEEYXEY|X


3

एक गणितीय दृष्टिकोण है जो बहुत सरल है। आपके पास हिल्बर्ट स्पेस में एक प्रोजेक्शन समस्या है, बहुत कुछ जैसे कि एक सबस्पेक्टर पर वेक्टर को प्रोजेक्ट करना ।Rn

चलो अंतर्निहित संभावना अंतरिक्ष को दर्शाते हैं। मेकअप भावना को समस्या के लिए, परिमित दूसरा क्षणों के साथ यादृच्छिक चरों पर विचार, यह है कि, हिल्बर्ट अंतरिक्ष एल 2 ( Ω , एफ , μ ) । समस्या अब यह है: दिया एक्स , वाई एल 2 ( Ω , एफ , μ ) , के प्रक्षेपण को खोजने वाई उपस्पेस पर एल 2 ( Ω , एफ एक्स , μ(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)Y है, जहां एफ एक्स है σ के -subalgebra एफ द्वारा उत्पन्न एक्स । (बस परिमित आयामी मामले में, एल 2 -एक उप-वर्ग के लिएकम से कमप्रक्षेपण का मतलब है)। निर्माण द्वारावांछित प्रक्षेपण( एक्स | वाई ) है । (यह वास्तव में( एक्स | वाई ) की विशेषता है , अगर कोई अस्तित्व के प्रमाण का निरीक्षण करता है)।L2(Ω,FX,μ)FXσFXL2E(X|Y)E(X|Y)


यह एक सुंदर प्रतिक्रिया है।
jII

0

अपने आखिरी सवाल के बारे में, उम्मीद या तो wrt हो सकता है p(x,y) (बिना शर्त त्रुटि) या wrt p(yx) (प्रत्येक मूल्य पर सशर्त त्रुटि X=x )। खुशी से, प्रत्येक मान X=x पर सशर्त त्रुटि को कम करना भी बिना शर्त त्रुटि को कम करता है, इसलिए यह एक महत्वपूर्ण अंतर नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.