क्या यह सच है कि Bayesians को परीक्षण सेट की आवश्यकता नहीं है?

मैंने हाल ही में एरिक जे। मा की इस बात को देखा और उनके ब्लॉग प्रविष्टि की जाँच की , जहाँ उन्होंने रेडफोर्ड नील को उद्धृत किया, कि बायेसियन मॉडल ओवरफिट नहीं करते हैं (लेकिन वे ओवरफिट कर सकते हैं ) और उनका उपयोग करते समय, हमें उन्हें सत्यापित करने के लिए परीक्षण सेट की आवश्यकता नहीं है (के लिए) मुझे उद्धरण पैरामीटर को समायोजित करने के लिए सत्यापन सेट का उपयोग करने के बजाय बात करने लगते हैं)। ईमानदारी से, तर्क मुझे नहीं समझाते हैं और मेरे पास पुस्तक तक पहुंच नहीं है, इसलिए आप इस तरह के बयान के खिलाफ या अधिक विस्तृत और कठोर तर्क दे सकते हैं?

वैसे, इस बीच, एरिक मा ने इसी विषय पर मुझसे चर्चा की ।

— टिम
स्रोत

उस तर्क के संबंध में इस तर्क में एक बड़ा छेद: यदि आप MCMC कर रहे हैं, यदि आप पूरी तरह से पीछे नहीं आते हैं, तो आपका अनुमान पूरी तरह से अमान्य है। यदि आप एक बायेसियन न्यूरल नेटवर्क पर इंट्रैक्शन कर रहे हैं, तो आपने लगभग निश्चित रूप से एमसीएमसी के पीछे के बहुत बड़े हिस्सों का पता नहीं लगाया है। इसलिए, बेहतर होगा कि आप अपना डेटा दोबारा जांच लें!

— एबी एबी

एक बात पर विचार करें कि हम क्या मूल्यांकन या सत्यापन कर रहे हैं? यह हो सकता है कि हमारे पास सभी जानकारी का उपयोग न करें (या तो पहले या संभावना में)। जाँच फिट मॉडल इस सवाल का जवाब देने में मदद कर सकता है।

— probabilityislogic

यदि हम "एक सच्चे मॉडल" और "सच्चे पुजारी" का उपयोग करते हैं, तो कुछ उचित पूर्व सूचना पर कब्जा कर लिया गया है, तो जहाँ तक मुझे पता है कि एक बायेसियन वास्तव में एक समस्या से ग्रस्त नहीं है और बहुत कम डेटा दिए जाने वाले पूर्ववर्ती भविष्य कहनेवाला वितरण उपयुक्त अनिश्चित होगा । हालाँकि, अगर हम किसी प्रकार का व्यावहारिक रूप से चुने हुए मॉडल का उपयोग करते हैं (अर्थात हमने तय किया है कि समय के साथ खतरे की दर स्थिर है और एक घातांक मॉडल उपयुक्त है या उदाहरण के लिए, कुछ सहसंयोजक मॉडल में नहीं है = कुछ शून्य के पूर्व बिंदु) डिफ़ॉल्ट uninformative या नियमित करने वाले पुजारी, तो हम वास्तव में नहीं जानते कि क्या यह अभी भी लागू होता है। उस मामले में (हाइपर) पुजारियों की पसंद में कुछ मनमानी है जो नमूना भविष्यवाणियों में से अच्छा हो सकता है या नहीं।

इस प्रकार, यह सवाल पूछने के लिए बहुत उचित है कि क्या चुने हुए संभावना के साथ संयोजन में हाइपरपरमीटर विकल्प (= हाइपरप्रिअर्स के पैरामीटर) अच्छा प्रदर्शन करेंगे। वास्तव में, आप आसानी से तय कर सकते हैं कि कुछ वांछित भविष्यवाणी प्रदर्शन प्राप्त करने के लिए अपने हाइपरपैरामीटर को ट्यून करना एक अच्छा विचार है। उस परिप्रेक्ष्य से हाइपरपरमेटर्स को ट्यून करने के लिए एक वैलिडेशन सेट (या क्रॉस-वैलिडेशन) और परफॉरमेंस की पुष्टि करने के लिए सेट टेस्ट।

मुझे लगता है कि यह उनके ब्लॉग पर एंड्रयू जेलमैन की कई चर्चाओं से संबंधित है (उदाहरण के लिए ब्लॉग प्रविष्टि 1 , ब्लॉग प्रविष्टि 2 , स्टेन के लिए एलओयू पर ब्लॉग प्रविष्टि 3 और पूर्ववर्ती भविष्यवाणिय जाँचों पर डिस्कस), जहाँ वह अपनी चिंताओं के बारे में चर्चा करता है। (कुछ अर्थों में सही) का दावा है कि एक बायेसियन को यह नहीं जांचना चाहिए कि उनका मॉडल समझ में आता है या व्यावहारिक बायेसियन मॉडल मूल्यांकन के बारे में।

बेशक, हम बहुत बार सेटिंग्स में बायेसियन विधियों का उपयोग करने में सबसे अधिक रुचि रखते हैं, जहां थोड़ी पूर्व जानकारी होती है और हम कुछ जानकारीपूर्ण पुजारियों का उपयोग करना चाहते हैं। उस बिंदु पर परीक्षण सेट पर सत्यापन और मूल्यांकन के साथ कहीं भी प्राप्त करने के लिए पर्याप्त डेटा होना मुश्किल हो सकता है।

— ब्योर्न
स्रोत

इसलिए मैंने इस सवाल का जवाब दिया कि आप संदर्भ दें और मैंने वीडियो देखा और ब्लॉग पोस्ट को पढ़ा। रेडफोर्ड नील यह नहीं कह रहा है कि बायेसियन मॉडल ओवरफिट नहीं करते हैं। हमें याद रखें कि ओवरफिटिंग शोर की घटना को संकेत के रूप में माना जाता है और पैरामीटर अनुमान में लगाया जाता है। यह मॉडल चयन त्रुटि का एकमात्र स्रोत नहीं है। नील की चर्चा हालांकि व्यापक है एक छोटे से नमूने के आकार में विचार करके उन्होंने ओवरफिटिंग की चर्चा में भाग लिया।

मुझे अपनी पूर्व पोस्टिंग को आंशिक रूप से संशोधित करने की अनुमति दें कि बायेसियन मॉडल सभी बायेसियन मॉडल को ओवरफिट से ओवरफिट कर सकते हैं, लेकिन ऐसा एक तरह से करें जिससे भविष्यवाणी में सुधार हो। फिर से, शोर के साथ भ्रमित करने वाले संकेत की परिभाषा पर वापस जाना, बायेसियन विधियों में अनिश्चितता, पश्च वितरण, उस अनिश्चितता का परिमाणीकरण है कि सिग्नल क्या है और शोर क्या है। ऐसा करने में, बेयसियन तरीके सिग्नल के अनुमानों में शोर को लागू कर रहे हैं क्योंकि पूरे पोस्टीरियर का उपयोग अनुमान और भविष्यवाणी में किया जाता है। ओवरसाइटिंग और मॉडल वर्गीकरण त्रुटि के अन्य स्रोत बेयसियन विधियों में एक अलग प्रकार की समस्या है।

सरल बनाने के लिए, आइए हम मा की बात की संरचना को अपनाते हैं और रेखीय प्रतिगमन पर ध्यान केंद्रित करते हैं और गहन शिक्षण चर्चा से बचते हैं क्योंकि, जैसा कि वह बताते हैं, जिन वैकल्पिक तरीकों का वह उल्लेख करते हैं वे केवल कार्यों की रचनाएं हैं और रैखिक के तर्क के बीच सीधा संबंध है प्रतिगमन और गहन शिक्षा।

निम्नलिखित संभावित मॉडल पर विचार करेंदो आकार का एक व्यापक नमूना बनाने की सुविधा देता है , , जहाँ प्रशिक्षण सेट है और सत्यापन सेट है। हम देखेंगे कि क्यों, कुछ कैविट्स के अधीन, बायेसियन विधियों को एक अलग प्रशिक्षण और सत्यापन सेट की आवश्यकता नहीं है।

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

इस चर्चा के लिए, हमें प्रत्येक मॉडल के लिए आठ और पैरामीटर बनाने की आवश्यकता है। वे । वे एक बहुराष्ट्रीय वितरण का पालन करते हैं और प्रतिगमन गुणांक के रूप में उचित पुजारी होते हैं। आठ मॉडल और $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

अब हमें बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के मातम में जाने की आवश्यकता है। प्रशिक्षण सेट में, फ़्रीक्वेंटिस्ट विधियों का उपयोग करने वाला मॉडल सिर्फ एक मॉडल चुनता है। बायेसियन विधियों का उपयोग करने वाला मॉडल इतना प्रतिबंधित नहीं है। हालांकि बायेसियन मॉडलर सिर्फ एक मॉडल खोजने के लिए एक मॉडल चयन मानदंड का उपयोग कर सकता है, वे मॉडल औसत का उपयोग करने के लिए भी स्वतंत्र हैं। बायेसियन मॉडलर सत्यापन खंड में मिडस्ट्रीम में चयनित मॉडल को बदलने के लिए स्वतंत्र है। मोरेसो, बायेसियन विधियों का उपयोग करने वाला मॉडल मिश्रण और चयन और औसत के बीच मेल कर सकता है। $n_1,$

एक वास्तविक दुनिया का उदाहरण देने के लिए, मैंने दिवालियापन के 78 मॉडल का परीक्षण किया। 78 मॉडलों में से, उनमें से 76 की संयुक्त बाद की संभावना एक प्रतिशत के दस-हजारवें हिस्से के बारे में थी। अन्य दो मॉडल क्रमशः 54 प्रतिशत और 46 प्रतिशत थे। सौभाग्य से, उन्होंने भी कोई चर साझा नहीं किया। इसने मुझे दोनों मॉडलों का चयन करने और अन्य 76 को नजरअंदाज करने की अनुमति दी। जब मेरे पास दोनों के लिए सभी डेटा बिंदु थे, तो मैंने दो मॉडल के पीछे की संभावनाओं के आधार पर उनकी भविष्यवाणियों को औसतन किया, केवल एक मॉडल का उपयोग करते हुए जब मेरे पास डेटा बिंदु गायब थे अन्य। जबकि मेरे पास एक प्रशिक्षण सेट और सत्यापन सेट था, यह उसी कारण से नहीं था जैसा कि एक फ़्रीडेंटिस्ट उनके पास होगा। इसके अलावा, दो व्यावसायिक चक्रों पर हर दिन के अंत में, मैंने प्रत्येक दिन के डेटा के साथ अपने पोस्टएयर को अपडेट किया। इसका मतलब यह था कि सत्यापन सेट के अंत में मेरा मॉडल प्रशिक्षण सेट के अंत में मॉडल नहीं था। बायसियन मॉडल सीखना बंद नहीं करते हैं जबकि फ़्रीक्वेंटिस्ट मॉडल करते हैं।

गहराई तक जाने के लिए हमें अपने मॉडल के साथ ठोस होना चाहिए। आइए मान लें कि प्रशिक्षण के नमूने के दौरान मॉडल के चयन के लिए सबसे अच्छा फिट फ़्रीक्वेंटिस्ट मॉडल और बायेसियन मॉडल का मिलान किया गया है या, वैकल्पिक रूप से, मॉडल औसत में मॉडल का वजन इतना महान था कि यह फ़्रीक्वेंटिस्ट मॉडल के लिए लगभग अप्रभेद्य था। हम इस मॉडल की कल्पना करेंगे कि चलिए यह भी कल्पना करते हैं कि प्रकृति का असली मॉडल

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

अब आइए सत्यापन सेट में अंतर पर विचार करें। फ़्रीक्वेंटिस्ट मॉडल को डेटा से ओवरफिट किया जाता है। मान हैं कि कुछ बिंदु कि मॉडल चयन या सत्यापन प्रक्रिया ने चयन को प्रकृति में वास्तविक मॉडल में बदल दिया था। इसके अलावा, यदि मॉडल औसत का उपयोग किया गया था, तो प्रकृति में सच्चे मॉडल ने मॉडल की पसंद स्पष्ट होने से बहुत पहले भविष्यवाणी में वजन किया था। ईटी जेनेस ने संभावना के सिद्धांत पर अपने ठुमके में कुछ समय इस मुद्दे पर चर्चा करने में बिताया। मेरे पास काम पर किताब है, इसलिए मैं आपको एक अच्छा उद्धरण नहीं दे सकता, लेकिन आपको इसे पढ़ना चाहिए। इसका आईएसबीएन 978-0521592710 है। $n_2^i$

मॉडल बायेसियन सोच में पैरामीटर हैं और जैसे कि यादृच्छिक हैं, या यदि आप पसंद करेंगे, तो अनिश्चित। सत्यापन प्रक्रिया के दौरान यह अनिश्चितता समाप्त नहीं होती है। यह लगातार अद्यतन किया जाता है।

बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के कारण, अन्य प्रकार के मामले हैं जिन पर भी विचार किया जाना चाहिए। पहला पैरामीटर अनुमान से आता है, दूसरा औपचारिक भविष्यवाणियों से। बायेसियन विधियों में वे समान नहीं हैं। बायेसियन तरीके औपचारिक रूप से अनुमान और निर्णय लेने को अलग करते हैं। वे पैरामीटर अनुमान और भविष्यवाणी को भी अलग करते हैं।

आइए कल्पना करें, सामान्यता के नुकसान के बिना, कि एक मॉडल सफल होगा अगर और अन्यथा विफलता। हम अन्य मापदंडों को अनदेखा करने जा रहे हैं क्योंकि यह एक सरल विचार पर प्राप्त करने के लिए बहुत सारे अतिरिक्त काम होंगे। बायेसियन विधियों का उपयोग करने वाले मॉडलर के लिए, यह एक बहुत ही अलग प्रकार का प्रश्न है, जो कि आवृत्तिवादी विधियों का उपयोग करने वाले के लिए है। $\hat{\sigma^2}<k$

फ़्रीक्वेंटिस्ट के लिए प्रशिक्षण सेट के आधार पर एक परिकल्पना परीक्षण का गठन किया जाता है। नमूना बनानेवाला frequentist तरीकों का उपयोग कर का परीक्षण करेगा कि क्या अनुमान विचरण से अधिक या बराबर है और नमूना जिसका आकार है से अधिक रिक्त अस्वीकार करने का प्रयास में खोज की उन लोगों के लिए मानकों को तय करने से । $k$ $n_2$ $n_1$

नमूना बनानेवाला बायेसियन तरीकों का उपयोग कर के लिए, वे नमूना से दौरान पैरामीटर अनुमान फार्म होगा और के पीछे घनत्व नमूने के लिए पहले बन जाएगा । गुण मानते हैं, तो यह आश्वासन दिया जाता है कि संयुक्त नमूने से बने प्रायिकता अनुमान के शब्द के पीछे का अनुमान सभी इंद्रियों में समान है। उन्हें दो नमूनों में विभाजित करना गणित के बल के बराबर है, उन्हें विभाजित नहीं करना। $n_1$ $n_1$ $n_2$ $n_2$

भविष्यवाणियों के लिए, एक समान मुद्दा रखता है। बायेसियन विधियों में एक पूर्वानुमानात्मक वितरण होता है जिसे प्रत्येक अवलोकन के साथ भी अपडेट किया जाता है, जबकि फ़्रीक्वेंटिस्ट एक नमूना के अंत में जमे हुए । भविष्य कहनेवाला घनत्व को रूप में लिखा जा सकता है । यदि भविष्यवाणी है और नमूना है, तो वे पैरामीटर कहाँ हैं, जिन्हें हम $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ हालांकि फ़्रीक्वेंटिस्ट भविष्यवाणी प्रणाली मौजूद है, ज्यादातर लोग केवल बिंदु अनुमानों को सही मापदंडों के रूप में मानते हैं और अवशिष्टों की गणना करते हैं। बायेसियन विधियां केवल एक एकल बिंदु के बजाय अनुमानित घनत्व के खिलाफ प्रत्येक भविष्यवाणी का स्कोर करेगी। ये भविष्यवाणियां उन मापदंडों पर निर्भर नहीं करती हैं, जो फ़्रीक्वेंटिस्ट समाधानों में उपयोग किए जाने वाले बिंदु तरीकों से अलग हैं।

एक साइड नोट के रूप में, औपचारिक फ़्रीक्वेनिस्ट भविष्यवक्ता घनत्व मानक त्रुटियों का उपयोग करते हैं, और उन पर स्कोरिंग किया जा सकता है, लेकिन व्यवहार में यह दुर्लभ है। यदि कोई विशिष्ट पूर्व ज्ञान नहीं है, तो डेटा बिंदुओं के समान सेट के लिए पूर्वानुमान के दो सेट समान होने चाहिए। वे अलग-अलग समाप्त हो जाएंगे क्योंकि और इसलिए बायेसियन समाधान अधिक जानकारी प्रदान करेगा। $n_1+n_2>n_1$

यदि कोई सामग्री पूर्व सूचना नहीं है और अगर पॉइंट अनुमानों के बजाय फ़्रीक्वेंटिस्ट प्रेडिक्टिव डेन्सिटीज़ का उपयोग किया जाता है, तो एक निश्चित नमूने के लिए बायसियन और फ़्रीक्वेंटिस्ट विधियों के परिणाम समान होंगे यदि एकल मॉडल चुना जाता है। यदि पूर्व सूचना है, तो बेयसियन पद्धति अधिक सटीक भविष्यवाणियां उत्पन्न करेगी। व्यवहार में यह अंतर बहुत बड़ा हो सकता है। इसके अलावा, यदि मॉडल औसत है, तो यह काफी संभावना है कि बायेसियन विधि अधिक मजबूत होगी। यदि आप मॉडल चयन का उपयोग करते हैं और बेसेसियन भविष्यवाणियों को फ्रीज करते हैं, तो फ़्रीक्वेंटिस्ट मॉडल का उपयोग करके फ़्रीक्वेंटिस्ट भविष्यवाणियों का उपयोग करने के लिए कोई अंतर नहीं है।

मैंने एक परीक्षण और सत्यापन सेट का उपयोग किया क्योंकि मेरा डेटा विनिमेय नहीं था। नतीजतन, मुझे दो समस्याओं को हल करने की आवश्यकता थी। पहला MCMC विधियों में बर्न-इन के समान है। मुझे अपना परीक्षण अनुक्रम शुरू करने के लिए पैरामीटर अनुमानों के एक अच्छे सेट की आवश्यकता थी, और इसलिए मैंने अपना सत्यापन परीक्षण शुरू करने के लिए एक अच्छा पूर्व घनत्व प्राप्त करने के लिए पचास साल के पूर्व डेटा का उपयोग किया। दूसरी समस्या यह थी कि मुझे परीक्षण के लिए मानकीकृत अवधि के कुछ रूप की आवश्यकता थी ताकि परीक्षण पर सवाल न उठाया जाए। मैंने NBER द्वारा दिनांकित दो पूर्व व्यावसायिक चक्रों का उपयोग किया।

— डेव हैरिस
स्रोत

लेकिन फिर, यह कहें कि आपने "बिना सूचना के" पुजारियों के साथ रैखिक प्रतिगमन मॉडल के लिए एक एमएपी का अनुमान लगाया था। यह मॉडल के लिए अधिकतम संभावना अनुमान प्राप्त करने के बराबर होगा, इसलिए एमएल को विनिमेयता मानकर या तो परीक्षण सेट की आवश्यकता नहीं है?

— टिम

"ओवरफिटिंग शोर की घटना को संकेत के रूप में माना जाता है और पैरामीटर अनुमान में लगाया जाता है" मेरा मानना है कि यह परिभाषा नशे की लत शोर मॉडल के लिए विशिष्ट है। अन्यथा ओवरफिटिंग बनाम अंडरफिटिंग इतनी अच्छी तरह से परिभाषित नहीं है।

— कागदस ओजेंक

@CagdasOzgenc धन्यवाद क्या आपके पास सुझाए गए संपादन हैं?

— डेव हैरिस

@ मुझे कभी भी MAP अनुमानक का उल्लेख नहीं मिला। यदि आप MAP आकलनकर्ता को समस्या कम करते हैं तो आप मजबूती का समर्पण करते हैं। एमएपी अनुमानक वह बिंदु है जो एक घनत्व पर लागत कार्य को कम करता है। यह अनुमानों के लिए समस्याग्रस्त हो सकता है यदि घनत्व में पर्याप्त सांख्यिकीय का अभाव है। एमएपी अनुमानक, आंतरिक रूप से, जानकारी खो देगा। यदि आप एमएपी अनुमानक का उपयोग कर रहे थे, जो मूल प्रश्न में नहीं है और स्पष्ट रूप से मा की प्रस्तुति का हिस्सा नहीं है, तो आप अपने लिए अलग तरह की समस्याएं पैदा करते हैं।

— डेव हैरिस

@ टीएमएपी अनुमानक बायेसियन निर्णय सिद्धांत से आता है और यह बायेसियन अनुमान और अनुमान के शीर्ष पर एक उपरिशायी है। एमएपी सुविधाजनक है। सुविधा का चयन करते समय भुगतान किया जाना है। जब तक ऑल-ऑर-नथिंग कॉस्ट फंक्शन आपका सच्चा कॉस्ट फंक्शन है, आप सूचना और सटीकता दोनों को सरेंडर कर रहे हैं। मा की प्रस्तुति में प्रस्तावित की तुलना में आप विभिन्न पद्धतिगत मुद्दों को भी समाप्त करते हैं।

— डेव हैरिस