इसलिए मैंने इस सवाल का जवाब दिया कि आप संदर्भ दें और मैंने वीडियो देखा और ब्लॉग पोस्ट को पढ़ा। रेडफोर्ड नील यह नहीं कह रहा है कि बायेसियन मॉडल ओवरफिट नहीं करते हैं। हमें याद रखें कि ओवरफिटिंग शोर की घटना को संकेत के रूप में माना जाता है और पैरामीटर अनुमान में लगाया जाता है। यह मॉडल चयन त्रुटि का एकमात्र स्रोत नहीं है। नील की चर्चा हालांकि व्यापक है एक छोटे से नमूने के आकार में विचार करके उन्होंने ओवरफिटिंग की चर्चा में भाग लिया।
मुझे अपनी पूर्व पोस्टिंग को आंशिक रूप से संशोधित करने की अनुमति दें कि बायेसियन मॉडल सभी बायेसियन मॉडल को ओवरफिट से ओवरफिट कर सकते हैं, लेकिन ऐसा एक तरह से करें जिससे भविष्यवाणी में सुधार हो। फिर से, शोर के साथ भ्रमित करने वाले संकेत की परिभाषा पर वापस जाना, बायेसियन विधियों में अनिश्चितता, पश्च वितरण, उस अनिश्चितता का परिमाणीकरण है कि सिग्नल क्या है और शोर क्या है। ऐसा करने में, बेयसियन तरीके सिग्नल के अनुमानों में शोर को लागू कर रहे हैं क्योंकि पूरे पोस्टीरियर का उपयोग अनुमान और भविष्यवाणी में किया जाता है। ओवरसाइटिंग और मॉडल वर्गीकरण त्रुटि के अन्य स्रोत बेयसियन विधियों में एक अलग प्रकार की समस्या है।
सरल बनाने के लिए, आइए हम मा की बात की संरचना को अपनाते हैं और रेखीय प्रतिगमन पर ध्यान केंद्रित करते हैं और गहन शिक्षण चर्चा से बचते हैं क्योंकि, जैसा कि वह बताते हैं, जिन वैकल्पिक तरीकों का वह उल्लेख करते हैं वे केवल कार्यों की रचनाएं हैं और रैखिक के तर्क के बीच सीधा संबंध है प्रतिगमन और गहन शिक्षा।
निम्नलिखित संभावित मॉडल पर विचार करेंदो आकार का एक व्यापक नमूना बनाने की सुविधा देता है , , जहाँ प्रशिक्षण सेट है और सत्यापन सेट है। हम देखेंगे कि क्यों, कुछ कैविट्स के अधीन, बायेसियन विधियों को एक अलग प्रशिक्षण और सत्यापन सेट की आवश्यकता नहीं है।
y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2
इस चर्चा के लिए, हमें प्रत्येक मॉडल के लिए आठ और पैरामीटर बनाने की आवश्यकता है। वे । वे एक बहुराष्ट्रीय वितरण का पालन करते हैं और प्रतिगमन गुणांक के रूप में उचित पुजारी होते हैं। आठ मॉडल और m1…8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
अब हमें बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के मातम में जाने की आवश्यकता है। प्रशिक्षण सेट में, फ़्रीक्वेंटिस्ट विधियों का उपयोग करने वाला मॉडल सिर्फ एक मॉडल चुनता है। बायेसियन विधियों का उपयोग करने वाला मॉडल इतना प्रतिबंधित नहीं है। हालांकि बायेसियन मॉडलर सिर्फ एक मॉडल खोजने के लिए एक मॉडल चयन मानदंड का उपयोग कर सकता है, वे मॉडल औसत का उपयोग करने के लिए भी स्वतंत्र हैं। बायेसियन मॉडलर सत्यापन खंड में मिडस्ट्रीम में चयनित मॉडल को बदलने के लिए स्वतंत्र है। मोरेसो, बायेसियन विधियों का उपयोग करने वाला मॉडल मिश्रण और चयन और औसत के बीच मेल कर सकता है।n1,
एक वास्तविक दुनिया का उदाहरण देने के लिए, मैंने दिवालियापन के 78 मॉडल का परीक्षण किया। 78 मॉडलों में से, उनमें से 76 की संयुक्त बाद की संभावना एक प्रतिशत के दस-हजारवें हिस्से के बारे में थी। अन्य दो मॉडल क्रमशः 54 प्रतिशत और 46 प्रतिशत थे। सौभाग्य से, उन्होंने भी कोई चर साझा नहीं किया। इसने मुझे दोनों मॉडलों का चयन करने और अन्य 76 को नजरअंदाज करने की अनुमति दी। जब मेरे पास दोनों के लिए सभी डेटा बिंदु थे, तो मैंने दो मॉडल के पीछे की संभावनाओं के आधार पर उनकी भविष्यवाणियों को औसतन किया, केवल एक मॉडल का उपयोग करते हुए जब मेरे पास डेटा बिंदु गायब थे अन्य। जबकि मेरे पास एक प्रशिक्षण सेट और सत्यापन सेट था, यह उसी कारण से नहीं था जैसा कि एक फ़्रीडेंटिस्ट उनके पास होगा। इसके अलावा, दो व्यावसायिक चक्रों पर हर दिन के अंत में, मैंने प्रत्येक दिन के डेटा के साथ अपने पोस्टएयर को अपडेट किया। इसका मतलब यह था कि सत्यापन सेट के अंत में मेरा मॉडल प्रशिक्षण सेट के अंत में मॉडल नहीं था। बायसियन मॉडल सीखना बंद नहीं करते हैं जबकि फ़्रीक्वेंटिस्ट मॉडल करते हैं।
गहराई तक जाने के लिए हमें अपने मॉडल के साथ ठोस होना चाहिए। आइए मान लें कि प्रशिक्षण के नमूने के दौरान मॉडल के चयन के लिए सबसे अच्छा फिट फ़्रीक्वेंटिस्ट मॉडल और बायेसियन मॉडल का मिलान किया गया है या, वैकल्पिक रूप से, मॉडल औसत में मॉडल का वजन इतना महान था कि यह फ़्रीक्वेंटिस्ट मॉडल के लिए लगभग अप्रभेद्य था। हम इस मॉडल की कल्पना करेंगे कि चलिए यह भी कल्पना करते हैं कि प्रकृति का असली मॉडल
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
अब आइए सत्यापन सेट में अंतर पर विचार करें। फ़्रीक्वेंटिस्ट मॉडल को डेटा से ओवरफिट किया जाता है। मान हैं कि कुछ बिंदु कि मॉडल चयन या सत्यापन प्रक्रिया ने चयन को प्रकृति में वास्तविक मॉडल में बदल दिया था। इसके अलावा, यदि मॉडल औसत का उपयोग किया गया था, तो प्रकृति में सच्चे मॉडल ने मॉडल की पसंद स्पष्ट होने से बहुत पहले भविष्यवाणी में वजन किया था। ईटी जेनेस ने संभावना के सिद्धांत पर अपने ठुमके में कुछ समय इस मुद्दे पर चर्चा करने में बिताया। मेरे पास काम पर किताब है, इसलिए मैं आपको एक अच्छा उद्धरण नहीं दे सकता, लेकिन आपको इसे पढ़ना चाहिए। इसका आईएसबीएन 978-0521592710 है।ni2
मॉडल बायेसियन सोच में पैरामीटर हैं और जैसे कि यादृच्छिक हैं, या यदि आप पसंद करेंगे, तो अनिश्चित। सत्यापन प्रक्रिया के दौरान यह अनिश्चितता समाप्त नहीं होती है। यह लगातार अद्यतन किया जाता है।
बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के कारण, अन्य प्रकार के मामले हैं जिन पर भी विचार किया जाना चाहिए। पहला पैरामीटर अनुमान से आता है, दूसरा औपचारिक भविष्यवाणियों से। बायेसियन विधियों में वे समान नहीं हैं। बायेसियन तरीके औपचारिक रूप से अनुमान और निर्णय लेने को अलग करते हैं। वे पैरामीटर अनुमान और भविष्यवाणी को भी अलग करते हैं।
आइए कल्पना करें, सामान्यता के नुकसान के बिना, कि एक मॉडल सफल होगा अगर और अन्यथा विफलता। हम अन्य मापदंडों को अनदेखा करने जा रहे हैं क्योंकि यह एक सरल विचार पर प्राप्त करने के लिए बहुत सारे अतिरिक्त काम होंगे। बायेसियन विधियों का उपयोग करने वाले मॉडलर के लिए, यह एक बहुत ही अलग प्रकार का प्रश्न है, जो कि आवृत्तिवादी विधियों का उपयोग करने वाले के लिए है।σ2^<k
फ़्रीक्वेंटिस्ट के लिए प्रशिक्षण सेट के आधार पर एक परिकल्पना परीक्षण का गठन किया जाता है। नमूना बनानेवाला frequentist तरीकों का उपयोग कर का परीक्षण करेगा कि क्या अनुमान विचरण से अधिक या बराबर है और नमूना जिसका आकार है से अधिक रिक्त अस्वीकार करने का प्रयास में खोज की उन लोगों के लिए मानकों को तय करने से ।kn2n1
नमूना बनानेवाला बायेसियन तरीकों का उपयोग कर के लिए, वे नमूना से दौरान पैरामीटर अनुमान फार्म होगा और के पीछे घनत्व नमूने के लिए पहले बन जाएगा । गुण मानते हैं, तो यह आश्वासन दिया जाता है कि संयुक्त नमूने से बने प्रायिकता अनुमान के शब्द के पीछे का अनुमान सभी इंद्रियों में समान है। उन्हें दो नमूनों में विभाजित करना गणित के बल के बराबर है, उन्हें विभाजित नहीं करना।n1n1n2n2
भविष्यवाणियों के लिए, एक समान मुद्दा रखता है। बायेसियन विधियों में एक पूर्वानुमानात्मक वितरण होता है जिसे प्रत्येक अवलोकन के साथ भी अपडेट किया जाता है, जबकि फ़्रीक्वेंटिस्ट एक नमूना के अंत में जमे हुए । भविष्य कहनेवाला घनत्व को रूप में लिखा जा सकता है । यदि भविष्यवाणी है और नमूना है, तो वे पैरामीटर कहाँ हैं, जिन्हें हमn1Pr(x~=k|X)x~Xθ? हालांकि फ़्रीक्वेंटिस्ट भविष्यवाणी प्रणाली मौजूद है, ज्यादातर लोग केवल बिंदु अनुमानों को सही मापदंडों के रूप में मानते हैं और अवशिष्टों की गणना करते हैं। बायेसियन विधियां केवल एक एकल बिंदु के बजाय अनुमानित घनत्व के खिलाफ प्रत्येक भविष्यवाणी का स्कोर करेगी। ये भविष्यवाणियां उन मापदंडों पर निर्भर नहीं करती हैं, जो फ़्रीक्वेंटिस्ट समाधानों में उपयोग किए जाने वाले बिंदु तरीकों से अलग हैं।
एक साइड नोट के रूप में, औपचारिक फ़्रीक्वेनिस्ट भविष्यवक्ता घनत्व मानक त्रुटियों का उपयोग करते हैं, और उन पर स्कोरिंग किया जा सकता है, लेकिन व्यवहार में यह दुर्लभ है। यदि कोई विशिष्ट पूर्व ज्ञान नहीं है, तो डेटा बिंदुओं के समान सेट के लिए पूर्वानुमान के दो सेट समान होने चाहिए। वे अलग-अलग समाप्त हो जाएंगे क्योंकि और इसलिए बायेसियन समाधान अधिक जानकारी प्रदान करेगा।n1+n2>n1
यदि कोई सामग्री पूर्व सूचना नहीं है और अगर पॉइंट अनुमानों के बजाय फ़्रीक्वेंटिस्ट प्रेडिक्टिव डेन्सिटीज़ का उपयोग किया जाता है, तो एक निश्चित नमूने के लिए बायसियन और फ़्रीक्वेंटिस्ट विधियों के परिणाम समान होंगे यदि एकल मॉडल चुना जाता है। यदि पूर्व सूचना है, तो बेयसियन पद्धति अधिक सटीक भविष्यवाणियां उत्पन्न करेगी। व्यवहार में यह अंतर बहुत बड़ा हो सकता है। इसके अलावा, यदि मॉडल औसत है, तो यह काफी संभावना है कि बायेसियन विधि अधिक मजबूत होगी। यदि आप मॉडल चयन का उपयोग करते हैं और बेसेसियन भविष्यवाणियों को फ्रीज करते हैं, तो फ़्रीक्वेंटिस्ट मॉडल का उपयोग करके फ़्रीक्वेंटिस्ट भविष्यवाणियों का उपयोग करने के लिए कोई अंतर नहीं है।
मैंने एक परीक्षण और सत्यापन सेट का उपयोग किया क्योंकि मेरा डेटा विनिमेय नहीं था। नतीजतन, मुझे दो समस्याओं को हल करने की आवश्यकता थी। पहला MCMC विधियों में बर्न-इन के समान है। मुझे अपना परीक्षण अनुक्रम शुरू करने के लिए पैरामीटर अनुमानों के एक अच्छे सेट की आवश्यकता थी, और इसलिए मैंने अपना सत्यापन परीक्षण शुरू करने के लिए एक अच्छा पूर्व घनत्व प्राप्त करने के लिए पचास साल के पूर्व डेटा का उपयोग किया। दूसरी समस्या यह थी कि मुझे परीक्षण के लिए मानकीकृत अवधि के कुछ रूप की आवश्यकता थी ताकि परीक्षण पर सवाल न उठाया जाए। मैंने NBER द्वारा दिनांकित दो पूर्व व्यावसायिक चक्रों का उपयोग किया।