क्या यह सच है कि Bayesians को परीक्षण सेट की आवश्यकता नहीं है?


9

मैंने हाल ही में एरिक जे। मा की इस बात को देखा और उनके ब्लॉग प्रविष्टि की जाँच की , जहाँ उन्होंने रेडफोर्ड नील को उद्धृत किया, कि बायेसियन मॉडल ओवरफिट नहीं करते हैं (लेकिन वे ओवरफिट कर सकते हैं ) और उनका उपयोग करते समय, हमें उन्हें सत्यापित करने के लिए परीक्षण सेट की आवश्यकता नहीं है (के लिए) मुझे उद्धरण पैरामीटर को समायोजित करने के लिए सत्यापन सेट का उपयोग करने के बजाय बात करने लगते हैं)। ईमानदारी से, तर्क मुझे नहीं समझाते हैं और मेरे पास पुस्तक तक पहुंच नहीं है, इसलिए आप इस तरह के बयान के खिलाफ या अधिक विस्तृत और कठोर तर्क दे सकते हैं?

वैसे, इस बीच, एरिक मा ने इसी विषय पर मुझसे चर्चा की


3
उस तर्क के संबंध में इस तर्क में एक बड़ा छेद: यदि आप MCMC कर रहे हैं, यदि आप पूरी तरह से पीछे नहीं आते हैं, तो आपका अनुमान पूरी तरह से अमान्य है। यदि आप एक बायेसियन न्यूरल नेटवर्क पर इंट्रैक्शन कर रहे हैं, तो आपने लगभग निश्चित रूप से एमसीएमसी के पीछे के बहुत बड़े हिस्सों का पता नहीं लगाया है। इसलिए, बेहतर होगा कि आप अपना डेटा दोबारा जांच लें!
एबी एबी

एक बात पर विचार करें कि हम क्या मूल्यांकन या सत्यापन कर रहे हैं? यह हो सकता है कि हमारे पास सभी जानकारी का उपयोग न करें (या तो पहले या संभावना में)। जाँच फिट मॉडल इस सवाल का जवाब देने में मदद कर सकता है।
probabilityislogic

जवाबों:


5

यदि हम "एक सच्चे मॉडल" और "सच्चे पुजारी" का उपयोग करते हैं, तो कुछ उचित पूर्व सूचना पर कब्जा कर लिया गया है, तो जहाँ तक मुझे पता है कि एक बायेसियन वास्तव में एक समस्या से ग्रस्त नहीं है और बहुत कम डेटा दिए जाने वाले पूर्ववर्ती भविष्य कहनेवाला वितरण उपयुक्त अनिश्चित होगा । हालाँकि, अगर हम किसी प्रकार का व्यावहारिक रूप से चुने हुए मॉडल का उपयोग करते हैं (अर्थात हमने तय किया है कि समय के साथ खतरे की दर स्थिर है और एक घातांक मॉडल उपयुक्त है या उदाहरण के लिए, कुछ सहसंयोजक मॉडल में नहीं है = कुछ शून्य के पूर्व बिंदु) डिफ़ॉल्ट uninformative या नियमित करने वाले पुजारी, तो हम वास्तव में नहीं जानते कि क्या यह अभी भी लागू होता है। उस मामले में (हाइपर) पुजारियों की पसंद में कुछ मनमानी है जो नमूना भविष्यवाणियों में से अच्छा हो सकता है या नहीं।

इस प्रकार, यह सवाल पूछने के लिए बहुत उचित है कि क्या चुने हुए संभावना के साथ संयोजन में हाइपरपरमीटर विकल्प (= हाइपरप्रिअर्स के पैरामीटर) अच्छा प्रदर्शन करेंगे। वास्तव में, आप आसानी से तय कर सकते हैं कि कुछ वांछित भविष्यवाणी प्रदर्शन प्राप्त करने के लिए अपने हाइपरपैरामीटर को ट्यून करना एक अच्छा विचार है। उस परिप्रेक्ष्य से हाइपरपरमेटर्स को ट्यून करने के लिए एक वैलिडेशन सेट (या क्रॉस-वैलिडेशन) और परफॉरमेंस की पुष्टि करने के लिए सेट टेस्ट।

मुझे लगता है कि यह उनके ब्लॉग पर एंड्रयू जेलमैन की कई चर्चाओं से संबंधित है (उदाहरण के लिए ब्लॉग प्रविष्टि 1 , ब्लॉग प्रविष्टि 2 , स्टेन के लिए एलओयू पर ब्लॉग प्रविष्टि 3 और पूर्ववर्ती भविष्यवाणिय जाँचों पर डिस्कस), जहाँ वह अपनी चिंताओं के बारे में चर्चा करता है। (कुछ अर्थों में सही) का दावा है कि एक बायेसियन को यह नहीं जांचना चाहिए कि उनका मॉडल समझ में आता है या व्यावहारिक बायेसियन मॉडल मूल्यांकन के बारे में।

बेशक, हम बहुत बार सेटिंग्स में बायेसियन विधियों का उपयोग करने में सबसे अधिक रुचि रखते हैं, जहां थोड़ी पूर्व जानकारी होती है और हम कुछ जानकारीपूर्ण पुजारियों का उपयोग करना चाहते हैं। उस बिंदु पर परीक्षण सेट पर सत्यापन और मूल्यांकन के साथ कहीं भी प्राप्त करने के लिए पर्याप्त डेटा होना मुश्किल हो सकता है।


2

इसलिए मैंने इस सवाल का जवाब दिया कि आप संदर्भ दें और मैंने वीडियो देखा और ब्लॉग पोस्ट को पढ़ा। रेडफोर्ड नील यह नहीं कह रहा है कि बायेसियन मॉडल ओवरफिट नहीं करते हैं। हमें याद रखें कि ओवरफिटिंग शोर की घटना को संकेत के रूप में माना जाता है और पैरामीटर अनुमान में लगाया जाता है। यह मॉडल चयन त्रुटि का एकमात्र स्रोत नहीं है। नील की चर्चा हालांकि व्यापक है एक छोटे से नमूने के आकार में विचार करके उन्होंने ओवरफिटिंग की चर्चा में भाग लिया।

मुझे अपनी पूर्व पोस्टिंग को आंशिक रूप से संशोधित करने की अनुमति दें कि बायेसियन मॉडल सभी बायेसियन मॉडल को ओवरफिट से ओवरफिट कर सकते हैं, लेकिन ऐसा एक तरह से करें जिससे भविष्यवाणी में सुधार हो। फिर से, शोर के साथ भ्रमित करने वाले संकेत की परिभाषा पर वापस जाना, बायेसियन विधियों में अनिश्चितता, पश्च वितरण, उस अनिश्चितता का परिमाणीकरण है कि सिग्नल क्या है और शोर क्या है। ऐसा करने में, बेयसियन तरीके सिग्नल के अनुमानों में शोर को लागू कर रहे हैं क्योंकि पूरे पोस्टीरियर का उपयोग अनुमान और भविष्यवाणी में किया जाता है। ओवरसाइटिंग और मॉडल वर्गीकरण त्रुटि के अन्य स्रोत बेयसियन विधियों में एक अलग प्रकार की समस्या है।

सरल बनाने के लिए, आइए हम मा की बात की संरचना को अपनाते हैं और रेखीय प्रतिगमन पर ध्यान केंद्रित करते हैं और गहन शिक्षण चर्चा से बचते हैं क्योंकि, जैसा कि वह बताते हैं, जिन वैकल्पिक तरीकों का वह उल्लेख करते हैं वे केवल कार्यों की रचनाएं हैं और रैखिक के तर्क के बीच सीधा संबंध है प्रतिगमन और गहन शिक्षा।

निम्नलिखित संभावित मॉडल पर विचार करेंदो आकार का एक व्यापक नमूना बनाने की सुविधा देता है , , जहाँ प्रशिक्षण सेट है और सत्यापन सेट है। हम देखेंगे कि क्यों, कुछ कैविट्स के अधीन, बायेसियन विधियों को एक अलग प्रशिक्षण और सत्यापन सेट की आवश्यकता नहीं है।

y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2

इस चर्चा के लिए, हमें प्रत्येक मॉडल के लिए आठ और पैरामीटर बनाने की आवश्यकता है। वे । वे एक बहुराष्ट्रीय वितरण का पालन करते हैं और प्रतिगमन गुणांक के रूप में उचित पुजारी होते हैं। आठ मॉडल और m18

y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.

अब हमें बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के मातम में जाने की आवश्यकता है। प्रशिक्षण सेट में, फ़्रीक्वेंटिस्ट विधियों का उपयोग करने वाला मॉडल सिर्फ एक मॉडल चुनता है। बायेसियन विधियों का उपयोग करने वाला मॉडल इतना प्रतिबंधित नहीं है। हालांकि बायेसियन मॉडलर सिर्फ एक मॉडल खोजने के लिए एक मॉडल चयन मानदंड का उपयोग कर सकता है, वे मॉडल औसत का उपयोग करने के लिए भी स्वतंत्र हैं। बायेसियन मॉडलर सत्यापन खंड में मिडस्ट्रीम में चयनित मॉडल को बदलने के लिए स्वतंत्र है। मोरेसो, बायेसियन विधियों का उपयोग करने वाला मॉडल मिश्रण और चयन और औसत के बीच मेल कर सकता है।n1,

एक वास्तविक दुनिया का उदाहरण देने के लिए, मैंने दिवालियापन के 78 मॉडल का परीक्षण किया। 78 मॉडलों में से, उनमें से 76 की संयुक्त बाद की संभावना एक प्रतिशत के दस-हजारवें हिस्से के बारे में थी। अन्य दो मॉडल क्रमशः 54 प्रतिशत और 46 प्रतिशत थे। सौभाग्य से, उन्होंने भी कोई चर साझा नहीं किया। इसने मुझे दोनों मॉडलों का चयन करने और अन्य 76 को नजरअंदाज करने की अनुमति दी। जब मेरे पास दोनों के लिए सभी डेटा बिंदु थे, तो मैंने दो मॉडल के पीछे की संभावनाओं के आधार पर उनकी भविष्यवाणियों को औसतन किया, केवल एक मॉडल का उपयोग करते हुए जब मेरे पास डेटा बिंदु गायब थे अन्य। जबकि मेरे पास एक प्रशिक्षण सेट और सत्यापन सेट था, यह उसी कारण से नहीं था जैसा कि एक फ़्रीडेंटिस्ट उनके पास होगा। इसके अलावा, दो व्यावसायिक चक्रों पर हर दिन के अंत में, मैंने प्रत्येक दिन के डेटा के साथ अपने पोस्टएयर को अपडेट किया। इसका मतलब यह था कि सत्यापन सेट के अंत में मेरा मॉडल प्रशिक्षण सेट के अंत में मॉडल नहीं था। बायसियन मॉडल सीखना बंद नहीं करते हैं जबकि फ़्रीक्वेंटिस्ट मॉडल करते हैं।

गहराई तक जाने के लिए हमें अपने मॉडल के साथ ठोस होना चाहिए। आइए मान लें कि प्रशिक्षण के नमूने के दौरान मॉडल के चयन के लिए सबसे अच्छा फिट फ़्रीक्वेंटिस्ट मॉडल और बायेसियन मॉडल का मिलान किया गया है या, वैकल्पिक रूप से, मॉडल औसत में मॉडल का वजन इतना महान था कि यह फ़्रीक्वेंटिस्ट मॉडल के लिए लगभग अप्रभेद्य था। हम इस मॉडल की कल्पना करेंगे कि चलिए यह भी कल्पना करते हैं कि प्रकृति का असली मॉडल

y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.

अब आइए सत्यापन सेट में अंतर पर विचार करें। फ़्रीक्वेंटिस्ट मॉडल को डेटा से ओवरफिट किया जाता है। मान हैं कि कुछ बिंदु कि मॉडल चयन या सत्यापन प्रक्रिया ने चयन को प्रकृति में वास्तविक मॉडल में बदल दिया था। इसके अलावा, यदि मॉडल औसत का उपयोग किया गया था, तो प्रकृति में सच्चे मॉडल ने मॉडल की पसंद स्पष्ट होने से बहुत पहले भविष्यवाणी में वजन किया था। ईटी जेनेस ने संभावना के सिद्धांत पर अपने ठुमके में कुछ समय इस मुद्दे पर चर्चा करने में बिताया। मेरे पास काम पर किताब है, इसलिए मैं आपको एक अच्छा उद्धरण नहीं दे सकता, लेकिन आपको इसे पढ़ना चाहिए। इसका आईएसबीएन 978-0521592710 है।n2i

मॉडल बायेसियन सोच में पैरामीटर हैं और जैसे कि यादृच्छिक हैं, या यदि आप पसंद करेंगे, तो अनिश्चित। सत्यापन प्रक्रिया के दौरान यह अनिश्चितता समाप्त नहीं होती है। यह लगातार अद्यतन किया जाता है।

बायेसियन और फ़्रीक्वेंटिस्ट विधियों के बीच अंतर के कारण, अन्य प्रकार के मामले हैं जिन पर भी विचार किया जाना चाहिए। पहला पैरामीटर अनुमान से आता है, दूसरा औपचारिक भविष्यवाणियों से। बायेसियन विधियों में वे समान नहीं हैं। बायेसियन तरीके औपचारिक रूप से अनुमान और निर्णय लेने को अलग करते हैं। वे पैरामीटर अनुमान और भविष्यवाणी को भी अलग करते हैं।

आइए कल्पना करें, सामान्यता के नुकसान के बिना, कि एक मॉडल सफल होगा अगर और अन्यथा विफलता। हम अन्य मापदंडों को अनदेखा करने जा रहे हैं क्योंकि यह एक सरल विचार पर प्राप्त करने के लिए बहुत सारे अतिरिक्त काम होंगे। बायेसियन विधियों का उपयोग करने वाले मॉडलर के लिए, यह एक बहुत ही अलग प्रकार का प्रश्न है, जो कि आवृत्तिवादी विधियों का उपयोग करने वाले के लिए है।σ2^<k

फ़्रीक्वेंटिस्ट के लिए प्रशिक्षण सेट के आधार पर एक परिकल्पना परीक्षण का गठन किया जाता है। नमूना बनानेवाला frequentist तरीकों का उपयोग कर का परीक्षण करेगा कि क्या अनुमान विचरण से अधिक या बराबर है और नमूना जिसका आकार है से अधिक रिक्त अस्वीकार करने का प्रयास में खोज की उन लोगों के लिए मानकों को तय करने से ।kn2n1

नमूना बनानेवाला बायेसियन तरीकों का उपयोग कर के लिए, वे नमूना से दौरान पैरामीटर अनुमान फार्म होगा और के पीछे घनत्व नमूने के लिए पहले बन जाएगा । गुण मानते हैं, तो यह आश्वासन दिया जाता है कि संयुक्त नमूने से बने प्रायिकता अनुमान के शब्द के पीछे का अनुमान सभी इंद्रियों में समान है। उन्हें दो नमूनों में विभाजित करना गणित के बल के बराबर है, उन्हें विभाजित नहीं करना।n1n1n2n2

भविष्यवाणियों के लिए, एक समान मुद्दा रखता है। बायेसियन विधियों में एक पूर्वानुमानात्मक वितरण होता है जिसे प्रत्येक अवलोकन के साथ भी अपडेट किया जाता है, जबकि फ़्रीक्वेंटिस्ट एक नमूना के अंत में जमे हुए । भविष्य कहनेवाला घनत्व को रूप में लिखा जा सकता है । यदि भविष्यवाणी है और नमूना है, तो वे पैरामीटर कहाँ हैं, जिन्हें हमn1Pr(x~=k|X)x~Xθ? हालांकि फ़्रीक्वेंटिस्ट भविष्यवाणी प्रणाली मौजूद है, ज्यादातर लोग केवल बिंदु अनुमानों को सही मापदंडों के रूप में मानते हैं और अवशिष्टों की गणना करते हैं। बायेसियन विधियां केवल एक एकल बिंदु के बजाय अनुमानित घनत्व के खिलाफ प्रत्येक भविष्यवाणी का स्कोर करेगी। ये भविष्यवाणियां उन मापदंडों पर निर्भर नहीं करती हैं, जो फ़्रीक्वेंटिस्ट समाधानों में उपयोग किए जाने वाले बिंदु तरीकों से अलग हैं।

एक साइड नोट के रूप में, औपचारिक फ़्रीक्वेनिस्ट भविष्यवक्ता घनत्व मानक त्रुटियों का उपयोग करते हैं, और उन पर स्कोरिंग किया जा सकता है, लेकिन व्यवहार में यह दुर्लभ है। यदि कोई विशिष्ट पूर्व ज्ञान नहीं है, तो डेटा बिंदुओं के समान सेट के लिए पूर्वानुमान के दो सेट समान होने चाहिए। वे अलग-अलग समाप्त हो जाएंगे क्योंकि और इसलिए बायेसियन समाधान अधिक जानकारी प्रदान करेगा।n1+n2>n1

यदि कोई सामग्री पूर्व सूचना नहीं है और अगर पॉइंट अनुमानों के बजाय फ़्रीक्वेंटिस्ट प्रेडिक्टिव डेन्सिटीज़ का उपयोग किया जाता है, तो एक निश्चित नमूने के लिए बायसियन और फ़्रीक्वेंटिस्ट विधियों के परिणाम समान होंगे यदि एकल मॉडल चुना जाता है। यदि पूर्व सूचना है, तो बेयसियन पद्धति अधिक सटीक भविष्यवाणियां उत्पन्न करेगी। व्यवहार में यह अंतर बहुत बड़ा हो सकता है। इसके अलावा, यदि मॉडल औसत है, तो यह काफी संभावना है कि बायेसियन विधि अधिक मजबूत होगी। यदि आप मॉडल चयन का उपयोग करते हैं और बेसेसियन भविष्यवाणियों को फ्रीज करते हैं, तो फ़्रीक्वेंटिस्ट मॉडल का उपयोग करके फ़्रीक्वेंटिस्ट भविष्यवाणियों का उपयोग करने के लिए कोई अंतर नहीं है।

मैंने एक परीक्षण और सत्यापन सेट का उपयोग किया क्योंकि मेरा डेटा विनिमेय नहीं था। नतीजतन, मुझे दो समस्याओं को हल करने की आवश्यकता थी। पहला MCMC विधियों में बर्न-इन के समान है। मुझे अपना परीक्षण अनुक्रम शुरू करने के लिए पैरामीटर अनुमानों के एक अच्छे सेट की आवश्यकता थी, और इसलिए मैंने अपना सत्यापन परीक्षण शुरू करने के लिए एक अच्छा पूर्व घनत्व प्राप्त करने के लिए पचास साल के पूर्व डेटा का उपयोग किया। दूसरी समस्या यह थी कि मुझे परीक्षण के लिए मानकीकृत अवधि के कुछ रूप की आवश्यकता थी ताकि परीक्षण पर सवाल न उठाया जाए। मैंने NBER द्वारा दिनांकित दो पूर्व व्यावसायिक चक्रों का उपयोग किया।


लेकिन फिर, यह कहें कि आपने "बिना सूचना के" पुजारियों के साथ रैखिक प्रतिगमन मॉडल के लिए एक एमएपी का अनुमान लगाया था। यह मॉडल के लिए अधिकतम संभावना अनुमान प्राप्त करने के बराबर होगा, इसलिए एमएल को विनिमेयता मानकर या तो परीक्षण सेट की आवश्यकता नहीं है?
टिम

"ओवरफिटिंग शोर की घटना को संकेत के रूप में माना जाता है और पैरामीटर अनुमान में लगाया जाता है" मेरा मानना ​​है कि यह परिभाषा नशे की लत शोर मॉडल के लिए विशिष्ट है। अन्यथा ओवरफिटिंग बनाम अंडरफिटिंग इतनी अच्छी तरह से परिभाषित नहीं है।
कागदस ओजेंक

@CagdasOzgenc धन्यवाद क्या आपके पास सुझाए गए संपादन हैं?
डेव हैरिस

@ मुझे कभी भी MAP अनुमानक का उल्लेख नहीं मिला। यदि आप MAP आकलनकर्ता को समस्या कम करते हैं तो आप मजबूती का समर्पण करते हैं। एमएपी अनुमानक वह बिंदु है जो एक घनत्व पर लागत कार्य को कम करता है। यह अनुमानों के लिए समस्याग्रस्त हो सकता है यदि घनत्व में पर्याप्त सांख्यिकीय का अभाव है। एमएपी अनुमानक, आंतरिक रूप से, जानकारी खो देगा। यदि आप एमएपी अनुमानक का उपयोग कर रहे थे, जो मूल प्रश्न में नहीं है और स्पष्ट रूप से मा की प्रस्तुति का हिस्सा नहीं है, तो आप अपने लिए अलग तरह की समस्याएं पैदा करते हैं।
डेव हैरिस

@ टीएमएपी अनुमानक बायेसियन निर्णय सिद्धांत से आता है और यह बायेसियन अनुमान और अनुमान के शीर्ष पर एक उपरिशायी है। एमएपी सुविधाजनक है। सुविधा का चयन करते समय भुगतान किया जाना है। जब तक ऑल-ऑर-नथिंग कॉस्ट फंक्शन आपका सच्चा कॉस्ट फंक्शन है, आप सूचना और सटीकता दोनों को सरेंडर कर रहे हैं। मा की प्रस्तुति में प्रस्तावित की तुलना में आप विभिन्न पद्धतिगत मुद्दों को भी समाप्त करते हैं।
डेव हैरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.