क्या यह सच है कि बायेसियन तरीके अधिक नहीं हैं?

25

क्या यह सच है कि बायेसियन तरीके अधिक नहीं हैं? (मैंने यह दावा करते कुछ पेपर और ट्यूटोरियल देखे)

उदाहरण के लिए, यदि हम एमएनआईएसटी (हस्तलिखित अंक वर्गीकरण) के लिए एक गौसियन प्रक्रिया लागू करते हैं, लेकिन केवल इसे एक एकल नमूना दिखाते हैं, तो क्या यह उस एकल नमूने से भिन्न किसी भी इनपुट के लिए पूर्व वितरण में वापस आएगा, हालांकि छोटा अंतर है?

— MaxB
स्रोत

बस सोच रहा था - क्या कोई गणितीय सटीक तरीका है जिसे आप "ओवर फिटिंग" परिभाषित कर सकते हैं? यदि आप कर सकते हैं, तो यह संभावना है कि आप इसकी संभावना से बचने के लिए एक संभावना समारोह या पूर्व में सुविधाओं का निर्माण कर सकते हैं। मेरी सोच यह है कि यह धारणा "आउटलेर्स" के समान है।

— संभाव्यता

25

नहीं यह सत्य नहीं है। बायेसियन तरीके निश्चित रूप से डेटा को ओवरफिट करेंगे। कुछ चीजें हैं जो बेयसियन तरीकों को ओवरफिटिंग के खिलाफ अधिक मजबूत बनाती हैं और आप उन्हें अधिक नाजुक भी बना सकते हैं।

द्विआधारी परिकल्पनाओं के बजाय बायेसियन परिकल्पनाओं की जुझारू प्रकृति, कई तुलनाओं की अनुमति देती है जब किसी के पास अशक्त परिकल्पना विधियों के लिए "सही" मॉडल का अभाव होता है। एक बायेसियन पोस्टीरियर मॉडल की संरचना में वृद्धि को प्रभावी ढंग से दंडित करता है जैसे कि फिट में सुधार को पुरस्कृत करते हुए चर जोड़ना। दंड और लाभ के अनुकूलन नहीं हैं क्योंकि गैर-बायेसियन तरीकों में मामला होगा, लेकिन नई जानकारी से संभावनाओं में बदलाव।

हालांकि यह आम तौर पर अधिक मजबूत कार्यप्रणाली देता है, एक महत्वपूर्ण बाधा है और यह उचित पूर्व वितरण का उपयोग कर रहा है। जबकि फ्लैट पुजारियों का उपयोग करके फ्रीक्वेंटिस्ट तरीकों की नकल करना चाहते हैं, यह उचित समाधान का आश्वासन नहीं देता है। बायेसियन विधियों में ओवरफिटिंग पर लेख हैं और यह मुझे प्रतीत होता है कि पाप कड़ाई से फ्लैट पुजारियों के साथ शुरू करके गैर-बायेसियन तरीकों के लिए "निष्पक्ष" होने की कोशिश में लगता है। कठिनाई यह है कि पूर्व संभावना को सामान्य बनाने में महत्वपूर्ण है।

बायसियन मॉडल शब्द के वाल्ड की स्वीकार्यता के अर्थ में आंतरिक रूप से इष्टतम मॉडल हैं, लेकिन वहां एक छिपा हुआ बोगीमैन है। वाल्ड पूर्व मान रहा है कि आपका पूर्व सच है और कुछ पूर्व आप उपयोग नहीं कर रहे हैं ताकि संपादक आपको इसमें बहुत अधिक जानकारी डालने के लिए डिंग न करें। वे समान अर्थों में इष्टतम नहीं हैं कि फ़्रीक्वेंटिस्ट मॉडल हैं। बार-बार किए गए तरीके निष्पक्ष रहने के दौरान विचरण को कम करने के अनुकूलन के साथ शुरू होते हैं।

यह एक महंगा अनुकूलन है, जिसमें यह जानकारी का खुलासा करता है और वाल्ड अर्थों में आंतरिक रूप से स्वीकार्य नहीं है, हालांकि यह अक्सर स्वीकार्य है। तो फ़्रीक्वेंटिस्ट मॉडल निष्पक्षता को देखते हुए डेटा को एक इष्टतम फिट प्रदान करते हैं। बायेसियन मॉडल न तो निष्पक्ष हैं और न ही डेटा के अनुकूल हैं। यह वह व्यापार है जिसे आप ओवरफिटिंग को कम करने के लिए कर रहे हैं।

बायेसियन मॉडल आंतरिक रूप से पक्षपाती मॉडल होते हैं, जब तक कि उन्हें निष्पक्ष बनाने के लिए विशेष कदम नहीं उठाए जाते हैं, जो आमतौर पर डेटा के लिए एक बेहतर फिट होते हैं। उनकी खूबी यह है कि वे "सच्चे मॉडल" को खोजने के लिए एक वैकल्पिक विधि की तुलना में कभी भी कम जानकारी का उपयोग नहीं करते हैं और यह अतिरिक्त जानकारी बेयसियन मॉडल को वैकल्पिक मॉडल की तुलना में कभी कम जोखिम भरा नहीं बनाती है, खासकर जब नमूना से बाहर काम करना। उस ने कहा, वहाँ हमेशा एक नमूना मौजूद होगा जो बेतरतीब ढंग से खींचा जा सकता था जो कि बायेसियन पद्धति को व्यवस्थित रूप से "धोखा" देगा।

आपके प्रश्न के दूसरे भाग के रूप में, यदि आप किसी एक नमूने का विश्लेषण करना चाहते हैं, तो पीछे वाला हमेशा के लिए अपने सभी भागों में बदल जाएगा और जब तक कि दूसरा नमूना नहीं हो जाता है, तब तक वह पूर्व में वापस नहीं आएगा। पहला नमूना। कम से कम सैद्धांतिक रूप से यह सच है। व्यवहार में, यदि पूर्व पर्याप्त रूप से जानकारीपूर्ण है और अवलोकन पर्याप्त रूप से एकरूप है, तो प्रभाव इतना छोटा हो सकता है कि एक कंप्यूटर महत्वपूर्ण अंकों की संख्या पर सीमा के कारण मतभेदों को माप नहीं सकता है। एक प्रभाव के लिए यह संभव है कि एक कंप्यूटर के लिए पीछे के बदलाव को संसाधित करने के लिए बहुत छोटा हो।

तो इसका उत्तर है "हाँ" आप बेसेनियन पद्धति का उपयोग करके एक नमूने को ओवरफिट कर सकते हैं, खासकर यदि आपके पास एक छोटा नमूना आकार और अनुचित पुजारी हैं। दूसरा जवाब "नहीं" है बेयस प्रमेय कभी भी पूर्व डेटा के प्रभाव को नहीं भूलता है, हालांकि प्रभाव इतना छोटा हो सकता है कि आप इसे कम्प्यूटेशनल रूप से याद करते हैं।

— दवे हैरिस
स्रोत

2

में वे निष्पक्ष रहते हुए विचरण को न्यूनतम करने के अनुकूलन के साथ शुरू करते हैं। , क्या है वे ?

— रिचर्ड हार्डी

N (θ, σ^{2})

$N(\theta, \sigma^2)$

σ

$\sigma$

1

σ

$\sigma$

11

कुछ के बारे में पता है कि व्यावहारिक रूप से हर जगह की तरह, बायेसियन तरीकों में एक महत्वपूर्ण समस्या मॉडल गलतकरण हो सकती है।

यह एक स्पष्ट बिंदु है, लेकिन मुझे लगा कि मैं अभी भी एक कहानी साझा करूंगा।

अंडरग्राउंड में पीछे से एक विगनेट ...

बेयसियन कण फ़िल्टरिंग का एक क्लासिक अनुप्रयोग रोबोट के स्थान को ट्रैक करना है क्योंकि यह एक कमरे में घूमता है। आंदोलन अनिश्चितता का विस्तार करता है जबकि सेंसर रीडिंग अनिश्चितता को कम करते हैं।

मुझे याद है कि ऐसा करने के लिए कुछ दिनचर्या को कोड करना। मैंने एक समझदार, सैद्धांतिक रूप से प्रेरित मॉडल को लिखा, जिसमें विभिन्न सोनार रीडिंग को सही मान दिए जाने की संभावना थी। सब कुछ ठीक से व्युत्पन्न और खूबसूरती से कोडित किया गया था। फिर मैं इसका परीक्षण करने जाता हूं ...

क्या हुआ? पूर्ण रूप से विफल होना! क्यूं कर? मेरे कण फिल्टर ने तेजी से सोचा कि सेंसर रीडिंग ने लगभग सभी अनिश्चितता को समाप्त कर दिया है। मेरा बिंदु बादल एक बिंदु पर ढह गया, लेकिन मेरा रोबोट उस बिंदु पर जरूरी नहीं था!

मूल रूप से, मेरी संभावना खराब थी; मेरे सेंसर रीडिंग उतने ज्ञानवर्धक नहीं थे जितना मैंने सोचा था कि वे थे। मैं ओवरफिट कर रहा था। एक तरकीब? मैंने एक और अधिक गाऊसी शोर (बल्कि एक तदर्थ फैशन में) को मिलाया, इस बिंदु को ढहना बंद हो गया, और फिर फ़िल्टरिंग ने खूबसूरती से काम किया।

नैतिक?

जैसा कि बॉक्स ने कहा, "सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।" लगभग निश्चित रूप से, आपके पास वास्तविक संभावना फ़ंक्शन नहीं होगा, और यदि यह पर्याप्त रूप से बंद है, तो आपका बायेसियन विधि बुरी तरह से भड़क सकती है और ओवरफिट हो सकती है।

एक पूर्व जोड़ना जादुई रूप से उन समस्याओं को हल नहीं करता है, जो मानती हैं कि जब वे नहीं होते हैं तो IID होते हैं, इसकी संभावना से अधिक वक्रता होती है।

— मैथ्यू गुन
स्रोत

3

"अंडरग्राउंड में पीछे से एक विगनेट ... बायेसियन कण फ़िल्टरिंग का एक क्लासिक अनुप्रयोग एक रोबोट के स्थान को ट्रैक करने के लिए है क्योंकि यह एक कमरे में घूमता है" ... वाह, आपका अंडरग्राउंड कहां था? :)

— क्लिफ एबी