जब हम आम तौर पर अनइंफॉर्मेटिव या सब्जेक्टिव पादरियों का उपयोग करते हैं, तो व्याख्या में बेज़ियन फ्रेमवर्क कैसे बेहतर होता है?


18

यह अक्सर, तर्क दिया जाता है बायेसियन ढांचे व्याख्या में एक बड़ा लाभ यह है कि (frequentist से अधिक) है क्योंकि यह डेटा दिया एक पैरामीटर की संभावना की गणना करता है - p(θ|x) के बजाय p(x|θ) frequentist ढांचे में के रूप में । अब तक सब ठीक है।

लेकिन, पूरा समीकरण इस पर आधारित है:

p(θ|x)=p(x|θ).p(θ)p(x)

मेरे लिए 2 कारणों से थोड़ा संदिग्ध लग रहा है:

  1. कई पत्र में, आमतौर पर uninformative महंतों (वर्दी वितरण) का इस्तेमाल किया और कर रहे हैं तो बस p(θ|x)=p(x|θ) , तो Bayesians ही परिणाम मिल frequentists मिल के रूप में - तो कैसे तो बायेसियन रूपरेखा है व्याख्या में बेहतर है, जब बायेसियन पश्च और आवृत्तियों के समान वितरण होते हैं? यह सिर्फ वही परिणाम देता है।

  2. जानकारीपूर्ण महंतों का उपयोग करते समय, आप अलग-अलग परिणाम मिलता है, लेकिन बायेसियन, व्यक्तिपरक पहले से प्रभावित होता है तो पूरे p(θ|x) भी व्यक्तिपरक रंग है।

दूसरे शब्दों में, के पूरे तर्क की तुलना में व्याख्या में बेहतर होने के पी ( एक्स | θ ) एक अनुमान पर आधारित है, पी ( θ ) के 'असली' है, जो सामान्य रूप से नहीं है प्रकार है, यह सिर्फ एक है प्रारंभिक बिंदु हम किसी भी तरह एमसीएमसी को चलाने के लिए चुनते हैं, एक अनुमान है, लेकिन यह वास्तविकता का वर्णन नहीं है (यह परिभाषित नहीं किया जा सकता है कि ऐसा लगता है)।p(θ|x)p(x|θ)p(θ)

तो हम कैसे तर्क दे सकते हैं कि व्याख्या में बेहतर है?


4
(1) संदेहास्पद लग रहा है क्योंकि इसका निष्कर्ष गलत है: बेइन्फोर्मेटिव पादरियों के साथ बायसियन परिणाम जरूरी नहीं कि लगातार निष्कर्ष के समान हैं। वास्तव में, कई मामलों में ऐसा प्रतीत नहीं होता है कि "अनइनफॉर्मेटिव प्रिवेंटिव" क्या है! (2) यह भी बहस का विषय है क्योंकि यह स्पष्ट रूप से मानता है कि एक निरंतर विश्लेषण में की गई प्रत्येक धारणा व्यक्तिपरक नहीं है - लेकिन ऐसा नहीं है। अंत में, "व्याख्या में बेहतर" से आपका वास्तव में क्या मतलब है? आपका प्रश्न उस परिभाषा के बिना अस्पष्ट है।
whuber

1
मैं कहता हूँ चाहते हैं whuber की टिप्पणी के अलावा, वहाँ कोई सामान्य कारण है कि Bayes frequentist की तुलना में बेहतर तर्क है, इसलिए। कभी-कभी बेयस सार्थक परिणाम देता है और कभी-कभी लगातार बेहतर होता है। हालांकि, लागू क्षेत्र में, कोई कारण नहीं होना चाहिए कि किसी को बहुत अलग परिणाम क्यों मिलना चाहिए। एक दार्शनिक दृष्टिकोण से, बेयस निश्चित रूप से मजबूत है, लेकिन जैसा कि हम सभी जानते हैं, सिद्धांत और व्यवहार कभी-कभी भिन्न होते हैं। इसके अलावा, मैं आपके पहले पैराग्राफ के बारे में थोड़ा चिंतित हूं। यह मुझे प्रतीत होता है कि आप एक प्रतिबद्ध बायेसियन हैं (इसमें कुछ भी गलत नहीं है।)।
सनकूलू

शीर्षक नहीं होना चाहिए uninformative or *objective* priors? subjectiveमहंतों वास्तव में कर रहे हैं जानकारीपूर्ण महंतों।
javadba

जवाबों:


15

पहले से ही पोस्ट किए गए उत्कृष्ट लोगों की तुलना में अधिक संकीर्ण प्रतिक्रिया देने के लिए, और व्याख्या में लाभ पर ध्यान केंद्रित करें - जैसे, "95% विश्वसनीय अंतराल" की बायेसियन व्याख्या, यह संभावना है कि सच्चा पैरामीटर मान निहित है अंतराल 95% के बराबर है। जैसे, "95% विश्वास अंतराल" की दो सामान्य लगातार व्याख्याओं में से एक, भले ही संख्यात्मक रूप से दोनों समान हों, क्या यह लंबे समय में है, अगर हम प्रक्रिया को कई बार निष्पादित करना चाहते थे, जिसके साथ आवृत्ति अंतराल वास्तविक मूल्य को कवर करेगा और 95% तक पहुंच जाएगा। पूर्व सहज है, बाद वाला नहीं है। किसी प्रबंधक को कुछ समय के लिए समझाने की कोशिश करें कि आप यह नहीं कह सकते हैं "संभावना है कि हमारे सौर पैनल 20% से कम 25 वर्षों में 95% से कम हो जाएंगे", लेकिन इसके बजाय कहना होगा "

एक वैकल्पिक निरंतर व्याख्या होगी "डेटा उत्पन्न होने से पहले, एक 5% मौका था अंतराल मैं जिस प्रक्रिया पर मैंने गणना की है उसका उपयोग करके गणना करेगा जो कि सच्चे पैरामीटर मान से पूरी तरह से नीचे गिर जाएगा। हालांकि, अब जब हमने डेटा एकत्र किया है। हम ऐसा कोई बयान नहीं दे सकते हैं, क्योंकि हम विषयवादी नहीं हैं और संभावना 0 या 1 है, यह इस बात पर निर्भर करता है कि यह सही पैरामीटर मान से पूरी तरह से नीचे है या नहीं। " यह ऑडिटर्स की मदद करेगा और वारंटी रिज़र्व की गणना करते समय। (मैं वास्तव में इस परिभाषा को उचित मानता हूं, यद्यपि यह आमतौर पर उपयोगी नहीं है; यह सहज ज्ञान युक्त समझना आसान नहीं है, और विशेष रूप से यदि आप एक सांख्यिकीविद् नहीं हैं।)

न तो लगातार व्याख्या सहज है। बायेसियन संस्करण है। इसलिए "व्याख्या में बड़ा फायदा" बायेसियन दृष्टिकोण द्वारा आयोजित किया जाता है।


विरोधी लगातार तर्क के साथ मेरी समस्या यह है कि यह उत्तर के रूप में प्रक्रिया का वर्णन करने के लिए बहुत अधिक प्रयास करता है। व्याख्या में खुद के लिए एक ही प्रयोग करें, लेकिन परिणामों से क्या निष्कर्ष निकालना है। एक व्यक्तिवादी और एक बायेसियन द्वारा दिए गए परिणामों को सुनने के आधार पर आप बिल्कुल अलग तरह से कैसे कार्य करेंगे ? वास्तविकता में, जब आप दोनों को समझ जाते हैं, तब भी आप वही अभिनय करने वाले होते हैं। यह समझाने के लिए प्रक्रिया के स्तर पर जाने की आवश्यकता नहीं है कि "डेटा द्वारा दिए गए आत्मविश्वास के आधार पर ऐसा करने के लिए सबसे अच्छा कार्य करना है"।
पास्कलवूटेन

इसके अलावा, परिभाषा के अनुसार, आपको बायेसियन मामले में और अधिक व्याख्या करनी होगी, क्योंकि आपके पास न केवल "डेटा हमें क्या बताता है" बल्कि यह भी है कि पूर्व में क्या जानकारी है! बाइसियन एक लंबे समय तक लगातार व्याख्या करने के लिए करते हैं, लेकिन वे यह समझाने में नहीं जाते हैं कि उन्होंने पहले क्या चुना है, उन्होंने पहले क्यों चुना है और विशेष रूप से क्यों पहले।
पास्कलवीकूटेन

खैर, मैं आपके अंतिम बिंदु से आंशिक रूप से असहमत हूँ। एक उदाहरण के रूप में, जब मैं अपनी पिछली नौकरी में उपकरणों के बहुत महंगे टुकड़ों पर विश्वसनीयता विश्लेषण कर रहा था, तो हमने अपने पिछले विश्वसनीयता विश्लेषण के परिणामों को अपने नए के लिए पूर्व के रूप में माना, जो "समकक्ष नमूना आकार" के संदर्भ में घटाया गया। वास्तविक दुनिया और डिजाइन आदि में छोटे बदलावों की गैरबराबरी को ध्यान में रखें और, वास्तव में, बायेसियन आँकड़े आपके डेटा के साथ पहले से अपडेट करने के बारे में हैं; शास्त्रीय आँकड़े "अपडेट" नहीं करते हैं, इसलिए आपको केवल वही परिणाम प्राप्त होते हैं यदि आपका अपवाद कुछ अपवादों के साथ फ्लैट है।
21

मैं सिर्फ डेटासेट्स को मर्ज करके एक और विश्लेषण करूँगा ... किसी पूर्व के साथ आने की आवश्यकता नहीं है। वास्तविक पूर्व डेटा से बेहतर कोई और नहीं है: आपको "वास्तविक" डेटा-आधारित पोस्टीरियर मिलता है।
पास्कलवूटेन

ठीक है, आप अपने नए पूर्व के लिए बिल्कुल पिछले पीछे नहीं पड़ सकते हैं, क्योंकि हमारे मामले में चल रहे मामूली डिजाइन परिवर्तनों और हमारे ज्ञान के कारण एमएफजी। भविष्य के डेटा के लिए हमारे पूर्व नहीं 100% जानकारीपूर्ण बनाने के लिए भी प्रक्रिया विकसित हो रही थी। रन-टाइम विचार भी हो सकते हैं। लेकिन आपकी बात आम तौर पर एक अच्छी है, यह मुझे लगता है।
जुम्मन

13

p(θ|x)p(x|θ)p(x|θ)p(θ|x)

ध्यान दें कि जानकारीपूर्ण पुजारी आवश्यक रूप से व्यक्तिपरक नहीं होते हैं, उदाहरण के लिए, मैं इसे व्यक्तिपरक ज्ञान पर विचार करने के लिए नहीं कहूंगा कि कुछ भौतिक प्रणाली का पूर्व ज्ञान माप की इकाइयों से स्वतंत्र होना चाहिए (जैसा कि वे अनिवार्य रूप से मनमाना हैं), परिवर्तन समूहों के विचार के लिए अग्रणी और "न्यूनतम सूचनात्मक" पुजारी।

व्यक्तिपरक ज्ञान को अनदेखा करने का दूसरा पहलू यह है कि आपका सिस्टम सब-इष्टतम हो सकता है क्योंकि आप विशेषज्ञ ज्ञान की अनदेखी कर रहे हैं, इसलिए विषय-वस्तु अनिवार्य रूप से बुरी चीज नहीं है। उदाहरण के लिए, "सिक्का के पूर्वाग्रह का अनुमान लगाओ" समस्या में, अक्सर एक प्रेरक उदाहरण के रूप में उपयोग किया जाता है, आप डेटा के आते ही एक समान रूप से एक समान रूप से धीरे-धीरे सीखेंगे। लेकिन क्या पूर्वाग्रह की सभी मात्रा समान रूप से एक उचित धारणा है? नहीं, थोड़ा पक्षपाती सिक्का बनाना आसान है, या एक जो पूरी तरह से पक्षपाती (दो सिर या दो ताल) है, इसलिए यदि हम अपने विश्लेषण में उस धारणा का निर्माण करते हैं, तो एक व्यक्तिपरक पूर्व के माध्यम से, हमें यह पहचानने के लिए कम डेटा की आवश्यकता होगी कि क्या करना है। पूर्वाग्रह वास्तव में है।

फ़्रीक्वेंटिस्ट विश्लेषण में अक्सर व्यक्तिपरक तत्व शामिल होते हैं (उदाहरण के लिए शून्य परिकल्पना को अस्वीकार करने का निर्णय यदि पी-मान 0.05 से कम है, तो ऐसा करने के लिए कोई तार्किक बाध्यता नहीं है, यह केवल एक परंपरा है जो उपयोगी साबित हुई है)। बायेसियन दृष्टिकोण का लाभ यह है कि इसे निहित छोड़ने के बजाय गणना में स्पष्टता को स्पष्ट किया जाता है।

दिन के अंत में, यह "पाठ्यक्रमों के लिए घोड़ों" की बात है, आपके टूलबॉक्स में दोनों उपकरण होने चाहिए, और हाथ में कार्य के लिए सबसे अच्छा उपकरण का उपयोग करने के लिए तैयार रहें।


6

बायेसियन फ्रेमवर्क का बार-बार होने पर एक बड़ा फायदा होता है क्योंकि यह बनाने के लिए सही वितरण मान्यताओं को जानने के मामले में "क्रिस्टल बॉल" होने पर निर्भर नहीं करता है। बायेसियन विधियां आपके पास कौन सी जानकारी का उपयोग करने पर निर्भर करती हैं, और उस जानकारी को एक संभावना वितरण में सांकेतिक शब्दों में बदलना जानते हैं।

बायेसियन विधियों का उपयोग मूल रूप से अपनी पूर्ण शक्ति में प्रायिकता सिद्धांत का उपयोग कर रहा है। बेयस प्रमेय कुछ भी नहीं है, लेकिन प्रायिकता सिद्धांत के क्लासिक उत्पाद नियम की एक सीमा है:

पी(θएक्स|मैं)=पी(θ|मैं)पी(एक्स|θमैं)=पी(एक्स|मैं)पी(θ|एक्समैं)

जब तक पी(एक्स|मैं)0(अर्थात पूर्व सूचना में यह नहीं कहा गया था कि जो देखा गया था वह असंभव था) हम इसके द्वारा विभाजित कर सकते हैं, और इन्हें निष्क्रिय कर सकते हैं। मैंने उपयोग कर लिया हैमैं पूर्व सूचना को निरूपित करने के लिए, जो हमेशा मौजूद रहती है - आप बिना जानकारी के संभाव्यता वितरण को निर्दिष्ट नहीं कर सकते।

अब, अगर आपको लगता है कि बेयस प्रमेय संदिग्ध है, तो तार्किक रूप से, आपको यह भी सोचना चाहिए कि उत्पाद नियम भी संदिग्ध है। आप कॉक्स प्रमेय के समान उत्पाद और योग नियमों को प्राप्त करते हैं , जो यहां एक आगमनात्मक तर्क पा सकते हैं । आवश्यक मान्यताओं की एक और अधिक स्पष्ट सूची यहां पाई जा सकती है

जहां तक ​​मुझे पता है, लगातार तर्क एक तार्किक ढांचे के भीतर नींव के एक सेट पर आधारित नहीं है। क्योंकि यह संभाव्यता के कोलमोगोरोव स्वयंसिद्ध का उपयोग करता है, इसलिए संभावना सिद्धांत और सांख्यिकीय अनुमान के बीच कोई संबंध नहीं लगता है। बार-बार होने वाले अविश्वास के लिए कोई स्वयंसिद्ध नहीं हैं जो एक प्रक्रिया को आगे बढ़ाते हैं। सिद्धांत और विधियाँ हैं (अधिकतम संभावना, आत्मविश्वास अंतराल, पी-मान, आदि), और वे अच्छी तरह से काम करते हैं, लेकिन वे अलग-अलग होते हैं और विशेष समस्याओं के लिए विशिष्ट होते हैं। मुझे लगता है कि कट्टरपंथी विधियां अपनी नींव में सबसे अच्छी तरह से अस्पष्ट हैं, कम से कम एक सख्त तार्किक ढांचे के संदर्भ में।

बिंदु के लिए 1व्याख्या के दृष्टिकोण से, समान परिणाम प्राप्त करना कुछ हद तक अप्रासंगिक है। दो प्रक्रियाओं में एक ही परिणाम हो सकता है, लेकिन इसका मतलब यह नहीं है कि वे समकक्ष हैं। अगर मुझे सिर्फ अनुमान लगाना थाθ, और अधिकतम संभावना अनुमान (MLE) का अनुमान लगाने के लिए हुआ, इसका मतलब यह नहीं होगा कि मेरा अनुमान MLE के समान ही अच्छा है।

बिंदु के लिए 2, आपको क्यों चिंतित होना चाहिए कि विभिन्न जानकारी वाले लोग अलग-अलग निष्कर्ष पर आएंगे? गणित में पीएचडी करने वाला कोई व्यक्ति, और उच्च विद्यालय स्तर के गणित वाले किसी व्यक्ति के लिए अलग निष्कर्ष पर आना चाहिए। उनके पास अलग-अलग मात्रा में जानकारी है - हम उनसे सहमति की उम्मीद क्यों करेंगे? जब आप को ज्ञात जानकारी प्रस्तुत की जाती है, तो आप अपना मन बदल देते हैं। यह किस तरह की जानकारी पर निर्भर करता है। बेयस प्रमेय में यह विशेषता है, जैसा कि यह होना चाहिए।

पहले की तुलना में तेज होने पर बनाने के लिए एक समान पूर्व का उपयोग करना अक्सर एक सुविधाजनक सन्निकटन होता है। यह कभी-कभी प्रयास के लायक नहीं है, जिससे गुजरना और ठीक से एक पूर्व निर्धारित करना। इसी तरह, बायसी के आंकड़ों को एमसीएमसी के साथ भ्रमित करने की गलती न करें। MCMC एकीकरण के लिए सिर्फ एक एल्गोरिथ्म है, जो गेशियन क्वाड्रेट्रे के समान है, और लाप्लास सन्निकटन के समान वर्ग में। यह क्वाडरेट की तुलना में थोड़ा अधिक उपयोगी है क्योंकि आप अपने सभी इंटीग्रल्स (पीछे के साधन और संस्करण अभिन्न हैं) करने के लिए एल्गोरिदम के आउटपुट का फिर से उपयोग कर सकते हैं, और थोड़ा अधिक सामान्य है कि लाप्लास क्योंकि आपको एक बड़े नमूने की आवश्यकता नहीं है, या एक पश्च (शिखर में अच्छी तरह से गोल चोटी हालांकि तेज है)।


3

मैंने आमतौर पर "शिक्षाप्रद" प्रकार के उदाहरणों में पहले से इस्तेमाल की जाने वाली वर्दी को देखा है, या ऐसे मामलों में जो वास्तव में किसी विशेष हाइपरपैरेट के बारे में कुछ भी नहीं जानते हैं। आमतौर पर, मैं बिन बुलाए पुजारियों को देखता हूं जो इस बारे में थोड़ी जानकारी देते हैं कि समाधान क्या होगा, लेकिन जो गणितीय रूप से सांकेतिक शब्दों में बदलना है जो एक अच्छा समाधान संभवतः दिखता है। उदाहरण के लिए, एक आम तौर पर एक गाऊसी को पहले देखता है (μ=0) एक प्रतिगमन गुणांक पर रखा गया है, ज्ञान को कूटबद्ध करता है कि सभी चीजें समान हैं, हम उन समाधानों को पसंद करते हैं जिनमें गुणांक कम परिमाण है। यह एक डेटा सेट को ओवरफिट करने से बचने के लिए है, जो ऐसे समाधान खोजते हैं जो उद्देश्य फ़ंक्शन को अधिकतम करते हैं लेकिन जो हमारी समस्या के विशेष संदर्भ में कोई मतलब नहीं रखते हैं। एक अर्थ में, वे सांख्यिकीय मॉडल को किसी विशेष डोमेन के बारे में कुछ "सुराग" देने का एक तरीका प्रदान करते हैं।

हालाँकि, यह (मेरी राय में) बायेसियन पद्धति का सबसे महत्वपूर्ण पहलू नहीं है। बायेसियन विधियां जेनरेटर हैं, जिसमें वे डेटा के अस्तित्व में आने के लिए एक पूरी "कहानी" प्रदान करते हैं। इस प्रकार, वे केवल खोजकर्ता पैटर्न नहीं हैं, बल्कि वे स्थिति की पूरी वास्तविकता को हाथ में लेने में सक्षम हैं। उदाहरण के लिए, LDA (अव्यक्त डिरिचलेट आवंटन) पर विचार करें, जो एक पाठ दस्तावेज़ कैसे आता है, इसके लिए एक पूरी जनरेटिव कहानी प्रदान करता है, जो कुछ इस तरह से होता है:

  1. सह-होने वाले विशेष विषयों की संभावना के आधार पर विषयों के कुछ मिश्रण का चयन करें; तथा
  2. चयनित विषयों के आधार पर, शब्दावली के कुछ सेटों का चयन करें।

इस प्रकार, मॉडल डोमेन (यहां, पाठ दस्तावेज़) में वस्तुओं की एक बहुत विशिष्ट समझ के आधार पर फिट है और वे कैसे बने; इसलिए, हम जो जानकारी प्राप्त करते हैं, वह सीधे हमारे समस्या क्षेत्र के अनुरूप होती है (शब्दों के दिए जाने की संभावनाएं, विषयों की संभावना, साथ में वर्णित विषयों की संभावना, विषयों वाले दस्तावेजों की संभावनाएं और किस हद तक, आदि)। तथ्य यह है कि यह करने के लिए बेयस प्रमेय की आवश्यकता लगभग माध्यमिक है, इसलिए थोड़ा मजाक, "बेयस एक बायेसियन नहीं होगा, और मसीह ईसाई नहीं होगा।"

संक्षेप में, बायेसियन मॉडल संभावना वितरण के उपयोग से डोमेन ऑब्जेक्ट को कठोरता से मॉडलिंग करने के बारे में हैं; इसलिए, हम ऐसे ज्ञान को एनकोड करने में सक्षम हैं जो अन्यथा एक सरल भेदभावपूर्ण तकनीक के साथ उपलब्ध नहीं होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.