डेटा को पादरियों को निर्देशित करने की अनुमति दें और फिर इन पादरियों का उपयोग करके मॉडल चलाएं? (उदाहरण के लिए, एक ही डेटा सेट से डेटा-संचालित पादरी)


9

यह मेरी समझ है कि हमें उसी डेटा सेट की अनुमति नहीं दी जानी चाहिए जिसे हम ड्राइव करने / परिभाषित करने के लिए विश्लेषण कर रहे हैं कि बायेसियन विश्लेषण में पूर्व वितरण क्या दिखते हैं। विशेष रूप से, यह उसी डेटा सेट से सारांश आंकड़ों के आधार पर एक बायेसियन विश्लेषण के लिए पूर्व वितरण को परिभाषित करने के लिए अनुचित है जिसे आप मॉडल को फिट करने में मदद करने के लिए पुजारियों का उपयोग करने जा रहे हैं।

क्या किसी को संसाधनों के बारे में पता है जो विशेष रूप से अनुचित होने पर चर्चा करते हैं? मुझे इस मुद्दे के लिए कुछ उद्धरणों की आवश्यकता है।


संबंधित:
व्हाट

जवाबों:


11

हां यह अनुचित है क्योंकि यह एक ही डेटा का दो बार उपयोग करता है, जिसके कारण गलत परिणाम सामने आते हैं। इसे 'डबल डिपिंग' के रूप में जाना जाता है।

संदर्भ के लिए, मैं कार्लिन और लुई (2000) के साथ शुरू करूंगा। हालांकि 'डबल डिपिंग' एम्पिरिकल बेयस के प्राथमिक समालोचना में से एक है, चौ। 3, विशेष रूप से खंड 3.5 में, इस पुस्तक में ईबी दृष्टिकोण का उपयोग करके उचित आत्मविश्वास अंतराल का अनुमान लगाने के तरीके का वर्णन किया गया है।

बर्जर जे (2006)। \ "द केस फॉर ऑब्जेक्टिव बेयसियन एनालिसिस।" बायेसियन एनालिसिस, 1 (3), 385 {402

ब्रैडली पी। कार्लिन, थॉमस ए। लुईस 2000. डेटा विश्लेषण के लिए बेय और एम्पिरिकल बेयस तरीके।

डारनीडे, डब्लूएफ 2011. बायेसियन मेथड्स फॉर डेटा-डिपेंडेंट प्राइज़। एमएस थीसिस, ओहियो स्टेट यूनीव।

जेलमैन, ए।, कार्लिन, जेबी, स्टर्न, एचएस, और रूबिन, डीबी (2003), बायेसियन डेटा एनालिसिस- ysis, दूसरा संस्करण (सांख्यिकीय विज्ञान में चैपमैन एंड हॉल / सीआरसी टेक्स), चैप- मैन और हॉल / सीआरसी, 2 डी ईडी।


@sarah कृपया अपना खाता पंजीकृत करें ताकि आप अपने प्रश्न को पुनः प्राप्त कर सकें। बस इस url पर जाएँ: आंकड़े.stackexchange.com/users/login

1

हालांकि पूर्व के निर्माण के लिए डेटा का उपयोग करना समझ में आता है।

मिश्रण मॉडलिंग में एक उदाहरण के लिए, रिचर्डसन एंड ग्रीन (1997) देखें: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

वे पूर्व के लिए हाइपरपरमेटर्स के रूप में माध्य और डेटा बिंदुओं की श्रेणी का उपयोग करते हैं और यह सही अर्थ बनाता है।

डेटा का उपयोग करने की समस्या दो बार होती है, जब मेरी राय में डेटा से एक सूचनात्मक पूर्व प्राप्त होता है।

जब तक आप यह जांचते हैं कि आपका पूर्व वितरण "फ्लैट" है जहां पीछे का वितरण चरम पर है, तो आप जानते हैं कि आपके पूर्व वितरण का परिणामों पर मजबूत प्रभाव नहीं है।


बायेसियन प्रतिमान के भीतर पूर्व का निर्माण करने के लिए डेटा का उपयोग नहीं किया जा सकता है। तो यह एक बायेसियन दृष्टिकोण से समझ में नहीं आता है और बायेसियन प्रक्रियाओं का सामान्य सत्यापन लागू नहीं होता है। परिणामस्वरूप निष्कर्ष पूरी तरह से मान्य हो सकता है लेकिन किसी को पहले सिद्धांतों से प्रदर्शित करना होगा। (रिचर्डसन और ग्रीन जो अनुभवजन्य बेस कहलाते हैं उनका उपयोग करते हैं। जो कि बायेसियन प्रक्रिया नहीं है।)
शीआन

हालांकि यह द्विअर्थी प्रतिमान के भीतर समझ में नहीं आता है, कभी-कभी डेटा क्या है और क्या पहले है के बीच विभाजन रेखा खींचने के लिए difficukt है। मेरे जवाब को देखिए। ईनटेक्स्टएक्सचेंज.com
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.