क्या मैं किसी दिए गए डेटा की वैधता का परीक्षण कर सकता हूं?


10

मुसीबत

मैं एक आर फ़ंक्शन लिख रहा हूं जो एक पूर्ववर्ती घनत्व का अनुमान लगाने के लिए एक बायेसियन विश्लेषण करता है और एक सूचित पूर्व और डेटा दिया जाता है। यदि उपयोगकर्ता को पूर्व पर पुनर्विचार करने की आवश्यकता हो तो मैं एक चेतावनी भेजना चाहूंगा।

इस प्रश्न में, मुझे यह सीखने में दिलचस्पी है कि पूर्व का मूल्यांकन कैसे किया जाए। पिछले सवालों ने सूचित पुजारियों ( यहां और यहां ) को बताते हुए यांत्रिकी को कवर किया है

निम्नलिखित मामलों की आवश्यकता हो सकती है कि पूर्व का पुनर्मूल्यांकन किया जाए:

  • डेटा एक चरम मामले का प्रतिनिधित्व करता है जिसे पूर्व बताते हुए हिसाब नहीं किया गया था
  • डेटा में त्रुटियां (जैसे यदि डेटा जी की इकाइयों में है, जब पूर्व किलो में है)
  • कोड में बग के कारण उपलब्ध पुजारियों के एक सेट से गलत पूर्व को चुना गया था

पहले मामले में, पुजारी आमतौर पर पर्याप्त विसरित होते हैं कि डेटा आम तौर पर उन्हें तब तक दबाए रखेगा जब तक कि डेटा मान एक असमर्थित सीमा में न हो (उदाहरण के लिए logN या गामा के लिए <0)। अन्य मामले बग या त्रुटियां हैं।

प्रशन

  1. क्या किसी पूर्व का मूल्यांकन करने के लिए डेटा का उपयोग करने की वैधता से संबंधित कोई समस्या है ?
  2. क्या कोई विशेष परीक्षण इस समस्या के लिए सबसे उपयुक्त है?

उदाहरण

logN(0,1)N(0,5)N(8,0.5)

नीला डेटा एक मान्य पूर्व + डेटा संयोजन हो सकता है जबकि लाल डेटा को एक पूर्व वितरण की आवश्यकता होगी जो नकारात्मक मूल्यों के लिए समर्थित है।

यहां छवि विवरण दर्ज करें

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

जवाबों:


4

आपको स्पष्ट होना चाहिए कि आपके "पूर्व" से क्या मतलब है। उदाहरण के लिए, यदि आप यूके में जीवन प्रत्याशा के बारे में मेरी पूर्व धारणा में रुचि रखते हैं, तो यह गलत नहीं हो सकता। यह मेरा विश्वास है! यह देखे गए डेटा के साथ असंगत हो सकता है, लेकिन यह पूरी तरह से एक और मामला है।

संदर्भ भी मायने रखता है। उदाहरण के लिए, मान लें कि हम किसी चीज़ की आबादी में रुचि रखते हैं। मेरा पूर्व दावा है कि यह मात्रा सख्ती से गैर-नकारात्मक होनी चाहिए। हालाँकि डेटा त्रुटि के साथ देखा गया है और हमारे पास नकारात्मक माप है। इस मामले में, पूर्व अमान्य नहीं है, यह केवल अव्यक्त प्रक्रिया के लिए पूर्व है।

आपके सवालों के जवाब देने के लिए,

  1. क्या किसी पूर्व का मूल्यांकन करने के लिए डेटा का उपयोग करने की वैधता से संबंधित कोई समस्या है?

एक शुद्धतावादी यह तर्क देगा कि आपके डेटा का दो बार उपयोग नहीं करना चाहिए। हालाँकि, व्यावहारिक व्यक्ति सिर्फ यह कहेगा कि आपने पहले के बारे में पर्याप्त नहीं सोचा था।

2 क्या कोई विशेष परीक्षण इस समस्या के लिए सबसे उपयुक्त है?

यह वास्तव में विचाराधीन मॉडल पर निर्भर करता है। मुझे लगता है कि सबसे बुनियादी आप डेटा रेंज के साथ पूर्व सीमा की तुलना कर सकते हैं।



3

यहाँ मेरे दो सेंट:

  1. मुझे लगता है कि आपको अनुपात से संबंधित पहले से अधिक चिंतित होना चाहिए।

  2. आप पहले सूचनात्मक के बारे में बात करते हैं, लेकिन मुझे लगता है कि आपको उपयोगकर्ताओं को इस बारे में चेतावनी देनी चाहिए कि एक उचित गैर-सूचनात्मक पूर्व क्या है। मेरा मतलब है, कभी-कभी शून्य माध्य और 100 विचरण के साथ एक सामान्य काफी असंगत है और कभी-कभी यह जानकारीपूर्ण होता है, उपयोग किए गए तराजू के आधार पर। उदाहरण के लिए, यदि आप ऊपर की तुलना में ऊंचाइयों (सेंटीमीटर) पर मजदूरी प्राप्त कर रहे हैं तो काफी जानकारीपूर्ण है। हालांकि, यदि आप ऊंचाइयों (मीटर) पर लॉग मजदूरी प्राप्त करते हैं, तो उपरोक्त पूर्व सूचनात्मक नहीं है।

  3. यदि आप एक पूर्व का उपयोग कर रहे हैं जो पिछले विश्लेषण से परिणाम है, अर्थात, नया पूर्व वास्तव में पिछले विश्लेषण का एक पुराना उत्तरवर्ती है, तो चीजें अलग हैं। मैं मान रहा हूं कि यह मामला नोट कर रहा है।


क्या आप कृपया बिंदु 1 को स्पष्ट कर सकते हैं? पुन: बिंदु 2, जैसा कि ओपी में उल्लेख किया गया है, मुझे इस सवाल में इतनी दिलचस्पी नहीं है कि पूर्व को कैसे निर्धारित किया जाए; बिंदु 3: सूचित पुजारियों में से कई उपलब्ध डेटा (डेटा के लिए एक उपयुक्त वितरण फिटिंग) के विश्लेषण से हैं, जबकि अन्य विशेषज्ञ ज्ञान पर आधारित हैं (ये आमतौर पर कम विवश हैं)।
डेविड लेबोर

मान लें कि आप एक मॉडल फिट कर रहे हैं जैसे: y ~ a + b * x / z। यदि Z के मानों पर कोई बाधा नहीं है (यदि वे सकारात्मक या नकारात्मक हो सकते हैं), तो यह जानना मुश्किल है कि b से संकेत के बारे में क्या उम्मीद है। इसके अलावा, अगर Z शून्य के पास हो सकता है, तो b बहुत कम या बहुत बड़ा हो सकता है। यह आपके पूर्व अनुचित बना सकता है। गेलमैन के ब्लॉग पर इस प्रविष्टि को देखें: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel

# 3: जैसा कि बताया गया है, दो बार डेटा का उपयोग करने के बारे में सावधान रहें। उदाहरण के लिए, पतले एक पदानुक्रमित मॉडल है, और एक अन्य को एक पूर्व चुनना है जो संभावना के अनुरूप है। बाद में, मैं इस तरह के विश्लेषण से चिंतित होगा। मैं एक नियमितीकरण उपकरण के रूप में पहले की पसंद को देखता हूं।
मानोएल गेल्डिनो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.