बहुत दिलचस्प सवाल है, यहाँ मेरा इस पर ले रहा है।
यह सभी एन्कोडिंग जानकारी के बारे में है, फिर बेयेशियन क्रैंक को चालू करें। यह सच होने के लिए बहुत अच्छा लगता है - लेकिन इन दोनों की तुलना में वे कठिन हैं।
मैं सवाल पूछना शुरू करता हूं
जब हम कई तुलनाओं के बारे में चिंता करते हैं तो किस जानकारी का उपयोग किया जा रहा है?
मैं कुछ के बारे में सोच सकता हूं - पहला "डेटा ड्रेजिंग" है - "सब कुछ" परीक्षण करें जब तक कि आप पर्याप्त पास / असफल न हो जाएं (मुझे लगता है कि लगभग हर आँकड़े प्रशिक्षित व्यक्ति को इस समस्या से अवगत कराया जाएगा)। आपके पास कम भयावहता भी है, लेकिन अनिवार्य रूप से एक ही "मेरे पास चलाने के लिए बहुत सारे परीक्षण हैं - निश्चित रूप से सभी सही नहीं हो सकते हैं"।
इस बारे में सोचने के बाद, एक बात जो मैंने नोटिस की वह यह है कि आप विशिष्ट परिकल्पना या विशिष्ट तुलनाओं के बारे में ज्यादा नहीं सुनते हैं। यह सब "संग्रह" के बारे में है - यह मेरी सोच को विनिमेयता की ओर प्रेरित करता है - जिस परिकल्पना की तुलना की जा रही है वह किसी न किसी तरह से "समान" है। और आप बायेशियन विश्लेषण में विनिमेयता कैसे सांकेतिक करते हैं? - हाइपर-पुजर्स, मिश्रित मॉडल, यादृच्छिक प्रभाव, आदि !!!
लेकिन विनिमेयता आपको वहां के रास्ते का ही हिस्सा बनाती है। क्या सब कुछ विनिमेय है? या क्या आपके पास "स्पार्सिटी" है - जैसे उम्मीदवारों के बड़े पूल के साथ केवल कुछ गैर-शून्य प्रतिगमन गुणांक। मिश्रित मॉडल और सामान्य रूप से वितरित यादृच्छिक प्रभाव यहां काम नहीं करते हैं। वे शोरगुल के शोर के बीच "अटक" जाते हैं और संकेतों को अछूता छोड़ देते हैं (जैसे आपके उदाहरण में locationB और locationC "true" पैरामीटर बराबर रखें, और locationA "सही" पैरामीटर को मनमाने ढंग से बड़े या छोटे सेट करें, और मानक रैखिक मिश्रित मॉडल को विफल देखें)। । लेकिन यह तय किया जा सकता है - उदाहरण के लिए "स्पाइक और स्लैब" पुजारियों या "घोड़े के जूते" के पुजारियों के साथ।
तो यह वास्तव में वर्णन करने के बारे में अधिक है कि आप किस तरह की परिकल्पना के बारे में बात कर रहे हैं और पूर्व और संभावना में परिलक्षित कई ज्ञात विशेषताएं प्राप्त कर रहे हैं। एंड्रयू जेलमैन का दृष्टिकोण केवल कई तुलनाओं के एक व्यापक वर्ग को संभालने का एक तरीका है। कम से कम वर्गों और सामान्य वितरण की तरह ज्यादातर मामलों में (लेकिन सभी नहीं) अच्छा काम करते हैं।
यह ऐसा कैसे करता है, इसके संदर्भ में, आप एक व्यक्ति के बारे में सोच सकते हैं - समूह ए और समूह बी का एक ही मतलब हो सकता है - मैंने डेटा को देखा, और साधन "करीब" हैं - इसलिए, एक बेहतर अनुमान प्राप्त करने के लिए। दोनों के लिए, मुझे डेटा को पूल करना चाहिए, क्योंकि मेरा शुरुआती विचार यही था कि उनका मतलब समान है। - यदि वे समान नहीं हैं, तो डेटा सबूत देता है कि वे "करीब" हैं, इसलिए पूलिंग "थोड़ा सा" मुझे बहुत बुरी तरह से चोट नहीं पहुंचाएगा यदि मेरी परिकल्पना गलत थी (एक ला सभी मॉडल गलत हैं, कुछ उपयोगी हैं)
ध्यान दें कि उपरोक्त सभी प्रारंभिक आधार पर "वे समान हो सकते हैं"। उसे दूर ले जाओ, और पूलिंग का कोई औचित्य नहीं है। आप शायद परीक्षणों के बारे में सोचने का एक "सामान्य वितरण" तरीका भी देख सकते हैं। "शून्य सबसे अधिक संभावना है", "यदि शून्य नहीं है, तो शून्य के करीब अगले सबसे अधिक संभावना है", "चरम मूल्यों की संभावना नहीं है"। इस विकल्प पर विचार करें:
- समूह ए और समूह बी का मतलब समान हो सकता है, लेकिन वे काफी भिन्न भी हो सकते हैं
फिर "थोड़ा सा" पूल करने का तर्क बहुत बुरा विचार है। आप कुल पूलिंग या शून्य पूलिंग को चुनना बेहतर समझते हैं। बहुत अधिक जैसे कि कौची, स्पाइक और स्लैब, स्थिति का प्रकार (शून्य के आसपास द्रव्यमान और चरम मानों के लिए बहुत सारे द्रव्यमान)
संपूर्ण कई तुलनाओं से निपटने की आवश्यकता नहीं है, क्योंकि बेयसियन दृष्टिकोण उस जानकारी को शामिल कर रहा है जो हमें पूर्व और / या संभावना में चिंता की ओर ले जाता है । एक अर्थ में यह अधिक याद दिलाना है कि आपके बारे में क्या जानकारी उपलब्ध है, और यह सुनिश्चित करें कि आपने इसे अपने विश्लेषण में शामिल किया है।