ओपी को टिप्पणियों में @whuber द्वारा उल्लेखित उद्धरण एक "तार्किक स्लीप-ऑफ-हैंड" (महान अभिव्यक्ति!) है। केवल एक चीज जिसे हम वास्तव में कह सकते हैं कि यह देखने के बाद कि सिक्के में एक सिर और एक पूंछ है, यह है कि दोनों घटनाएं "सिर" और "पूंछ" असंभव नहीं हैं। इस प्रकार हम पहले एक असततता को त्याग सकते हैं जो सभी संभावित द्रव्यमान को "सिर" या "पूंछ" पर रखता है। लेकिन इससे कोई फर्क नहीं पड़ता है, खुद से, पहले वर्दी तक: सवाल कहीं अधिक सूक्ष्म है। आइए सबसे पहले थोड़ा सा बैकग्राउंड संक्षेप में प्रस्तुत करें। हम एक सिक्के के प्रमुखों की संभाव्यता के बाइसियन बेनिज़ियन के लिए बीटा-बिनोमिनल संयुग्म मॉडल पर विचार कर रहे हैं , स्वतंत्र और पहचान के साथ वितरित (सशर्त रूप से ) सिक्का tosses।θnθp(θ|x)जब हम शीर्षों में शीर्षों का निरीक्षण करते हैं :xn
p(θ|x)=Beta(x+α,n−x+β)
हम यह कह सकते हैं कि और " एक "पूर्व संख्याओं के प्रमुख" और "पूंछों की पूर्व संख्या" की भूमिका निभाते हैं (छद्मपत्री), और को एक प्रभावी नमूना आकार के रूप में व्याख्या किया जा सकता है। हम इस अर्थ में इस अर्थ में भी आ सकते हैं कि पूर्व-मध्य और नमूना माध्य भारित औसत के रूप में ज्ञात अर्थ के लिए प्रसिद्ध अभिव्यक्ति का उपयोग करें ।αβα+βαα+βxn
को देखते हुए , हम दो कारणों से कर सकते हैं:p(θ|x)
- चूँकि हमें (अधिकतम अज्ञानता) के बारे में कोई पूर्व ज्ञान नहीं है , हम सहज रूप से प्रभावी नमूना आकार को "छोटा" होने की उम्मीद करते हैं । यदि यह बड़े थे, तो पूर्व में काफी ज्ञान शामिल होगा। इसे देखने का एक और तरीका यह है कि यदि और संबंध में और "छोटे" हैं , तो पूर्ववर्ती संभावना हमारे पूर्व पर बहुत अधिक निर्भर नहीं करेगी, क्योंकि
और । हम उम्मीद करेंगे कि एक पूर्व ज्ञान जो बहुत सारे ज्ञान को शामिल नहीं करता है, जल्दी से कुछ आंकड़ों के प्रकाश में अप्रासंगिक हो जाना चाहिए।θα+βαβxn−xx+α≈xn−x+β≈n−x
इसके अलावा, चूंकि पूर्व का मतलब है, और हमें के वितरण के बारे में कोई पूर्व ज्ञान नहीं है
, हम उम्मीद करेंगे । यह समरूपता का एक तर्क है - अगर हमें कोई बेहतर पता नहीं है, तो हम एक प्राथमिकता की उम्मीद नहीं करेंगे कि वितरण 0 या 1 की ओर तिरछा है। बीटा वितरण हैμprior=αα+βθμprior=0.5
f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα−1(1−θ)β−1
यह अभिव्यक्ति केवल आसपास सममित है अगर
।θ=0.5α=β
इन दो कारणों से, जो कुछ भी पूर्व (बीटा परिवार से संबंधित - याद रखें, संयुग्मित मॉडल!) हम उपयोग करना चुनते हैं, हम सहज रूप से यह उम्मीद करते हैं कि और "छोटा" है। हम देख सकते हैं कि बीटा-बिनोमियल मॉडल के लिए आमतौर पर इस्तेमाल किए जाने वाले सभी गैर-सूचनात्मक पुजारी इन लक्षणों को साझा करते हैं, लेकिन इसके अलावा, वे काफी अलग हैं। और यह स्पष्ट है: कोई पूर्व ज्ञान, या "अधिकतम अज्ञान", एक वैज्ञानिक परिभाषा नहीं है, इसलिए किस प्रकार के पूर्व "अधिकतम अज्ञान" को व्यक्त करता है, अर्थात, एक गैर-जानकारीपूर्ण पूर्व क्या है, यह इस बात पर निर्भर करता है कि आप वास्तव में "अधिकतम" क्या हैं। अज्ञान "।α=β=cc
हम एक पूर्व का चयन कर सकते हैं जो कहता है कि _ लिए सभी मूल्य सुगम हैं, क्योंकि हम किसी भी बेहतर को नहीं जानते हैं। फिर से, एक समरूपता का तर्क। यह मेल खाता है :θα=β=1
f(θ|1,1)=Γ(2)2Γ(1)θ0(1−θ)0=1
के लिए , यानी, वर्दी पहले Kruschke द्वारा इस्तेमाल किया। और अधिक औपचारिक रूप से, बीटा वितरण के अंतर एन्ट्रापी के लिए अभिव्यक्ति लिखकर, आप देख सकते हैं कि इसे अधिकतम किया जाता है जब
। अब, एन्ट्रॉपी को अक्सर वितरण द्वारा की गई "सूचना की मात्रा" के माप के रूप में व्याख्या की जाती है: उच्च एन्ट्रॉपी कम जानकारी से मेल खाती है। इस प्रकार, आप इस अधिकतम एन्ट्रापी सिद्धांत का उपयोग यह कहने के लिए कर सकते हैं कि, बीटा परिवार के अंदर, जिस में कम जानकारी (अधिकतम अज्ञानता) है, यह पूर्व की वर्दी है।θ∈[0,1]α=β=1
आप एक और दृष्टिकोण चुन सकते हैं, एक ओपी द्वारा उपयोग किया जाता है, और कहते हैं कि कोई भी जानकारी बिना सिर के नहीं देखी जाती है और कोई जानकारी नहीं है, अर्थात,
α=β=0⇒π(θ)∝θ−1(1−θ)−1
जिस तरह से हम इस तरीके को प्राप्त करते हैं उसे पहले हल्दाने कहा जाता है । समारोह में थोड़ी समस्या है - पर अभिन्न अनंत है, अर्थात, कोई भी चीज जो सामान्य को स्थिर करती है, वह नहीं हो सकती है। एक उचित पीडीएफ में तब्दील। दरअसल, हाल्डेन पूर्व एक उचित pmf है , जो प्रायिकता 0.5 को , 0.5 के लिए और 0 को लिए अन्य सभी मूल्यों पर संभाव्यता डालता है । हालांकि, चलो दूर नहीं किया जाता है - एक निरंतर पैरामीटर , जो पुजारी उचित पीडीएफ के अनुरूप नहीं हैं उन्हें अनुचित पुजारी कहा जाता हैθ−1(1−θ)−1I=[0,1]θ=0θ=1θθ। चूंकि, जैसा कि पहले उल्लेख किया गया है, बेयसियन इंट्रेंस के लिए सभी मामले पीछे का वितरण है, अनुचित पुजारी स्वीकार्य हैं, जब तक कि पीछे वितरण उचित है। हल्दाने से पहले के मामले में, हम यह साबित कर सकते हैं कि यदि हमारे नमूने में कम से कम एक सफलता और एक विफलता है तो पीछे का पीडीएफ उचित है। इस प्रकार हम केवल हल्दाने का उपयोग कर सकते हैं जब हम कम से कम एक सिर और एक पूंछ का निरीक्षण करते हैं।
एक और अर्थ है जिसमें हल्दाने को पहले गैर-सूचनात्मक माना जा सकता है: पश्च वितरण का मतलब अब
। यानी, सिर के नमूना आवृत्ति, जिनमें से frequentist MLE अनुमान है
सिक्का फ्लिप समस्या का द्विपद मॉडल के लिए। इसके अलावा, लिए विश्वसनीय अंतराल वाल्ड विश्वास अंतराल के अनुरूप हैं। चूंकि बार-बार विधियां एक पूर्व निर्दिष्ट नहीं करती हैं, इसलिए कोई कह सकता है कि हल्दाने से पहले गैर-सूचनात्मक है, या शून्य पूर्व ज्ञान से मेल खाती है, क्योंकि यह एक अगोचर बना देगा "उसी" निष्कर्ष की ओर जाता है।α+xα+β+n=xnθθ
अंत में, आप एक पूर्व का उपयोग कर सकते हैं जो समस्या के पैरामीट्रिज़ेशन पर निर्भर नहीं करता है, अर्थात, जेफ़रीज़ से पहले, जो कि बीटा-बिनोमियल मॉडल से मेल खाती है
α=β=12⇒π(θ)∝θ−12(1−θ)−12
इस प्रकार 1 के प्रभावी नमूने के आकार के साथ। जेफ्री के पूर्व में यह फायदा है कि यह पैरामीटर स्पेस के पुन: संयोजन के तहत अपरिवर्तनीय है। उदाहरण के लिए, वर्दी पूर्व सभी मूल्यों के लिए समान संभावना प्रदान करता है , घटना" सिर "की संभावना। हालाँकि, आप इस मॉडल को " " के बजाय लॉग-ऑड्स के बजाय" हेड "के संदर्भ में तय कर सकते हैं । लॉग-ऑड्स के संदर्भ में "अधिकतम अज्ञान" को व्यक्त करने से पहले वह क्या है, जो कहता है कि घटना "सिर" के लिए सभी संभव लॉग-ऑड्स परिवर्तनीय हैं? यह हल्दाने से पहले का है, जैसा कि इस (थोड़ा गूढ़) उत्तर में दिखाया गया हैθλ=log(θ1−θ)θ। इसके बजाय, जेफ्रीज़ मेट्रिक के सभी परिवर्तनों के तहत अपरिवर्तनीय है। जेफ़रीज़ ने कहा कि एक पूर्व जिसके पास यह संपत्ति नहीं है, वह किसी तरह से सूचनात्मक है क्योंकि इसमें उस मीट्रिक पर जानकारी शामिल है जिसका उपयोग आपने समस्या को रोकने के लिए किया था। उसका पूर्व नहीं है।
संक्षेप में, बीटा-बिनोमियल मॉडल से पहले एक noninformative के लिए सिर्फ एक असमान विकल्प नहीं है। आप जो चुनते हैं वह इस बात पर निर्भर करता है कि आपके शून्य ज्ञान के रूप में क्या मतलब है, और आपके विश्लेषण के लक्ष्यों पर।