सिक्का उछालने पर बीटा वितरण


12

क्रुश्के की बायेसियन पुस्तक कहती है, एक सिक्के को लहराने के लिए एक बीटा वितरण के उपयोग के बारे में,

उदाहरण के लिए, अगर हमारे पास इस ज्ञान के अलावा कोई पूर्व ज्ञान नहीं है कि सिक्के में एक सिर और एक पूंछ पक्ष है, तो यह पहले वाले एक सिर और एक पूंछ को देखने के लिए समान है, जो एक = 1 और बी = 1 से मेल खाती है।

एक सिर और एक पूंछ को देखने के लिए कोई भी जानकारी क्यों नहीं होगी - 0 सिर और 0 पूंछ मेरे लिए अधिक स्वाभाविक है।


9
(+1) उद्धरण भ्रामक है क्योंकि यह पाठक को "अवलोकन" की दो बहुत अलग इंद्रियों की बराबरी करने के लिए आमंत्रित करता है। यहाँ इस्तेमाल किया गया अर्थ यह है कि सिक्के का निरीक्षण स्वयं किया गया है - वास्तव में, इसका मतलब है कि आप प्रयोगात्मक सेटअप को समझते हैं। लेकिन यह निष्कर्ष का तात्पर्य दो बार प्रयोग को चलाने के विभिन्न अर्थों में "अवलोकन" करने पर निर्भर करता है, जिसके दौरान एक परिणाम सिर और दूसरा पूंछ होता है। इस तरह के तार्किक स्लीट-ऑफ-हैंड एक बौद्धिक पुलिस-आउट है; यह केवल बेयसियन विधियों को मनमाने ढंग से और तार्किक रूप से फिसलन बनाता है, जो एक दया है। a=b=1
whuber

उद्धरण गलत है: बीटा (1, 1) से पहले के लिए कोई औचित्य नहीं है।
नील जी

कोई भी आसानी से तर्क दे सकता है कि यह एक सूचना का मूल्य है - आधा सिर / आधा पूंछ।
Glen_b -Reinstate मोनिका

4
कृपया पुस्तक में उस मार्ग के इच्छित उद्देश्य को ध्यान में रखें। यह शुरू में लागू उपयोगकर्ताओं के लिए एक सरल सहज औचित्य माना जाता है , जाहिर है कि गणितीय तर्क नहीं है और निश्चित रूप से यह दावा नहीं है कि बीटा (1,1) सबसे अच्छा या केवल अस्पष्ट है। पुस्तक में कहीं और मुझे यह दिखाने के लिए दर्द होता है कि अस्पष्ट पुजारियों में मामूली भिन्नताएं जब डेटा की एक बड़ी मात्रा होती है, तो पीछे के हिस्से में कोई महत्वपूर्ण अंतर नहीं होता है। (बेयस कारकों को छोड़कर, निश्चित रूप से, जो पूर्व के प्रति अत्यधिक संवेदनशील हैं!) अन्य लेखन में मैंने हल्दाने से पहले चर्चा की है।
जॉन के। क्रॉस्के

जवाबों:


17

ओपी को टिप्पणियों में @whuber द्वारा उल्लेखित उद्धरण एक "तार्किक स्लीप-ऑफ-हैंड" (महान अभिव्यक्ति!) है। केवल एक चीज जिसे हम वास्तव में कह सकते हैं कि यह देखने के बाद कि सिक्के में एक सिर और एक पूंछ है, यह है कि दोनों घटनाएं "सिर" और "पूंछ" असंभव नहीं हैं। इस प्रकार हम पहले एक असततता को त्याग सकते हैं जो सभी संभावित द्रव्यमान को "सिर" या "पूंछ" पर रखता है। लेकिन इससे कोई फर्क नहीं पड़ता है, खुद से, पहले वर्दी तक: सवाल कहीं अधिक सूक्ष्म है। आइए सबसे पहले थोड़ा सा बैकग्राउंड संक्षेप में प्रस्तुत करें। हम एक सिक्के के प्रमुखों की संभाव्यता के बाइसियन बेनिज़ियन के लिए बीटा-बिनोमिनल संयुग्म मॉडल पर विचार कर रहे हैं , स्वतंत्र और पहचान के साथ वितरित (सशर्त रूप से ) सिक्का tosses।θnθp(θ|x)जब हम शीर्षों में शीर्षों का निरीक्षण करते हैं :xn

p(θ|x)=Beta(x+α,nx+β)

हम यह कह सकते हैं कि और " एक "पूर्व संख्याओं के प्रमुख" और "पूंछों की पूर्व संख्या" की भूमिका निभाते हैं (छद्मपत्री), और को एक प्रभावी नमूना आकार के रूप में व्याख्या किया जा सकता है। हम इस अर्थ में इस अर्थ में भी आ सकते हैं कि पूर्व-मध्य और नमूना माध्य भारित औसत के रूप में ज्ञात अर्थ के लिए प्रसिद्ध अभिव्यक्ति का उपयोग करें ।αβα+βαα+βxn

को देखते हुए , हम दो कारणों से कर सकते हैं:p(θ|x)

  1. चूँकि हमें (अधिकतम अज्ञानता) के बारे में कोई पूर्व ज्ञान नहीं है , हम सहज रूप से प्रभावी नमूना आकार को "छोटा" होने की उम्मीद करते हैं । यदि यह बड़े थे, तो पूर्व में काफी ज्ञान शामिल होगा। इसे देखने का एक और तरीका यह है कि यदि और संबंध में और "छोटे" हैं , तो पूर्ववर्ती संभावना हमारे पूर्व पर बहुत अधिक निर्भर नहीं करेगी, क्योंकि और । हम उम्मीद करेंगे कि एक पूर्व ज्ञान जो बहुत सारे ज्ञान को शामिल नहीं करता है, जल्दी से कुछ आंकड़ों के प्रकाश में अप्रासंगिक हो जाना चाहिए।θα+βαβxnxx+αxnx+βnx
  2. इसके अलावा, चूंकि पूर्व का मतलब है, और हमें के वितरण के बारे में कोई पूर्व ज्ञान नहीं है , हम उम्मीद करेंगे । यह समरूपता का एक तर्क है - अगर हमें कोई बेहतर पता नहीं है, तो हम एक प्राथमिकता की उम्मीद नहीं करेंगे कि वितरण 0 या 1 की ओर तिरछा है। बीटा वितरण हैμprior=αα+βθμprior=0.5

    f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα1(1θ)β1

    यह अभिव्यक्ति केवल आसपास सममित है अगर ।θ=0.5α=β

इन दो कारणों से, जो कुछ भी पूर्व (बीटा परिवार से संबंधित - याद रखें, संयुग्मित मॉडल!) हम उपयोग करना चुनते हैं, हम सहज रूप से यह उम्मीद करते हैं कि और "छोटा" है। हम देख सकते हैं कि बीटा-बिनोमियल मॉडल के लिए आमतौर पर इस्तेमाल किए जाने वाले सभी गैर-सूचनात्मक पुजारी इन लक्षणों को साझा करते हैं, लेकिन इसके अलावा, वे काफी अलग हैं। और यह स्पष्ट है: कोई पूर्व ज्ञान, या "अधिकतम अज्ञान", एक वैज्ञानिक परिभाषा नहीं है, इसलिए किस प्रकार के पूर्व "अधिकतम अज्ञान" को व्यक्त करता है, अर्थात, एक गैर-जानकारीपूर्ण पूर्व क्या है, यह इस बात पर निर्भर करता है कि आप वास्तव में "अधिकतम" क्या हैं। अज्ञान "।α=β=cc

  1. हम एक पूर्व का चयन कर सकते हैं जो कहता है कि _ लिए सभी मूल्य सुगम हैं, क्योंकि हम किसी भी बेहतर को नहीं जानते हैं। फिर से, एक समरूपता का तर्क। यह मेल खाता है :θα=β=1

    f(θ|1,1)=Γ(2)2Γ(1)θ0(1θ)0=1

    के लिए , यानी, वर्दी पहले Kruschke द्वारा इस्तेमाल किया। और अधिक औपचारिक रूप से, बीटा वितरण के अंतर एन्ट्रापी के लिए अभिव्यक्ति लिखकर, आप देख सकते हैं कि इसे अधिकतम किया जाता है जब । अब, एन्ट्रॉपी को अक्सर वितरण द्वारा की गई "सूचना की मात्रा" के माप के रूप में व्याख्या की जाती है: उच्च एन्ट्रॉपी कम जानकारी से मेल खाती है। इस प्रकार, आप इस अधिकतम एन्ट्रापी सिद्धांत का उपयोग यह कहने के लिए कर सकते हैं कि, बीटा परिवार के अंदर, जिस में कम जानकारी (अधिकतम अज्ञानता) है, यह पूर्व की वर्दी है।θ[0,1]α=β=1

  2. आप एक और दृष्टिकोण चुन सकते हैं, एक ओपी द्वारा उपयोग किया जाता है, और कहते हैं कि कोई भी जानकारी बिना सिर के नहीं देखी जाती है और कोई जानकारी नहीं है, अर्थात,

    α=β=0π(θ)θ1(1θ)1

    जिस तरह से हम इस तरीके को प्राप्त करते हैं उसे पहले हल्दाने कहा जाता है । समारोह में थोड़ी समस्या है - पर अभिन्न अनंत है, अर्थात, कोई भी चीज जो सामान्य को स्थिर करती है, वह नहीं हो सकती है। एक उचित पीडीएफ में तब्दील। दरअसल, हाल्डेन पूर्व एक उचित pmf है , जो प्रायिकता 0.5 को , 0.5 के लिए और 0 को लिए अन्य सभी मूल्यों पर संभाव्यता डालता है । हालांकि, चलो दूर नहीं किया जाता है - एक निरंतर पैरामीटर , जो पुजारी उचित पीडीएफ के अनुरूप नहीं हैं उन्हें अनुचित पुजारी कहा जाता हैθ1(1θ)1I=[0,1]θ=0θ=1θθ। चूंकि, जैसा कि पहले उल्लेख किया गया है, बेयसियन इंट्रेंस के लिए सभी मामले पीछे का वितरण है, अनुचित पुजारी स्वीकार्य हैं, जब तक कि पीछे वितरण उचित है। हल्दाने से पहले के मामले में, हम यह साबित कर सकते हैं कि यदि हमारे नमूने में कम से कम एक सफलता और एक विफलता है तो पीछे का पीडीएफ उचित है। इस प्रकार हम केवल हल्दाने का उपयोग कर सकते हैं जब हम कम से कम एक सिर और एक पूंछ का निरीक्षण करते हैं।

    एक और अर्थ है जिसमें हल्दाने को पहले गैर-सूचनात्मक माना जा सकता है: पश्च वितरण का मतलब अब । यानी, सिर के नमूना आवृत्ति, जिनमें से frequentist MLE अनुमान है सिक्का फ्लिप समस्या का द्विपद मॉडल के लिए। इसके अलावा, लिए विश्वसनीय अंतराल वाल्ड विश्वास अंतराल के अनुरूप हैं। चूंकि बार-बार विधियां एक पूर्व निर्दिष्ट नहीं करती हैं, इसलिए कोई कह सकता है कि हल्दाने से पहले गैर-सूचनात्मक है, या शून्य पूर्व ज्ञान से मेल खाती है, क्योंकि यह एक अगोचर बना देगा "उसी" निष्कर्ष की ओर जाता है।α+xα+β+n=xnθθ

  3. अंत में, आप एक पूर्व का उपयोग कर सकते हैं जो समस्या के पैरामीट्रिज़ेशन पर निर्भर नहीं करता है, अर्थात, जेफ़रीज़ से पहले, जो कि बीटा-बिनोमियल मॉडल से मेल खाती है

    α=β=12π(θ)θ12(1θ)12

    इस प्रकार 1 के प्रभावी नमूने के आकार के साथ। जेफ्री के पूर्व में यह फायदा है कि यह पैरामीटर स्पेस के पुन: संयोजन के तहत अपरिवर्तनीय है। उदाहरण के लिए, वर्दी पूर्व सभी मूल्यों के लिए समान संभावना प्रदान करता है , घटना" सिर "की संभावना। हालाँकि, आप इस मॉडल को " " के बजाय लॉग-ऑड्स के बजाय" हेड "के संदर्भ में तय कर सकते हैं । लॉग-ऑड्स के संदर्भ में "अधिकतम अज्ञान" को व्यक्त करने से पहले वह क्या है, जो कहता है कि घटना "सिर" के लिए सभी संभव लॉग-ऑड्स परिवर्तनीय हैं? यह हल्दाने से पहले का है, जैसा कि इस (थोड़ा गूढ़) उत्तर में दिखाया गया हैθλ=log(θ1θ)θ। इसके बजाय, जेफ्रीज़ मेट्रिक के सभी परिवर्तनों के तहत अपरिवर्तनीय है। जेफ़रीज़ ने कहा कि एक पूर्व जिसके पास यह संपत्ति नहीं है, वह किसी तरह से सूचनात्मक है क्योंकि इसमें उस मीट्रिक पर जानकारी शामिल है जिसका उपयोग आपने समस्या को रोकने के लिए किया था। उसका पूर्व नहीं है।

संक्षेप में, बीटा-बिनोमियल मॉडल से पहले एक noninformative के लिए सिर्फ एक असमान विकल्प नहीं है। आप जो चुनते हैं वह इस बात पर निर्भर करता है कि आपके शून्य ज्ञान के रूप में क्या मतलब है, और आपके विश्लेषण के लक्ष्यों पर।


0

यह स्पष्ट रूप से गलत है। 1 हेड और 1 टेल का अवलोकन करने का मतलब है कि (ऑल-हेड्स कॉइन होना असंभव है) और (ऑल-टेल्स सिक्का होना असंभव है)। समान वितरण इसके अनुरूप नहीं है। जो सुसंगत है वह बीटा (2,2) है। बायसियन सॉल्यूशन से लेप्स (यानी वर्दी) के साथ सिक्का-फ्लिप समस्या से पहले , , पीछे की संभावना ।p(θ=0)=0p(θ=1)=0θp(θ)=Beta(h+1,(Nh)+1)


मुझे आपके उत्तर को समझने में कठिन समय है।
बजे माइकल आर। चेरिक

आपका निष्कर्ष कि "समान वितरण इसके अनुरूप नहीं है" गलत है। यह confuses घनत्व (जो क्या "का मतलब जाना चाहिए ") के साथ संभावना । (निरंतर) एक समान वितरण किसी भी परमाणु घटना जैसे या को शून्य संभावना प्रदान करता हैpθ=0θ=1
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.