मुझे पहले समझाएं कि एक संयुग्म पूर्व क्या है। मैं फिर आपके विशिष्ट उदाहरण का उपयोग करके बायेसियन विश्लेषण की व्याख्या करूंगा। बायेसियन सांख्यिकी में निम्नलिखित चरण शामिल हैं:
- पूर्व वितरण को परिभाषित करें जो एक पैरामीटर के बारे में आपकी व्यक्तिपरक मान्यताओं को शामिल करता है (आपके उदाहरण में ब्याज का पैरामीटर बाएं-हाथ का अनुपात है)। पूर्व "अनइनफॉर्मेटिव" या "सूचनात्मक" हो सकता है (लेकिन कोई पूर्व नहीं है जिसकी कोई जानकारी नहीं है, यहां चर्चा देखें )।
- डेटा एकत्रित करें।
- एक पीछे वितरण प्राप्त करने के लिए बेयस प्रमेय का उपयोग कर डेटा के साथ अपने पूर्व वितरण को अपडेट करें । पश्च वितरण एक संभावना वितरण है जो डेटा को देखने के बाद पैरामीटर के बारे में आपके अद्यतित विश्वासों का प्रतिनिधित्व करता है।
- पीछे के वितरण का विश्लेषण करें और इसे संक्षेप में प्रस्तुत करें (मतलब, माध्य, एसडी, क्वांटाइल्स, ...)।
सभी बायेसियन आंकड़ों का आधार बेयस प्रमेय है, जो है
posterior∝prior×likelihood
आपके मामले में, संभावना द्विपद है। यदि पूर्व और पश्च वितरण एक ही परिवार में हैं, तो पूर्व और पीछे के वितरण को संयुग्म वितरण कहा जाता है । बीटा वितरण एक संयुग्म पूर्व है क्योंकि पीछे एक बीटा वितरण भी है। हम कहते हैं कि बीटा वितरण द्विपद संभावना के लिए संयुग्मित परिवार है। आकस्मिक विश्लेषण सुविधाजनक हैं, लेकिन वास्तविक दुनिया की समस्याओं में शायद ही कभी होते हैं। ज्यादातर मामलों में, पश्च वितरण को संख्यात्मक रूप से MCMC (स्टेन, WinBUGS, OpenBUGS, JAGS, PyMC या किसी अन्य कार्यक्रम का उपयोग करके) के माध्यम से पाया जाना चाहिए।
यदि पूर्व संभावना वितरण 1 में एकीकृत नहीं होता है , तो इसे अनुचित अनुचित कहा जाता है , यदि यह 1 को एकीकृत करता है तो इसे उचित पूर्व कहा जाता है । ज्यादातर मामलों में, एक अनुचित पूर्व बायेसियन विश्लेषण के लिए एक बड़ी समस्या पैदा नहीं करता है। पीछे वितरण उचित होना चाहिए, हालांकि, पीछे 1 को एकीकृत करना चाहिए।
अंगूठे के ये नियम बायेसियन विश्लेषण प्रक्रिया की प्रकृति से सीधे अनुसरण करते हैं:
- यदि पूर्व असंक्रामक है, तो पश्चगामी डेटा से बहुत अधिक निर्धारित होता है (पोस्टीरियर डेटा-चालित है)
- यदि पूर्व सूचनात्मक है, तो पश्च पूर्व और डेटा का मिश्रण है
- पहले से अधिक जानकारीपूर्ण, जितना अधिक डेटा आपको अपनी मान्यताओं को "बदलने" की आवश्यकता है, इसलिए बोलने के लिए क्योंकि पूर्व सूचना से बहुत पीछे चल रहा है
- यदि आपके पास बहुत अधिक डेटा है, तो डेटा पीछे के वितरण पर हावी होगा (वे पूर्व को अभिभूत कर देंगे)
बीटा वितरण के लिए कुछ संभावित "सूचनात्मक" और "अनइनफॉर्मेटिव" पुजारियों का एक उत्कृष्ट अवलोकन इस पोस्ट में पाया जा सकता है ।
मान लें कि आपका पूर्व बीटा जहां बाएं-हाथ का अनुपात है। पूर्व पैरामीटर और को निर्दिष्ट करने के लिए, बीटा वितरण के माध्य और विचरण को जानना उपयोगी है (उदाहरण के लिए, यदि आप चाहते हैं कि आपका पूर्व निश्चित अर्थ और विचरण हो)। माध्य । इस प्रकार, जब भी , मतलब । बीटा डिस्ट्रीब्यूशन का विचरण । अब, सुविधाजनक बात यह है कि आप और बारे में सोच सकते हैंBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβजैसा कि पहले देखा गया था (छद्म-) डेटा, अर्थात् बाएं-हैंडर्स और राइट-हैंडर्स से बाहर का आकार (छद्म-) नमूना । The वितरण समान है ( सभी मूल्य समान रूप से संभावित हैं) और उन लोगों द्वारा देखे जाने के बराबर है जिनमें से एक बाएं हाथ का है और एक दायां हाथ है।αβneq=α+βBeta(πLH|α=1,β=1)πLH
पीछे का बीटा वितरण केवल जहां नमूने का आकार है और नमूने में बाएँ हाथ की संख्या है। का पीछे का मतलब इसलिए । तो पीछे बीटा वितरण के मापदंडों को खोजने के लिए, हम बस जोड़ने करने के लिए बाएं हाथ के बल्लेबाजों और सही हाथ के बल्लेबाजों के लिए । पश्चगामी विचलनBeta(z+α,N−z+β)NzπLH(z+α)/(N+α+β)zαN−zβ(z+α)(N−z+β)(N+α+β)2(N+α+β+1)। ध्यान दें कि एक उच्च सूचनात्मक पूर्व भी पीछे वितरण के एक छोटे से विचरण की ओर जाता है (नीचे दिए गए रेखांकन बिंदु को अच्छी तरह से चित्रित करते हैं)।
आपके मामले में, और और आपकी पूर्व यूनिफ़ॉर्म जो एकरूप है, इसलिए । इसलिए आपका पिछला वितरण । पीछे का मतलब है । यहां एक ग्राफ है जो पूर्व, डेटा की संभावना और पीछे दिखाई देता हैz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15
आप यह देखते हैं कि आपका पूर्व वितरण एकरूप होने के कारण, आपका पिछला वितरण पूरी तरह से डेटा द्वारा संचालित है। इसके अलावा बिंदीदार पीछे वितरण के लिए उच्चतम घनत्व अंतराल (एचडीआई) है। कल्पना करें कि आप अपने पीछे के वितरण को 2 डी-बेसिन में डालते हैं और पानी में भरना शुरू करते हैं जब तक कि वितरण का 95% पानी के ऊपर नहीं होता। जिन बिंदुओं पर जल वितरण के साथ अंतर होता है, वे 95% -HDI बनते हैं। एचडीआई के अंदर हर बिंदु के बाहर किसी भी बिंदु की तुलना में अधिक संभावना है। इसके अलावा, एचडीआई में हमेशा पीछे वितरण (यानी मोड) का शिखर शामिल होता है। HDI एक समान पूंछ वाले 95% विश्वसनीय अंतराल से अलग है, जहां पोस्टीरियर की प्रत्येक पूंछ से 2.5% को बाहर रखा गया है ( यहां देखें )।
अपने दूसरे कार्य के लिए, आपको यह जानकारी शामिल करने के लिए कहा जाता है कि 5-20% आबादी बाएं हाथ के खाते में है। ऐसा करने के कई तरीके हैं। सबसे आसान तरीका यह है कि पूर्व बीटा वितरण में मतलब होना चाहिए जो और का मतलब है । लेकिन पूर्व बीटा वितरण के लिए और का चयन कैसे करें ? सबसे पहले, आप चाहते हैं कि पूर्व वितरण का आपका मतलब समान नमूना आकार छद्म नमूने से हो । आमतौर पर, यदि आप चाहते हैं कि आपके पूर्व में छद्म-नमूना आकार साथ माध्य हो , तो संबंधित0.1250.050.2αβ0.125neqmneqαऔर मान हैं: और । अब आपको बस इतना करना बाकी है कि छद्म नमूना आकार चुनना है, जो यह निर्धारित करता है कि आप अपनी पूर्व सूचना के बारे में कितने आश्वस्त हैं। मान लें कि आप अपनी पूर्व सूचना के बारे में बहुत निश्चित हैं और सेट । आपके पूर्व वितरण के मानदंड _ और । पीछे का वितरण लगभग माध्य से जो कि व्यावहारिक रूप से के पूर्व के समान है।βα=mneqβ=(1−m)neqneqneq=1000α=0.125⋅1000=125β=(1−0.125)⋅1000=875Beta(127,891)0.1250.125। पूर्व सूचना पीछे चल रही है (निम्नलिखित ग्राफ देखें):
यदि आप पूर्व सूचना के बारे में कम सुनिश्चित हैं, तो आप अपने पूर्व -नमूना के लिए अपने छद्म-नमूने का , , कह सकते हैं , जो पैदावार और देता है। पीछे का वितरण लगभग माध्य से । पोस्टीरियर माध्य अब आपके डेटा के ( ) के पास है क्योंकि डेटा पूर्व को अभिभूत कर देता है। यहाँ ग्राफ दिखा रहा है स्थिति:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
पूर्व सूचना को शामिल करने का एक और अधिक उन्नत तरीका यह होगा कि आपके पूर्व बीटा वितरण की मात्रा लगभग होनी चाहिए और मात्रा लगभग होनी चाहिए । यह कहने के बराबर है कि आपके 95% सुनिश्चित हैं कि आबादी में बाएं-हाथ का अनुपात 5% और 20% के बीच है। आर पैकेज में फ़ंक्शन ऐसे क्वांटाइल्स के अनुरूप बीटा वितरण के संबंधित और मानों की गणना करता है । कोड है0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
ऐसा लगता है कि पैरामीटर्स और साथ एक बीटा वितरण में वांछित गुण हैं। पूर्व का मतलब जो आपके डेटा ( ) के माध्य के पास है । फिर, इस पूर्व वितरण में बराबर नमूना आकार के छद्म नमूने की जानकारी शामिल है । पीछे का वितरण माध्य से जो कि पूर्व सूचना के साथ तुलनात्मक रूप से एक अत्यधिक जानकारीपूर्ण । यहाँ संगत ग्राफ है:α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
बायेसियन तर्क और सरल विश्लेषण के एक छोटे लेकिन इमो अच्छे अवलोकन के लिए इस संदर्भ को भी देखें । संयुग्म विश्लेषण के लिए एक लंबा परिचय, विशेष रूप से द्विपदीय डेटा के लिए यहां पाया जा सकता है । बायेसियन सोच में एक सामान्य परिचय यहां पाया जा सकता है । बेज़ियन आँकड़ों के पहलुओं से संबंधित अधिक स्लाइड यहाँ हैं ।