बायेसियन को पूर्व और पीछे के वितरण को समझने में मेरी मदद करें


124

छात्रों के एक समूह में, 18 में से 2 हैं जो बाएं हाथ के हैं। आबादी में बाएं हाथ के छात्रों के पूर्ववर्ती वितरण को एकतरफा मानने से पहले खोजें। परिणामों को सारांशित करें। साहित्य के अनुसार 5-20% लोग बाएं हाथ के हैं। इस जानकारी को अपने पूर्व में ध्यान में रखें और नए उत्तर की गणना करें।

मुझे पता है कि यहां बीटा वितरण का उपयोग किया जाना चाहिए। सबसे पहले, 1 के रूप में और मानों के साथ? पोस्टीरियर के लिए सामग्री में मैंने जो समीकरण पाया है वह हैαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2 ,N=18

उस समीकरण में क्यों है ? ( बाएं हाथ के लोगों के अनुपात को संकेतित)। यह अज्ञात है, इसलिए यह इस समीकरण में कैसे हो सकता है? मेरे लिए यह गणना करने के लिए हास्यास्पद लगता है दिया और उस का उपयोग समीकरण देने में । खैर, नमूना के साथ परिणाम था । मैं उस से निकालना चाहिए?rrrYrrr=2/180,0019f

द्वारा ज्ञात और अपेक्षित मान देने वाले समीकरण ने बेहतर काम किया और मुझे दिया, जो सही लगता है। समीकरण जा रहा है ई (आर | एक्स, एन, α, β) = (α + X) / (α + β + N) मूल्य के साथ 1 करने के लिए आवंटित अल्फा और β । पूर्व सूचना को ध्यान में रखने के लिए मुझे α और β को क्या मान देना चाहिए ?RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

कुछ सुझाव बहुत सराहना की जाएगी। पूर्व और पीछे के वितरण पर एक सामान्य व्याख्यान या तो चोट नहीं पहुंचाएगा (मुझे अस्पष्ट समझ है कि वे क्या हैं लेकिन केवल अस्पष्ट हैं) यह भी ध्यान रखें कि मैं बहुत उन्नत सांख्यिकीविद् नहीं हूं (वास्तव में मैं अपने मुख्य व्यवसाय द्वारा एक राजनीतिक वैज्ञानिक हूं) उन्नत गणित शायद मेरे सिर पर उड़ जाएगा।



7
वाक्यांश " बाएं हाथ के छात्रों के पिछले वितरण का पता लगाएं " कोई मतलब नहीं है। यादृच्छिक चर के वितरण होते हैं, और "बाएं हाथ के छात्र" एक आरवी नहीं है जो मुझे लगता है कि आप चाहते हैं " बाएं हाथ के छात्रों के अनुपात के पीछे वितरण का पता लगाएं "। यह महत्वपूर्ण है कि इस तरह के विवरणों को न देखें, लेकिन इस बारे में स्पष्ट रहें कि आप वास्तव में किस बारे में बात कर रहे हैं।
Glen_b

2
वास्तव में, आपके प्रश्न को पढ़कर मुझे यह प्रतीत होता है कि आपकी समस्या इतनी बेयसियन सांख्यिकी नहीं है, जितना कि बस संभावना वितरण को समझना; यह हमेशा ऐसा होता है कि वितरण फ़ंक्शन (या आपके पास एक संभाव्यता फ़ंक्शन) का तर्क एक अज्ञात (यादृच्छिक चर) का एक फ़ंक्शन है। यह पूरी तरह से उनके बारे में बात है।
Glen_b

टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
गंग

जवाबों:


233

मुझे पहले समझाएं कि एक संयुग्म पूर्व क्या है। मैं फिर आपके विशिष्ट उदाहरण का उपयोग करके बायेसियन विश्लेषण की व्याख्या करूंगा। बायेसियन सांख्यिकी में निम्नलिखित चरण शामिल हैं:

  1. पूर्व वितरण को परिभाषित करें जो एक पैरामीटर के बारे में आपकी व्यक्तिपरक मान्यताओं को शामिल करता है (आपके उदाहरण में ब्याज का पैरामीटर बाएं-हाथ का अनुपात है)। पूर्व "अनइनफॉर्मेटिव" या "सूचनात्मक" हो सकता है (लेकिन कोई पूर्व नहीं है जिसकी कोई जानकारी नहीं है, यहां चर्चा देखें )।
  2. डेटा एकत्रित करें।
  3. एक पीछे वितरण प्राप्त करने के लिए बेयस प्रमेय का उपयोग कर डेटा के साथ अपने पूर्व वितरण को अपडेट करें पश्च वितरण एक संभावना वितरण है जो डेटा को देखने के बाद पैरामीटर के बारे में आपके अद्यतित विश्वासों का प्रतिनिधित्व करता है।
  4. पीछे के वितरण का विश्लेषण करें और इसे संक्षेप में प्रस्तुत करें (मतलब, माध्य, एसडी, क्वांटाइल्स, ...)।

सभी बायेसियन आंकड़ों का आधार बेयस प्रमेय है, जो है

posteriorprior×likelihood

आपके मामले में, संभावना द्विपद है। यदि पूर्व और पश्च वितरण एक ही परिवार में हैं, तो पूर्व और पीछे के वितरण को संयुग्म वितरण कहा जाता है । बीटा वितरण एक संयुग्म पूर्व है क्योंकि पीछे एक बीटा वितरण भी है। हम कहते हैं कि बीटा वितरण द्विपद संभावना के लिए संयुग्मित परिवार है। आकस्मिक विश्लेषण सुविधाजनक हैं, लेकिन वास्तविक दुनिया की समस्याओं में शायद ही कभी होते हैं। ज्यादातर मामलों में, पश्च वितरण को संख्यात्मक रूप से MCMC (स्टेन, WinBUGS, OpenBUGS, JAGS, PyMC या किसी अन्य कार्यक्रम का उपयोग करके) के माध्यम से पाया जाना चाहिए।

यदि पूर्व संभावना वितरण 1 में एकीकृत नहीं होता है , तो इसे अनुचित अनुचित कहा जाता है , यदि यह 1 को एकीकृत करता है तो इसे उचित पूर्व कहा जाता है । ज्यादातर मामलों में, एक अनुचित पूर्व बायेसियन विश्लेषण के लिए एक बड़ी समस्या पैदा नहीं करता है। पीछे वितरण उचित होना चाहिए, हालांकि, पीछे 1 को एकीकृत करना चाहिए।

अंगूठे के ये नियम बायेसियन विश्लेषण प्रक्रिया की प्रकृति से सीधे अनुसरण करते हैं:

  • यदि पूर्व असंक्रामक है, तो पश्चगामी डेटा से बहुत अधिक निर्धारित होता है (पोस्टीरियर डेटा-चालित है)
  • यदि पूर्व सूचनात्मक है, तो पश्च पूर्व और डेटा का मिश्रण है
  • पहले से अधिक जानकारीपूर्ण, जितना अधिक डेटा आपको अपनी मान्यताओं को "बदलने" की आवश्यकता है, इसलिए बोलने के लिए क्योंकि पूर्व सूचना से बहुत पीछे चल रहा है
  • यदि आपके पास बहुत अधिक डेटा है, तो डेटा पीछे के वितरण पर हावी होगा (वे पूर्व को अभिभूत कर देंगे)

बीटा वितरण के लिए कुछ संभावित "सूचनात्मक" और "अनइनफॉर्मेटिव" पुजारियों का एक उत्कृष्ट अवलोकन इस पोस्ट में पाया जा सकता है ।

मान लें कि आपका पूर्व बीटा जहां बाएं-हाथ का अनुपात है। पूर्व पैरामीटर और को निर्दिष्ट करने के लिए, बीटा वितरण के माध्य और विचरण को जानना उपयोगी है (उदाहरण के लिए, यदि आप चाहते हैं कि आपका पूर्व निश्चित अर्थ और विचरण हो)। माध्य । इस प्रकार, जब भी , मतलब । बीटा डिस्ट्रीब्यूशन का विचरण । अब, सुविधाजनक बात यह है कि आप और बारे में सोच सकते हैंBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβजैसा कि पहले देखा गया था (छद्म-) डेटा, अर्थात् बाएं-हैंडर्स और राइट-हैंडर्स से बाहर का आकार (छद्म-) नमूना । The वितरण समान है ( सभी मूल्य समान रूप से संभावित हैं) और उन लोगों द्वारा देखे जाने के बराबर है जिनमें से एक बाएं हाथ का है और एक दायां हाथ है।αβneq=α+βBeta(πLH|α=1,β=1)πLH

पीछे का बीटा वितरण केवल जहां नमूने का आकार है और नमूने में बाएँ हाथ की संख्या है। का पीछे का मतलब इसलिए । तो पीछे बीटा वितरण के मापदंडों को खोजने के लिए, हम बस जोड़ने करने के लिए बाएं हाथ के बल्लेबाजों और सही हाथ के बल्लेबाजों के लिए । पश्चगामी विचलनBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1)। ध्यान दें कि एक उच्च सूचनात्मक पूर्व भी पीछे वितरण के एक छोटे से विचरण की ओर जाता है (नीचे दिए गए रेखांकन बिंदु को अच्छी तरह से चित्रित करते हैं)।

आपके मामले में, और और आपकी पूर्व यूनिफ़ॉर्म जो एकरूप है, इसलिए । इसलिए आपका पिछला वितरण । पीछे का मतलब है । यहां एक ग्राफ है जो पूर्व, डेटा की संभावना और पीछे दिखाई देता हैz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

पूर्व, डेटा की संभावना और एक समान पूर्व के साथ पीछे वितरण

आप यह देखते हैं कि आपका पूर्व वितरण एकरूप होने के कारण, आपका पिछला वितरण पूरी तरह से डेटा द्वारा संचालित है। इसके अलावा बिंदीदार पीछे वितरण के लिए उच्चतम घनत्व अंतराल (एचडीआई) है। कल्पना करें कि आप अपने पीछे के वितरण को 2 डी-बेसिन में डालते हैं और पानी में भरना शुरू करते हैं जब तक कि वितरण का 95% पानी के ऊपर नहीं होता। जिन बिंदुओं पर जल वितरण के साथ अंतर होता है, वे 95% -HDI बनते हैं। एचडीआई के अंदर हर बिंदु के बाहर किसी भी बिंदु की तुलना में अधिक संभावना है। इसके अलावा, एचडीआई में हमेशा पीछे वितरण (यानी मोड) का शिखर शामिल होता है। HDI एक समान पूंछ वाले 95% विश्वसनीय अंतराल से अलग है, जहां पोस्टीरियर की प्रत्येक पूंछ से 2.5% को बाहर रखा गया है ( यहां देखें )।

अपने दूसरे कार्य के लिए, आपको यह जानकारी शामिल करने के लिए कहा जाता है कि 5-20% आबादी बाएं हाथ के खाते में है। ऐसा करने के कई तरीके हैं। सबसे आसान तरीका यह है कि पूर्व बीटा वितरण में मतलब होना चाहिए जो और का मतलब है । लेकिन पूर्व बीटा वितरण के लिए और का चयन कैसे करें ? सबसे पहले, आप चाहते हैं कि पूर्व वितरण का आपका मतलब समान नमूना आकार छद्म नमूने से हो । आमतौर पर, यदि आप चाहते हैं कि आपके पूर्व में छद्म-नमूना आकार साथ माध्य हो , तो संबंधित0.1250.050.2αβ0.125neqmneqαऔर मान हैं: और । अब आपको बस इतना करना बाकी है कि छद्म नमूना आकार चुनना है, जो यह निर्धारित करता है कि आप अपनी पूर्व सूचना के बारे में कितने आश्वस्त हैं। मान लें कि आप अपनी पूर्व सूचना के बारे में बहुत निश्चित हैं और सेट । आपके पूर्व वितरण के मानदंड _ और । पीछे का वितरण लगभग माध्य से जो कि व्यावहारिक रूप से के पूर्व के समान है।βα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125। पूर्व सूचना पीछे चल रही है (निम्नलिखित ग्राफ देखें):

पूर्व, डेटा की संभावना और पूर्व सूचनात्मक मजबूत के साथ पीछे वितरण

यदि आप पूर्व सूचना के बारे में कम सुनिश्चित हैं, तो आप अपने पूर्व -नमूना के लिए अपने छद्म-नमूने का , , कह सकते हैं , जो पैदावार और देता है। पीछे का वितरण लगभग माध्य से । पोस्टीरियर माध्य अब आपके डेटा के ( ) के पास है क्योंकि डेटा पूर्व को अभिभूत कर देता है। यहाँ ग्राफ दिखा रहा है स्थिति:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

पूर्व, डेटा की संभावना और बीटा पूर्ववर्ती वितरण 3 के छद्म-नमूना आकार के अनुरूप है

पूर्व सूचना को शामिल करने का एक और अधिक उन्नत तरीका यह होगा कि आपके पूर्व बीटा वितरण की मात्रा लगभग होनी चाहिए और मात्रा लगभग होनी चाहिए । यह कहने के बराबर है कि आपके 95% सुनिश्चित हैं कि आबादी में बाएं-हाथ का अनुपात 5% और 20% के बीच है। आर पैकेज में फ़ंक्शन ऐसे क्वांटाइल्स के अनुरूप बीटा वितरण के संबंधित और मानों की गणना करता है । कोड है0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

ऐसा लगता है कि पैरामीटर्स और साथ एक बीटा वितरण में वांछित गुण हैं। पूर्व का मतलब जो आपके डेटा ( ) के माध्य के पास है । फिर, इस पूर्व वितरण में बराबर नमूना आकार के छद्म नमूने की जानकारी शामिल है । पीछे का वितरण माध्य से जो कि पूर्व सूचना के साथ तुलनात्मक रूप से एक अत्यधिक जानकारीपूर्ण । यहाँ संगत ग्राफ है:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

पहले, डेटा की संभावना और पूर्व के साथ पीछे वितरण, जिसमें 0.05 और 0.075 के 0.05 और 0.975 मात्राएँ हैं।

बायेसियन तर्क और सरल विश्लेषण के एक छोटे लेकिन इमो अच्छे अवलोकन के लिए इस संदर्भ को भी देखें । संयुग्म विश्लेषण के लिए एक लंबा परिचय, विशेष रूप से द्विपदीय डेटा के लिए यहां पाया जा सकता है । बायेसियन सोच में एक सामान्य परिचय यहां पाया जा सकता है । बेज़ियन आँकड़ों के पहलुओं से संबंधित अधिक स्लाइड यहाँ हैं


1
हम यहाँ बीटा वितरण का चयन क्यों करते हैं?
मेटेरियट

1
@ मेटालिका प्राथमिक कारण यह है कि बीटा द्विपद वितरण से पहले संयुग्म है । इसका मतलब यह है कि यदि हम पहले के रूप में एक बीटा चुनते हैं, तो पीछे भी बीटा होगा। आगे कारण यह है कि बीटा 0 और 1 के बीच है और बहुत लचीला है। उदाहरण के लिए, इसमें वर्दी शामिल है। लेकिन में समर्थन के साथ किसी भी उचित वितरण को पूर्व के रूप में इस्तेमाल किया जा सकता है। यह सिर्फ इतना है कि पीछे की गणना करना अधिक कठिन है। (0,1)
५२ पर कोल्लेरदश

क्या आपके पास अभी भी "इन्ट्रो टू बायेसियन सोच" के लिए दस्तावेज़ है? ड्रॉपबॉक्स लिंक मृत है।
bs7280

@ bs7280 मैंने लिंक अपडेट किए हैं। उन्हें अब फिर से काम करना चाहिए।
COOLSerdash

1
@meduz सख्ती से बोल रहा है, कोई वास्तविक "अनइनफॉर्मेटिव" पूर्व नहीं है। मैं इस चर्चा पर टिम द्वारा दिए गए उत्कृष्ट उत्तर का उल्लेख करना चाहूंगा ।
COOLSerdash

8

एक वितरण = 1 और = 1 के साथ एक समान वितरण के समान है। तो यह वास्तव में, एकरूप है। आप वितरण के एक पैरामीटर के बारे में जानकारी प्राप्त करने की कोशिश कर रहे हैं (इस मामले में, लोगों के समूह में बाएं हाथ के लोगों का प्रतिशत)। बेयस फॉर्मूला बताता है:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

जो आपने बताया वह आनुपातिक है:

P(r|Y1,...,n) (Y1,...,n|r)P(r)

इसलिए मूल रूप से आप समूह (पी (आर), जो आप के लिए एक समान उपयोग कर रहे हैं) में बाएं हाथ के अनुपात के अपने पूर्व विश्वास के साथ शुरू कर रहे हैं, फिर अपने पूर्व (एक द्विपद) को सूचित करने के लिए एकत्रित डेटा पर विचार करें इस स्थिति में या तो आप दाएं या बाएं हाथ से हैं, इसलिए ) | एक द्विपद वितरण के पहले एक बीटा संयुग्म होता है, जिसका अर्थ है कि पीछे का वितरणP(Y1,...,n|r)P(r|Y1,...n)डेटा पर विचार करने के बाद पैराटर का वितरण पूर्व के समान परिवार में है। यहाँ अंत में अज्ञात नहीं है। (और स्पष्ट रूप से यह डेटा एकत्र करने से पहले नहीं था। हमें समाज में बाएं हाथ के अनुपात का एक बहुत अच्छा विचार मिला है।) आपको दोनों पूर्व वितरण (आर की धारणा) और आपको डेटा एकत्र किया है। और दोनों को एक साथ रखा। डेटा के बाद बाएं हैंडर्स के वितरण के पीछे आपकी नई धारणा है। तो आप डेटा की संभावना लेते हैं, और इसे एक समान रूप से गुणा करते हैं। बीटा वितरण का अपेक्षित मूल्य (जो कि पोस्टर है) । इसलिए जब आपने शुरुआत की थी, तो आपकी धारणा = 1 औरαα+βαβ= 1 यह था कि दुनिया में बाएं हाथ का अनुपात । अब आपने डेटा एकत्र कर लिया है जिसमें 18 में से 2 बचे हैं। आपने एक पश्च की गणना की है। (अभी भी एक बीटा) आपके और मान अब अलग हैं, वामपंथियों बनाम दक्षिणपंथियों के अनुपात के अपने विचार को बदल रहे हैं। यह कैसे बदल गया है?12αβ


1

आपके प्रश्न के पहले भाग में यह आपको "आर" के लिए एक उपयुक्त पूर्व परिभाषित करने के लिए कहता है। हाथ में द्विपद डेटा के साथ एक बीटा वितरण चुनना बुद्धिमानी होगी। क्योंकि तब पश्चात्ताप बीटा होगा। यूनिफ़ॉर्म डिविटेशन, बीटा का एक विशेष मामला होने के कारण, आप "r" के लिए पहले से चुन सकते हैं यूनिफ़ॉर्म डिसेब्यूशन, "r" के हर संभव मान को समान रूप से संभाव्य बनाते हैं।

दूसरे भाग में आपने पूर्व वितरण "आर" के बारे में जानकारी प्रदान की है।

इसके साथ हाथ में @ COOLSerdash का जवाब आपको उचित दिशा-निर्देश देगा।

इस सवाल और COOLSerdash को एक उचित उत्तर प्रदान करने के लिए धन्यवाद।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.