Bayesian आँकड़े पढ़ाने के लिए सरल वास्तविक दुनिया उदाहरण?


10

मैं बायेसियन आँकड़ों को पढ़ाने के लिए कुछ "वास्तविक दुनिया उदाहरण" ढूंढना चाहूंगा। बायेसियन सांख्यिकी किसी को औपचारिक रूप से पूर्व ज्ञान को एक विश्लेषण में शामिल करने की अनुमति देता है। मैं छात्रों को अपने विश्लेषण में पूर्व ज्ञान को शामिल करने वाले शोधकर्ताओं के कुछ सरल वास्तविक दुनिया उदाहरण देना चाहूंगा ताकि छात्र इस प्रेरणा को बेहतर ढंग से समझ सकें कि कोई पहली बार में बायेसियन आंकड़ों का उपयोग क्यों करना चाहता है।

क्या आप किसी सरल वास्तविक दुनिया के उदाहरणों से अवगत हैं जैसे जनसंख्या का मतलब, अनुपात, प्रतिगमन आदि का आकलन करना जहां शोधकर्ता औपचारिक रूप से पूर्व सूचना शामिल करते हैं? मुझे एहसास है कि बायेसियन "गैर-सूचनात्मक" पुजारी का भी उपयोग कर सकते हैं, लेकिन मुझे वास्तविक उदाहरणों में विशेष रूप से दिलचस्पी है जहां जानकारीपूर्ण पुजारी (अर्थात वास्तविक पूर्व सूचना) का उपयोग किया जाता है।


मुझे लगता है कि IQ बहुत अच्छा उदाहरण है।
हेजसेब

सख्ती से जवाब नहीं, लेकिन जब आप एक सिक्का को तीन बार फ्लिप करते हैं और दो बार सिर ऊपर आता है, तो कोई भी छात्र विश्वास नहीं करेगा, वह सिर पूंछ की तुलना में दोगुना था। यह बहुत आश्वस्त है हालांकि निश्चित रूप से वास्तविक शोध नहीं है।
बर्नहार्ड

1
आप अपने द्वारा लिखे गए इस उत्तर की सही-सही जाँच कर सकते हैं: आंकड़े.stackexchange.com/a/134385/61496
यैर

क्या आप शायद बेयस नियम को स्वीकार कर रहे हैं, जिसे बार-बार संभाव्यता / अनुमान में लागू किया जा सकता है, और बायेसियन आंकड़े जहां "संभावना" विश्वास का सारांश है?
एडमों

जवाबों:


6

बायेसियन खोज सिद्धांत बायेसियन आंकड़ों का एक दिलचस्प वास्तविक दुनिया अनुप्रयोग है जिसे समुद्र में खो जाने वाले जहाजों की खोज के लिए कई बार लागू किया गया है। शुरू करने के लिए, एक नक्शे को वर्गों में विभाजित किया गया है। प्रत्येक वर्ग को अंतिम ज्ञात स्थिति, शीर्षक, समय लापता, धाराओं आदि के आधार पर, खोए हुए बर्तन को रखने की एक पूर्व संभावना सौंपी जाती है। इसके अलावा, प्रत्येक वर्ग को जहाज के खोजने की एक सशर्त संभावना सौंपी जाती है यदि यह वास्तव में उस वर्ग पर आधारित है। पानी की गहराई जैसी चीजें। ये वितरण मानचित्र वर्गों को प्राथमिकता देने के लिए संयुक्त होते हैं जिनमें सकारात्मक परिणाम उत्पन्न करने की संभावना सबसे अधिक होती है - यह जरूरी नहीं कि जहाज के लिए सबसे संभावित स्थान है, लेकिन वास्तव में जहाज को खोजने की सबसे अधिक संभावना जगह है।


1
अच्छा लगा, ये मनोरंजक पुस्तक द थ्योरी दैट विल नॉट डाई: हाउ बेयस रूल इन द एग्ग्मा कोड, हंट डाउन डाउन रशियन सबमरीन्स, और एमर्जेड विजयी ट्रम्पहैंट के दो शताब्दियों के विवादों में वर्णित अनुप्रयोगों के प्रकार हैं । इसके अलावा, ट्यूरिंग ने इस तरह के तर्क का इस्तेमाल किया जो कि दरार को ठीक करता है।
jpmuc

संभावित लेकिन क्या यह बायेसियन है?
एंड्रयू

5

मुझे लगता है कि सीरियल नंबरों से उत्पादन या जनसंख्या के आकार का अनुमान लगाना दिलचस्प है अगर पारंपरिक व्याख्यात्मक उदाहरण। यहाँ आप एक असतत समान वितरण का अधिकतम प्रयास कर रहे हैं। पहले की अपनी पसंद के आधार पर फिर अधिकतम संभावना और बेयसियन अनुमान काफी पारदर्शी तरीके से भिन्न होंगे।

शायद सबसे प्रसिद्ध उदाहरण टैंक सीरियल नंबर बैंड और निर्माता कोड द्वारा लगातार द्वितीय सेटिंग (रग्गल्स और ब्रॉडी, 1947) से किए गए दूसरे विश्व युद्ध के दौरान जर्मन टैंक की उत्पादन दर का अनुमान है। जानकारीपूर्ण पुजारियों के साथ बायेसियन दृष्टिकोण से एक वैकल्पिक विश्लेषण (डाउनी, 2013) द्वारा किया गया है, और (एचओहेल और हेल्ड, 2004) द्वारा एक अनुचित अनिनिर्दिष्ट पादरियों के साथ किया गया है। (होले और हेल्ड, 2004) द्वारा किए गए काम में साहित्य में पिछले उपचार के कई और संदर्भ भी हैं और इस साइट पर इस समस्या की अधिक चर्चा भी है।

सूत्रों का कहना है:

अध्याय 3, डाउनी, एलन। बेयस सोचें: पायथन में बेयसियन सांख्यिकी। "ओ रेली मीडिया, इंक।", 2013।

विकिपीडिया

रग्गल्स, आर।; ब्रॉडी, एच। (1947)। "द्वितीय विश्व युद्ध में आर्थिक खुफिया के लिए एक अनुभवजन्य दृष्टिकोण"। अमेरिकन स्टैटिस्टिकल एसोसिएशन का जरनल। 42 (237): 72।

होले, माइकल और लियोनहार्ड हेल्ड। एक जनसंख्या के आकार का बायेसियन अनुमान। क्रमांक 499. चर्चा पत्र // सोन्डरफॉर्स्चुंगस्बेरिच 386 डेर लुडविग-मैक्सिमिलियन्स-यूनिवर्सिटेट मुनचेन, 2006।


3

वेटियो-टेम्पोरल डेटा , विले, यूएसएस स्कार्पियन की खोज के बारे में (बाइसियन), एक पनडुब्बी जो 1968 में खो गई थी, के बारे में एक अच्छी कहानी है । एक सिम्युलेटर का उपयोग करके सरलीकृत) खोज ।

खोए हुए उड़ान MH370 की कहानी के आसपास इसी तरह के उदाहरणों का निर्माण किया जा सकता है; आप MH370 , स्प्रिंगर-वर्लाग की खोज में डेवी एट अल।, बायेसियन मेथड्स को देखना चाहते हैं ।


1

यहाँ एक मतलब, का आकलन करने का एक उदाहरण है , सामान्य निरंतर डेटा से। हालांकि, सीधे एक उदाहरण में देने से पहले, मैं सामान्य-सामान्य बायेसियन डेटा मॉडल के लिए कुछ गणित की समीक्षा करना चाहूंगा।θ

के बेतरतीब नमूने n निरंतर मूल्यों से दर्शाया जाने पर विचार करें । यहाँ वेक्टर y = ( y 1 , , वाई एन ) टी डेटा इकट्ठा प्रतिनिधित्व करता है। ज्ञात भिन्नता और स्वतंत्र और पहचान के साथ सामान्य डेटा के लिए संभाव्यता मॉडल (आईआईडी) नमूने हैंy1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

या जैसा कि आमतौर पर बायेसियन द्वारा लिखा गया है,

y1,...,yn|θN(θ,τ)

जहां ; τ परिशुद्धता के रूप में जाना जाता हैτ=1/σ2τ

इस अंकन के साथ, लिए घनत्व तब हैyमैं

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

शास्त्रीय आंकड़े (यानी अधिकतम संभावना) हम में से एक अनुमान देता है θ = ˉ yθ^=y¯

एक बायेसियन परिप्रेक्ष्य में, हम पूर्व सूचना के साथ अधिकतम संभावना को जोड़ते हैं। इस सामान्य डेटा मॉडल के लिए महंतों का एक विकल्प के लिए एक और सामान्य वितरण है । सामान्य वितरण सामान्य वितरण के लिए संयुग्मित है।θ

θN(a,1/b)

इस नॉर्मल-नॉर्मल (काफी बीजगणित के बाद) डेटा मॉडल से जो पोस्टीरियर डिस्ट्रीब्यूशन हमें मिलता है, वह एक और नॉर्मल डिस्ट्रीब्यूशन है।

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

पीछे सटीक है और मतलब के बीच एक भारित मतलब है एक और ˉ y , b+nτay¯bb+nτa+nτb+nτy¯

इस बायेसियन कार्यप्रणाली की उपयोगिता इस तथ्य से आता है कि आप का वितरण प्राप्त केवल एक अनुमान के बजाय θ एक निश्चित (अज्ञात) मान के बजाय एक यादृच्छिक चर के रूप में देखा जाता है। इसके अलावा, इस मॉडल में θ का आपका अनुमान अनुभवजन्य माध्य और पूर्व सूचना के बीच एक भारित औसत है।θ|yθθ

उस ने कहा, अब आप इसका वर्णन करने के लिए किसी भी सामान्य-डेटा पाठ्यपुस्तक के उदाहरण का उपयोग कर सकते हैं। मैं airqualityR के भीतर डेटा सेट का उपयोग करूँगा । औसत हवा की गति (एमपीएच) के आकलन की समस्या पर विचार करें।

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

यहां छवि विवरण दर्ज करें

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

यहां छवि विवरण दर्ज करें

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

इस विश्लेषण में, शोधकर्ता (आप) कह सकते हैं कि दी गई डेटा + पूर्व सूचना, औसत हवा का आपका अनुमान, 50 वें प्रतिशताइल का उपयोग करते हुए, डेटा से औसत का उपयोग करने की तुलना में गति 10.00324 होनी चाहिए। आप एक पूर्ण वितरण भी प्राप्त करते हैं, जिसमें से आप 2.5 और 97.5 मात्राओं का उपयोग करके 95% विश्वसनीय अंतराल निकाल सकते हैं।

नीचे मैंने दो संदर्भों को शामिल किया है, मैं कैसला के संक्षिप्त पेपर को पढ़ने की अत्यधिक सलाह देता हूं। यह विशेष रूप से अनुभवजन्य Bayes विधियों के उद्देश्य से है, लेकिन सामान्य मॉडल के लिए सामान्य Bayesian पद्धति की व्याख्या करता है।

संदर्भ:

  1. कैसला, जी। (1985)। अनुभवजन्य Bayes डेटा विश्लेषण के लिए एक परिचय। द अमेरिकन स्टेटिस्टिशियन, 39 (2), 83-87।

  2. जेलमैन, ए। (2004)। बायेसियन डेटा विश्लेषण (दूसरा संस्करण।, सांख्यिकीय विज्ञान में ग्रंथ)। बोका रत्न, Fla .: चैपमैन और हॉल / CRC।


1

अनुसंधान का एक क्षेत्र जहां मेरा मानना ​​है कि बायेसियन तरीके बिल्कुल आवश्यक हैं, यह इष्टतम डिजाइन है।

xβx

xβββx

  • n=0β^

  • β^

  • β=1β^=5xβ=5x

  • यह की अनिश्चितता को ध्यान में नहीं रखता हैβ

xx

xβ

βx

x


1

मैं हाल ही में इस प्रश्न के बारे में सोच रहा था, और मुझे लगता है कि मेरे पास एक उदाहरण है जहां बायेसियन समझ में आता है, उपयोग के साथ एक पूर्व संभावना: एक नैदानिक ​​परीक्षण का संभावना अनुपात।

इसका उदाहरण यह हो सकता है: दैनिक अभ्यास की शर्तों (पारिवारिक अभ्यास 2003; 20: 410-2) के तहत मूत्र डाइपस्लाइड की वैधता। विचार यह देखना है कि मूत्र संक्रमण के निदान पर यूरिन डिप्सलाइड का सकारात्मक परिणाम क्या है। सकारात्मक परिणाम की संभावना अनुपात है:

एलआर(+)=टीरोंटी+|एच+टीरोंटी+|एच-=एसnरोंमैंमैंएलमैंटीy1-रोंपीसीमैंमैंसीमैंटीy
एच+एच-

हेआर(+|टीरोंटी+)=एलआर(+)×हेआर(+)
हेआरहेआर(+|टीरोंटी+)हेआर(+)

एलआर(+)=12.2एलआर(-)=0.29

पी+=2/3p+|test+=0.96p+|test=0.37

यहां संक्रमण का पता लगाने के लिए परीक्षण अच्छा है, लेकिन संक्रमण को छोड़ने के लिए अच्छा नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.