यहाँ एक मतलब, का आकलन करने का एक उदाहरण है , सामान्य निरंतर डेटा से। हालांकि, सीधे एक उदाहरण में देने से पहले, मैं सामान्य-सामान्य बायेसियन डेटा मॉडल के लिए कुछ गणित की समीक्षा करना चाहूंगा।θ
के बेतरतीब नमूने n निरंतर मूल्यों से दर्शाया जाने पर विचार करें । यहाँ वेक्टर y = ( y 1 , । । । , वाई एन ) टी डेटा इकट्ठा प्रतिनिधित्व करता है। ज्ञात भिन्नता और स्वतंत्र और पहचान के साथ सामान्य डेटा के लिए संभाव्यता मॉडल (आईआईडी) नमूने हैंy1,...,yny=(y1,...,yn)T
y1,...,yn|θ∼N(θ,σ2)
या जैसा कि आमतौर पर बायेसियन द्वारा लिखा गया है,
y1,...,yn|θ∼N(θ,τ)
जहां ; τ परिशुद्धता के रूप में जाना जाता हैτ=1/σ2τ
इस अंकन के साथ, लिए घनत्व तब हैyi
f(yi|θ,τ)=(√τ2π)×exp(−τ(yi−θ)2/2)
शास्त्रीय आंकड़े (यानी अधिकतम संभावना) हम में से एक अनुमान देता है θ = ˉ yθ^=y¯
एक बायेसियन परिप्रेक्ष्य में, हम पूर्व सूचना के साथ अधिकतम संभावना को जोड़ते हैं। इस सामान्य डेटा मॉडल के लिए महंतों का एक विकल्प के लिए एक और सामान्य वितरण है । सामान्य वितरण सामान्य वितरण के लिए संयुग्मित है।θ
θ∼N(a,1/b)
इस नॉर्मल-नॉर्मल (काफी बीजगणित के बाद) डेटा मॉडल से जो पोस्टीरियर डिस्ट्रीब्यूशन हमें मिलता है, वह एक और नॉर्मल डिस्ट्रीब्यूशन है।
θ|y∼N(bb+nτa+nτb+nτy¯,1b+nτ)
पीछे सटीक है और मतलब के बीच एक भारित मतलब है एक और ˉ y , खb+nτay¯ ।bb+nτa+nτb+nτy¯
इस बायेसियन कार्यप्रणाली की उपयोगिता इस तथ्य से आता है कि आप का वितरण प्राप्त केवल एक अनुमान के बजाय θ एक निश्चित (अज्ञात) मान के बजाय एक यादृच्छिक चर के रूप में देखा जाता है। इसके अलावा, इस मॉडल में θ का आपका अनुमान अनुभवजन्य माध्य और पूर्व सूचना के बीच एक भारित औसत है।θ|yθθ
उस ने कहा, अब आप इसका वर्णन करने के लिए किसी भी सामान्य-डेटा पाठ्यपुस्तक के उदाहरण का उपयोग कर सकते हैं। मैं airquality
R के भीतर डेटा सेट का उपयोग करूँगा । औसत हवा की गति (एमपीएच) के आकलन की समस्या पर विचार करें।
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
इस विश्लेषण में, शोधकर्ता (आप) कह सकते हैं कि दी गई डेटा + पूर्व सूचना, औसत हवा का आपका अनुमान, 50 वें प्रतिशताइल का उपयोग करते हुए, डेटा से औसत का उपयोग करने की तुलना में गति 10.00324 होनी चाहिए। आप एक पूर्ण वितरण भी प्राप्त करते हैं, जिसमें से आप 2.5 और 97.5 मात्राओं का उपयोग करके 95% विश्वसनीय अंतराल निकाल सकते हैं।
नीचे मैंने दो संदर्भों को शामिल किया है, मैं कैसला के संक्षिप्त पेपर को पढ़ने की अत्यधिक सलाह देता हूं। यह विशेष रूप से अनुभवजन्य Bayes विधियों के उद्देश्य से है, लेकिन सामान्य मॉडल के लिए सामान्य Bayesian पद्धति की व्याख्या करता है।
संदर्भ:
कैसला, जी। (1985)। अनुभवजन्य Bayes डेटा विश्लेषण के लिए एक परिचय। द अमेरिकन स्टेटिस्टिशियन, 39 (2), 83-87।
जेलमैन, ए। (2004)। बायेसियन डेटा विश्लेषण (दूसरा संस्करण।, सांख्यिकीय विज्ञान में ग्रंथ)। बोका रत्न, Fla .: चैपमैन और हॉल / CRC।