नए डेटा के साथ बायेसियन अपडेट

17

N डेटा बिंदुओं के अवलोकन के बाद हम पूर्व N (a, b) के साथ एक पश्च की गणना के बारे में कैसे जाना है? मुझे लगता है कि हमें डेटा बिंदुओं के नमूना माध्य और विचरण की गणना करनी है और कुछ प्रकार की गणना करना है जो कि पूर्व के साथ पीछे को जोड़ती है, लेकिन मुझे यह निश्चित नहीं है कि संयोजन सूत्र कैसा दिखता है।

bayesian normal-distribution conjugate-prior

— statstudent
स्रोत

23

बायेसियन अद्यतन करने के मूल विचार है कि कुछ डेटा दिया जाता है $X$ और पहले ब्याज की ओवर पैरामीटर $\theta$ , जहां डाटा और पैरामीटर के बीच संबंध का उपयोग कर वर्णन किया गया है संभावना समारोह, आप Bayes का उपयोग प्रमेय पीछे प्राप्त करने के लिए

p (θ ∣ X) \propto p (X ∣ θ) p (θ)

$p(\theta \mid X) \propto p(X \mid \theta) \, p(\theta)$

यह क्रमिक रूप से किया जा सकता है, जिसकी पहली डेटा बिंदु को देखने के बाद पूर्व के लिए अद्यतन हो जाता है पीछे , अगले आप दूसरे डेटा बिंदु ले जा सकते हैं और उपयोग पीछे से पहले प्राप्त अपने के रूप में पहले एक बार फिर से आदि, इसे अद्यतन करने के $x_1$ $\theta$ $\theta'$ $x_2$ $\theta'$

मैं आपको एक उदाहरण देता हूं। कल्पना कीजिए कि आप मतलब अनुमान लगाना चाहते सामान्य वितरण की और आप के लिए जाना जाता है। ऐसे मामले में हम सामान्य-सामान्य मॉडल का उपयोग कर सकते हैं। हम के लिए सामान्य से पहले मान hyperparameters साथ $\mu$ $\sigma^2$ $\mu$ $\mu_0,\sigma_0^2:$

\begin{aligned} X ∣ μ & \sim N o r m a l (μ, σ^{2}) \\ μ & \sim N o r m a l (μ_{0}, σ_{0}^{2}) \end{aligned}

$\begin{align} X\mid\mu &\sim \mathrm{Normal}(\mu,\ \sigma^2) \\ \mu &\sim \mathrm{Normal}(\mu_0,\ \sigma_0^2) \end{align}$

चूंकि सामान्य वितरण एक है संयुग्म पूर्व के लिए सामान्य वितरण की, हम फार्म बंद कर दिया है पहले अद्यतन करने के लिए समाधान $\mu$

\begin{aligned} E (μ^{'} ∣ x) & = \frac{σ^{2} μ + σ_{0}^{2} x}{σ^{2} + σ_{0}^{2}} \\ V a r (μ^{'} ∣ x) & = \frac{σ^{2} σ_{0}^{2}}{σ^{2} + σ_{0}^{2}} \end{aligned}

$\begin{align} E(\mu' \mid x) &= \frac{\sigma^2\mu + \sigma^2_0 x}{\sigma^2 + \sigma^2_0} \\[7pt] \mathrm{Var}(\mu' \mid x) &= \frac{\sigma^2 \sigma^2_0}{\sigma^2 + \sigma^2_0} \end{align}$

दुर्भाग्य से, ऐसे सरल बंद-रूप समाधान अधिक परिष्कृत समस्याओं के लिए उपलब्ध नहीं हैं और आपको अनुकूलन एल्गोरिदम ( अधिकतम पोस्टवर्दी दृष्टिकोण का उपयोग करके बिंदु अनुमान के लिए ), या एमसीएमसी सिमुलेशन पर भरोसा करना होगा ।

नीचे आप डेटा उदाहरण देख सकते हैं:

n <- 1000
set.seed(123)
x     <- rnorm(n, 1.4, 2.7)
mu    <- numeric(n)
sigma <- numeric(n)

mu[1]    <- (10000*x[i] + (2.7^2)*0)/(10000+2.7^2)
sigma[1] <- (10000*2.7^2)/(10000+2.7^2)
for (i in 2:n) {
  mu[i]    <- ( sigma[i-1]*x[i] + (2.7^2)*mu[i-1] )/(sigma[i-1]+2.7^2)
  sigma[i] <- ( sigma[i-1]*2.7^2                  )/(sigma[i-1]+2.7^2)
}

आप परिणाम साजिश हैं, तो आप कैसे देखेंगे पीछे अनुमानित मूल्य (यह सही मूल्य लाल रेखा द्वारा चिह्नित है) के रूप में नए डेटा एकत्र होने दृष्टिकोण।

अधिक जानने के लिए आप केविन पी। मर्फी द्वारा गौसियन डिस्ट्रीब्यूशन पेपर के उन स्लाइड्स और कंजुगेट बायेसियन विश्लेषण की जांच कर सकते हैं । यह भी जाँचें कि क्या बड़े नमूना आकार के साथ बायेसियन पादरी अप्रासंगिक हो जाते हैं? आप उन नोट्स और इस ब्लॉग प्रविष्टि को बायेसियन इंट्रेंस के लिए सुलभ चरण-दर-चरण परिचय के लिए भी देख सकते हैं।

— टिम
स्रोत

धन्यवाद, यह बहुत मददगार है। हम इस सरल उदाहरण (आपके उदाहरण के विपरीत अज्ञात विचरण) को हल करने के बारे में कैसे जाएंगे? मान लीजिए कि हमारे पास N ~ (5, 4) का पूर्व वितरण है और फिर हम 5 डेटा बिंदुओं (8, 9, 10, 8, 7) का निरीक्षण करते हैं। इन टिप्पणियों के बाद क्या होगा? पहले ही, आपका बहुत धन्यवाद। बहुत सराहना की।

— स्टेटस्टूडेंट

@ केली आपको ऐसे मामलों के लिए उदाहरण मिल सकता है जब या तो विचरण अज्ञात और माध्य ज्ञात होता है, या दोनों संयुग्म पुरोहितों पर विकिपीडिया प्रविष्टि और मेरे उत्तर के अंत में दिए गए लिंक से अज्ञात होते हैं। यदि माध्य और विचरण दोनों अज्ञात हैं तो यह थोड़ा अधिक जटिल हो जाता है।

— टिम

μ

$\mu$

σ^{2}

$\sigma^2$

4

$P(\theta)$ $P(x \mid \theta)$

P (θ ∣ x) = \frac{\sum_{θ} P (x ∣ θ) P (θ)}{P (x)}

$P(\theta \mid x) = \frac{\sum_\theta P(x \mid \theta) P(\theta)}{P(x)}$

$P(x)$

P (θ ∣ x) \sim \sum_{θ} P (x ∣ θ) P (θ)

$P(\theta \mid x) \sim \sum_\theta P(x \mid \theta)P(\theta)$

$\sim$

संयुग्म पुजारी का मामला (जहाँ आपको अक्सर अच्छे बंद फॉर्मूला मिलते हैं)

$\boldsymbol{\theta}$ $P(\boldsymbol{\theta})$ $P(\mathbf{x} \mid \boldsymbol{\theta})$ $P(\boldsymbol{\theta})$ $P(\boldsymbol{\theta} \mid \mathbf{x})$

संयुग्म वितरण की तालिका कुछ अंतर्ज्ञान बनाने में मदद कर सकती है (और खुद के माध्यम से काम करने के लिए कुछ शिक्षाप्रद उदाहरण भी दे सकती है)।

— मैथ्यू गुन
स्रोत

1

यह बायेसियन डेटा विश्लेषण के लिए केंद्रीय संगणना मुद्दा है। यह वास्तव में शामिल डेटा और वितरण पर निर्भर करता है। सरल मामलों के लिए जहां सब कुछ बंद रूप में व्यक्त किया जा सकता है (जैसे, संयुग्मित पुजारियों के साथ), आप सीधे बेयस के प्रमेय का उपयोग कर सकते हैं। अधिक जटिल मामलों के लिए तकनीकों का सबसे लोकप्रिय परिवार मार्कोव श्रृंखला मोंटे कार्लो है। विवरण के लिए, बायेसियन डेटा विश्लेषण पर कोई परिचयात्मक पाठ्यपुस्तक देखें।

— Kodiologist
स्रोत

आपको बहुत - बहुत धन्यवाद! क्षमा करें यदि यह वास्तव में मूर्खतापूर्ण अनुवर्ती प्रश्न है, लेकिन जिन साधारण मामलों में आपने उल्लेख किया है, हम सीधे बेयस के प्रमेय का उपयोग कैसे करेंगे? डेटा बिंदुओं के नमूना माध्य और विचरण द्वारा निर्मित वितरण संभावना कार्य बन जाएगा? आपका बहुत बहुत धन्यवाद।

— विधिवत

@ केली फिर, यह वितरण पर निर्भर करता है। उदाहरण देखें en.wikipedia.org/wiki/Conjugate_prior#Example । (यदि मैंने आपके प्रश्न का उत्तर दिया है, तो वोटिंग एरो के तहत चेक मार्क पर क्लिक करके मेरे उत्तर को स्वीकार करना न भूलें।)

— कोडियालॉजिस्ट