नमूना के बिना उच्च आयामी अनुमान समस्याओं में अनिश्चितता का अनुमान?

मैं एक उच्च-आयामी अनुमान समस्या (लगभग 2000 मॉडल पैरामीटर) पर काम कर रहा हूं, जिसके लिए हम ढाल-आधारित अनुकूलन और एक आनुवंशिक एल्गोरिथ्म के संयोजन का उपयोग करके लॉग-पोस्टेरियर का वैश्विक अधिकतम पता लगाकर एमएपी अनुमान को मजबूत करने में सक्षम हैं।

मैं MAP अनुमान ढूँढने के अलावा मॉडल मापदंडों पर अनिश्चितताओं के कुछ अनुमान लगाने में सक्षम होना चाहता हूं।

हम मापदंडों के संबंध में लॉग-पोस्टियर के ग्रेडिएंट को कुशलतापूर्वक गणना करने में सक्षम हैं, इसलिए दीर्घकालिक हम हैमिल्टनियन एमसीएमसी का उपयोग कुछ नमूना करने के लिए कर रहे हैं, लेकिन अब मैं गैर-नमूना आधारित अनुमानों में रुचि रखता हूं।

एकमात्र तरीका जो मुझे पता है कि हेसियन के व्युत्क्रम की गणना करने के लिए मोड में लगभग मल्टीवेरियेट सामान्य के रूप में अनुमानित है, लेकिन यहां तक कि यह इतनी बड़ी प्रणाली के लिए संभव है, भले ही हम गणना करें हेसियन के तत्व मुझे यकीन है कि हम इसका उलटा नहीं पा सकते हैं। $\sim 4\times10^{6}$

क्या कोई सुझाव दे सकता है कि इस तरह के मामलों में आमतौर पर किस तरह के दृष्टिकोण का उपयोग किया जाता है?

धन्यवाद!

EDIT - समस्या के बारे में अतिरिक्त जानकारी

पृष्ठभूमि
यह एक बड़े भौतिकी प्रयोग से संबंधित उलटा समस्या है। हमारे पास 2 डी त्रिकोणीय जाल है जो कुछ भौतिक क्षेत्रों का वर्णन करता है, और हमारे मॉडल पैरामीटर मेष के प्रत्येक शीर्ष पर उन क्षेत्रों के भौतिक मूल्य हैं। मेष में लगभग 650 कोने हैं, और हम 3 क्षेत्रों को मॉडल करते हैं, इसलिए हमारे 2000 मॉडल पैरामीटर कहाँ से आते हैं।

हमारा प्रायोगिक डेटा ऐसे उपकरणों से है जो इन क्षेत्रों को सीधे मापते नहीं हैं, लेकिन वे मात्राएँ जो खेतों के जटिल गैर-रेखीय कार्य हैं। प्रत्येक अलग-अलग उपकरणों के लिए हमारे पास एक फॉरवर्ड-मॉडल है जो प्रायोगिक डेटा की भविष्यवाणियों के लिए मॉडल मापदंडों को मैप करता है, और भविष्यवाणी और माप के बीच तुलना एक लॉग-लाइबिलिटी पैदा करता है।

हम फिर इन सभी विभिन्न उपकरणों से लॉग-लाइबिलिटीज को जोड़ते हैं, और कुछ लॉग-पूर्व मान भी जोड़ते हैं जो कुछ भौतिक बाधाओं को खेतों में लागू करते हैं।

नतीजतन, मुझे संदेह है कि यह 'मॉडल' बड़े पैमाने पर एक श्रेणी में आता है - हमारे पास यह विकल्प नहीं है कि मॉडल क्या है, यह निर्धारित किया जाता है कि वास्तविक उपकरण कैसे काम करते हैं जो हमारे प्रयोगात्मक डेटा को इकट्ठा करते हैं।

डेटा सेट
डेटा सेट 500x500 छवियों से बना है, और प्रत्येक कैमरे के लिए एक छवि है इसलिए कुल डेटा बिंदु 500x500x4 = । $10^6$

त्रुटि मॉडल
हम समस्या में सभी त्रुटियों को वर्तमान में गाऊसी होने के लिए लेते हैं। कुछ बिंदु पर मैं सिर्फ कुछ अतिरिक्त लचीलेपन के लिए एक छात्र-टी त्रुटि मॉडल पर जाने की कोशिश कर सकता हूं, लेकिन अभी भी सिर्फ गॉसियन्स के साथ काम करना अच्छा लगता है।

संभावना उदाहरण
यह एक प्लाज्मा भौतिकी प्रयोग है, और हमारे डेटा का विशाल बहुमत केवल प्रकाश स्पेक्ट्रम के विशिष्ट भागों को देखने के लिए लेंस के सामने विशेष फिल्टर के साथ प्लाज्मा पर इंगित कैमरों से आता है।

डेटा को पुन: उत्पन्न करने के लिए दो चरण हैं; पहले हमें उस प्रकाश को मॉडल करना होगा जो कि मेष पर प्लाज्मा से आता है, फिर हमें उस प्रकाश को एक कैमरा छवि पर वापस लाना होगा।

दुर्भाग्य से प्लाज्मा से आने वाली प्रकाश की मॉडलिंग इस बात पर निर्भर करती है कि प्रभावी रूप से गुणांक क्या हैं, जो कहते हैं कि अलग-अलग प्रक्रियाओं द्वारा दिए गए क्षेत्रों में कितना प्रकाश उत्सर्जित होता है। इन दरों की भविष्यवाणी कुछ महंगे संख्यात्मक मॉडल द्वारा की जाती है, इसलिए हमें उनके आउटपुट को ग्रिड पर संग्रहीत करना होगा, और फिर मूल्यों को देखने के लिए प्रक्षेपित करना होगा। रेट फ़ंक्शन डेटा केवल एक बार गणना की जाती है - हम इसे स्टोर करते हैं फिर कोड शुरू होने पर उसमें से एक स्पिलिन बनाते हैं, और फिर उस स्पलाइन को सभी फ़ंक्शन मूल्यांकन के लिए उपयोग किया जाता है।

मान लें कि और रेट फ़ंक्शंस हैं (जिसे हम प्रक्षेप के द्वारा मूल्यांकन करते हैं), तो 'th vertex of the mesh पर द्वारा दिया जाता है जहां वे 3 फ़ील्ड हैं जो हम मेष पर मॉडल करते हैं। एक कैमरा छवि के लिए उत्सर्जन के वेक्टर को प्राप्त करना आसान है, यह सिर्फ एक मैट्रिक्स साथ गुणा है, जो प्रत्येक कैमरा पिक्सेल के जाल के किन हिस्सों को एनकोड करता है। $R_1$ $R_2$ $i$ $\mathcal{E}_i$

E_{i} = R_{1} (x_{i}, y_{i}) + z_{i} R_{2} (x_{i}, y_{i})

$\mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i)$

(x, y, z)

$(x,y,z)$

G

$\mathbf{G}$

चूँकि त्रुटियाँ गौसियन हैं, इस विशेष कैमरे के लिए लॉग- तब

L = - \frac{1}{2} (G \vec{E} - \vec{d})^{⊤} Σ^{- 1} (G \vec{E} - \vec{d})

$\mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})^{\top}\mathbf{\Sigma}^{-1} (\mathbf{G}\vec{\mathcal{E}} - \vec{d})$

जहां कैमरा डेटा है। कुल लॉग- उपर्युक्त अभिव्यक्तियों में से 4 का योग है, लेकिन विभिन्न कैमरों के लिए, जिनमें सभी में अलग-अलग संस्करण हैं जो फ़ंक्शन क्योंकि वे प्रकाश स्पेक्ट्रम के विभिन्न भागों को देख रहे हैं। $\vec{d}$ $R_1, R_2$

पूर्व उदाहरण में
हमारे पास कई पुजारी हैं जो प्रभावी रूप से विभिन्न मात्राओं पर केवल कुछ ऊपरी और निचले सीमा निर्धारित करते हैं, लेकिन ये समस्या पर बहुत दृढ़ता से कार्य नहीं करते हैं। हमारे पास एक पूर्व है जो दृढ़ता से कार्य करता है, जो प्रभावी रूप से खेतों में लाप्लासियन-प्रकार चौरसाई पर लागू होता है। यह एक गाऊसी रूप भी लेता है:

log-prior = - \frac{1}{2} {\vec{x}}^{⊤} S \vec{x} - \frac{1}{2} {\vec{y}}^{⊤} S \vec{y} - \frac{1}{2} {\vec{z}}^{⊤} S \vec{z}

$\text{log-prior} = -\frac{1}{2}\vec{x}^{\top}\mathbf{S}\vec{x} -\frac{1}{2}\vec{y}^{\top}\mathbf{S}\vec{y} -\frac{1}{2}\vec{z}^{\top}\mathbf{S}\vec{z}$

— CBowman
स्रोत

क्या मॉडल आप फिटिंग कर रहे हैं? रेखीय प्रतिगमन? जीपी? एक पदानुक्रमित गणना मॉडल? कंप्यूटर मॉडल का बायेसियन अंशांकन? कृपया आपके द्वारा हल की जा रही समस्या पर अधिक विवरण जोड़ें, और मैं VI के पेशेवरों और विपक्षों के साथ उत्तर लिखूंगा।

— 12

@DeltaIV मैंने कुछ और जानकारी के साथ सवाल को अपडेट किया है - यह हो सकता है कि मैं उस बारे में विस्तार से नहीं बता पाया जो आप देख रहे थे। यदि ऐसा है तो मुझे बताएं और मैं एक और संपादन करूंगा, धन्यवाद!

— CBowman

@DeltaIV फिर से धन्यवाद! अधिक जानकारी जोड़ी गई, मुझे बताएं कि क्या कुछ और है जो मैं जोड़ सकता हूं।

— CBowman

@ डेटाप्लेइव डेटा 500x500 हैं, और प्रत्येक कैमरे के लिए एक है इसलिए कुल डेटा बिंदु 500x500x4 = । रेट फंक्शन डेटा को केवल एक बार गणना की जाती है - हम इसे स्टोर करते हैं फिर कोड शुरू होने पर उसमें से एक स्पलाइन बनाते हैं, और फिर उस फंक्शन को सभी फंक्शन मूल्यांकन के लिए उपयोग किया जाता है।

10^{6}

$10^6$

— CBowman

मेरे पास कोई संदर्भ नहीं है, लेकिन मैट्रिक्स व्युत्क्रम की गणना करने के लिए बहुत कम रैंक सन्निकटन हैं। उदाहरण के लिए सबसे बड़ा eigenvalues खोजें, शेष समान हैं, और निम्न eigenvalue के समान eigenvectors के लिए किसी न किसी सन्निकटन का उपयोग करें। मुझे पूरा यकीन है कि लगभग अनुमानित / पुनरावृत्ति करने वाले चोल्स्की डिकम्पोजिशन भी हैं जो सटीक मूल्य में परिवर्तित होते हैं। आपके द्वारा पुनरावृत्तियों को समाप्त करने के बाद, अधिकतम समय क्या है

k

$k$

2000 - k

$2000-k$

— प्रायिकताश्लोगिक

जवाबों:

सबसे पहले, मुझे लगता है कि आपका सांख्यिकीय मॉडल गलत है। मैं आपके अंकन को एक और सांख्यिकीविद् से परिचित कराता हूं, इस प्रकार बदल देता हूं

घ = y = (y_{1}, ..., y_{एन}), एन = 10^{6}

$\mathbf{d}=\mathbf{y}=(y_1,\dots,y_N),\ N=10^6$

अवलोकन (डेटा) के अपने वेक्टर हो, और

\begin{aligned} एक्स & = θ = (θ_{1}, ..., θ_{पी}) \\ y & = φ = (φ_{1}, ..., φ_{पी}) \\ z & = ρ = (ρ_{1}, ..., ρ_{पी}), पी \approx 650 \end{aligned}

$\begin{align} \mathbf{x}&=\boldsymbol{\theta}=(\theta_1,\dots,\theta_p) \\ \mathbf{y}&=\boldsymbol{\phi}=(\phi_1,\dots,\phi_p) \\ \mathbf{z}&=\boldsymbol{\rho}=(\rho_1,\dots,\rho_p), \ p \approx 650 \\ \end{align}$

कुल आयाम के मापदंडों के आपके वैक्टर । फिर, अगर मैं सही ढंग से समझ गया, तो आप एक मॉडल मान लेते हैं $d=3p \approx 2000$

y = जी {आर}_{1} (θ, φ) + ρ जी {आर}_{2} (θ, φ)) + ε, ε ~ एन (0, {मैं}_{एन})

$\mathbf{y} = \mathbf{G}\mathbf{r_1}(\boldsymbol{\theta}, \boldsymbol{\phi})+\boldsymbol{\rho}\mathbf{G}\mathbf{r_2}(\boldsymbol{\theta}, \boldsymbol{\phi}))+\boldsymbol{\epsilon},\ \boldsymbol{\epsilon}\sim\mathcal{N}(0,I_N)$

जहां है पट्टी प्रक्षेप मैट्रिक्स। $\mathbf{G}$ $N\times d$

यह स्पष्ट रूप से गलत है। एक ही कैमरे से छवि में विभिन्न बिंदुओं पर त्रुटियों का कोई रास्ता नहीं है, और विभिन्न कैमरों से छवियों में एक ही बिंदु पर स्वतंत्र हैं। आपको स्थानिक आँकड़े और मॉडल जैसे कि सामान्यीकृत कम से कम वर्ग, अर्धवृत्तात्मक अनुमान, सिंचाई, गौसियन प्रक्रियाएँ आदि देखने चाहिए।

यह कहते हुए कि, चूंकि आपका प्रश्न यह नहीं है कि क्या मॉडल वास्तविक डेटा जनरेट करने की प्रक्रिया का अच्छा अनुमान है, लेकिन इस तरह के मॉडल का अनुमान कैसे लगाया जाए, तो मैं आपको कुछ विकल्प दिखाऊंगा।

एचएमसी

2000 पैरामीटर एक बहुत बड़ा मॉडल नहीं है, जब तक कि आप इस चीज़ को लैपटॉप पर प्रशिक्षित नहीं करते हैं। डेटासेट बड़ा है ( डेटा पॉइंट्स), लेकिन फिर भी, यदि आपके पास क्लाउड इंस्टेंसेस या GPU के साथ मशीनें हैं, तो Pyro या Tensorflow Probability जैसे फ्रेमवर्क इस तरह की समस्या को कम कर देंगे। इस प्रकार, आप बस GPU द्वारा संचालित हैमिल्टनियन मोंटे कार्लो का उपयोग कर सकते हैं। $10^6$

पेशेवरों : चेन से नमूनों की एक अनंत संख्या की सीमा में "सटीक" अनुमान।

विपक्ष : अनुमान त्रुटि पर कोई तंग बाध्य नहीं है, कई अभिसरण नैदानिक मीट्रिक मौजूद हैं, लेकिन कोई भी आदर्श नहीं है।

बड़ा नमूना सन्निकटन

संकेतन के दुरुपयोग के साथ, आइए अपने तीन मापदंडों के मापदंडों को हुए वेक्टर द्वारा प्राप्त किए गए वेक्टर को देखें। फिर, बायेसियन केंद्रीय सीमा प्रमेय (बर्नस्टीन-वॉन मिज़) का उपयोग करते हुए, आप साथ , जहां "सही" पैरामीटर मान है, है, जो MLE का का अनुमान है और फिशर सूचना मैट्रिक्स का मूल्यांकन है। । निस्संदेह, अज्ञात होने के कारण, हम $\theta$ $p(\theta\vert \mathbf{y})$ $\mathcal{N}(\hat{\theta_0}_n,I_n^{-1}(\theta_0))$ $\theta_0$ $\hat{\theta_0}_n$ $\theta_0$ $I_n^{-1}(\theta_0)$ $\theta_0$ $\theta_0$ $I_n^{-1}(\hat{\theta_0}_n)$ बजाय। बर्नस्टीन-वॉन मिज़ प्रमेय की वैधता कुछ परिकल्पनाओं पर निर्भर करती है जो आप पा सकते हैं, ee g।, यहाँ : आपके मामले में, यह मानते हुए कि चिकनी और भिन्न हैं, प्रमेय मान्य है, क्योंकि एक गाऊसी का समर्थन है। पूर्व पूरे पैरामीटर स्थान है। या, बेहतर है, यह मान्य होगा , यदि आपका डेटा वास्तव में iid था जैसा कि आप मानते हैं, लेकिन मुझे विश्वास नहीं है कि वे हैं, जैसा कि मैंने शुरुआत में समझाया था। $R_1,R_2$

पेशेवरों : विशेष रूप से मामले में उपयोगी है । Iid सेटिंग में, सही उत्तर में धर्मान्तरित होने की गारंटी, जब संभावना चिकनी और भिन्न हो और पूर्व में पड़ोस में । $p<<N$ $\theta_0$

विपक्ष : सबसे बड़ा चोर, जैसा कि आपने नोट किया, फिशर सूचना मैट्रिक्स को पलटने की आवश्यकता है। इसके अलावा, मुझे नहीं पता होगा कि कैसे अनुमानित रूप से सटीकता का न्याय किया जा सकता है, से नमूने खींचने के लिए MCMC नमूना का उपयोग करने की कमी । बेशक, यह पहली जगह में बी-वीएम का उपयोग करने की उपयोगिता को हरा देगा। $p(\theta\vert \mathbf{y})$

परिवर्तन संबंधी अनुमान

इस मामले में, सटीक खोजने के बजाय (जिसमें एक -अभिन्न इंटीग्रल की गणना की आवश्यकता होगी ), हम साथ अनुमानित को चुनते हैं। , जहां पैरामीट्रिक परिवार है, जिसे वेक्टर वेक्टर द्वारा अनुक्रमित किया गया है । हम और बीच विसंगति के कुछ माप को देखते हुए को देखते हैं। केएल विचलन होने के लिए इस उपाय को चुनना, हम भिन्नता संबंधी विधि प्राप्त करते हैं: $p(\theta\vert \mathbf{y})$ $d-$ $p$ $q_{\phi}(\theta)$ $q$ $\mathcal{Q}_{\phi}$ $\phi$ $\phi^*$ $q$ $p$

φ^{*} = \underset{φ \in Φ}{ए आर जी म मैं n} {डी}_{क एल} ({क्ष}_{φ} (θ) | | पी (θ | y))

$\DeclareMathOperator*{\argmin}{arg\,min} \phi^*=\argmin_{\phi\in\Phi}D_{KL}(q_{\phi}(\theta)||p(\theta\vert\mathbf{y}))$

पर आवश्यकताओं के : $q_{\phi}(\theta)$

यह संबंध में भिन्न होना चाहिए , ताकि हम बड़े पैमाने पर अनुकूलन के लिए तरीकों को लागू कर सकें, जैसे कि स्टोचस्टिक ग्रेडिएंट डिसेंट, कम से कम समस्या को हल करने के लिए। $\phi$
यह इतना लचीला होना चाहिए कि यह कुछ मान के लिए लगभग को सटीक रूप से अनुमानित कर सके , लेकिन इतना सरल भी है कि इससे नमूना लेना आसान है। ऐसा इसलिए है क्योंकि केएल डाइवर्जेंस (हमारे अनुकूलन उद्देश्य) का अनुमान लगाने के लिए एक अपेक्षा wrt अनुमान लगाना आवश्यक है । $p(\theta\vert\mathbf{y})$ $\phi$ $q$

आप पूरी तरह से फैक्टराइज्ड होने के लिए को चुन सकते हैं , अर्थात, univariate प्रायिकता वितरण के उत्पाद : $q_{\phi}(\theta)$ $d$

{क्ष}_{φ} (θ) = Π_{मैं = 1}^{घ} {क्ष}_{φ_{मैं}} (θ_{मैं})

$q_{\phi}(\theta)=\prod_{i=1}^d q_{\phi_i}(\theta_i)$

यह तथाकथित माध्य-क्षेत्र भिन्न-भिन्न खाड़ी विधि है। कोई भी साबित कर सकता है (देखें, उदाहरण के लिए, इस पुस्तक के अध्याय 10 ) कि प्रत्येक कारक लिए इष्टतम समाधान है $q_{\phi_j}(\theta_j)$

लॉग {क्ष}_{जे}^{*} (θ_{जे}) = इ_{मैं \neq जे} [लॉग पी (y, θ)] + स्थिरांक।

$\log{q_j^*(\theta_j)} = \mathbb{E}_{i\neq j}[\log{p(\mathbf{y},\theta)}] + \text{const.}$

जहां मापदंडों और डेटा का संयुक्त वितरण है (आपके मामले में, यह आपके गाऊसी संभावना और मापदंडों पर गाऊसी पादरियों का उत्पाद है) और उम्मीद अन्य चर के संबंध में है univariate वितरण । बेशक, चूंकि कारकों में से एक के लिए समाधान सभी अन्य कारकों पर निर्भर करता है, इसलिए हमें सभी पुनरावृत्तियों को लागू करना होगा, सभी वितरणों को शुरू करते हुए को कुछ प्रारंभिक अनुमान और फिर पुनरावृत्तियों में से एक को अपडेट करना होगा। एक बार ऊपर के समीकरण के साथ। ध्यान दें कि एक रूप में ऊपर उम्मीद की गणना के बजाय $p(\mathbf{y},\theta)$ $q_1^*(\theta_1),\dots,q_{j-1}^*(\theta_{j-1}),q_{j+1}^*(\theta_{j+1}),\dots,q_{d}^*(\theta_{d})$ $q_{i}(\theta_{i})$ $(d-1)-$ आयामी अभिन्न, जो आपके मामले में निषेधात्मक होगा जहां पादरियों और संभावना को संयुग्मित नहीं किया जाता है, आप अपेक्षा को अनुमानित करने के लिए मोंटे कार्लो अनुमान का उपयोग कर सकते हैं।

माध्य-क्षेत्र भिन्नता संबंधी बेयर्स अल्गोरिद्म एकमात्र संभव VI एल्गोरिथ्म नहीं है जिसका आप उपयोग कर सकते हैं: किंग्मा एंड वेलिंग, 2014 में प्रस्तुत वैरिएंट आटोकेनोडर , "आटो-एन्कोडिंग वैरेशनल बेसेस " एक दिलचस्प विकल्प है, जहां, एक पूर्ण रूप से कारक रूप ग्रहण करने के बजाय, के लिए , और उसके बाद के लिए एक पूर्ण-सूत्र अभिव्यक्ति पाने , मल्टीवेरिएट गाऊसी माना जाता है, लेकिन में से प्रत्येक में संभवतः विभिन्न मापदंडों के साथ डेटा बिंदुओं। अनुमान की लागत को बढ़ाने के लिए, एक न्यूरल नेटवर्क का उपयोग इनपुट स्पेस को वैरिएबल पैरामीटर स्पेस में मैप करने के लिए किया जाता है। एल्गोरिथ्म के विस्तृत विवरण के लिए पेपर देखें: VAE कार्यान्वयन सभी प्रमुख डीप लर्निंग फ्रेमवर्क में फिर से उपलब्ध हैं। $q$ $q_i$ $q$ $N$

— DeltaIV
स्रोत

वीबी स्वतंत्रता मॉडल सटीकता उपायों के लिए एक भयानक दृष्टिकोण हो सकता है । यह आमतौर पर एक प्लग-इन प्रकार के समायोजन के बिना होता है। सरल उदाहरण आप में स्वतंत्रता की "डिग्री" का उपयोग नहीं कर रहे हैं और टी वितरण के बजाय सामान्य का उपयोग कर। विशेष रूप से अति मानकों के लिए एक समस्या

s^{2}

$s^2$

— probabilityislogic

@ डेल्टिव आमतौर पर सांख्यिकीय मॉडल वास्तव में बहुत अच्छा होता है, विभिन्न कैमरों के बीच की त्रुटियां बहुत अधिक स्वतंत्र होती हैं, और एक ही कैमरे में अलग-अलग पिक्सेल मूल रूप से स्वतंत्र होने के लिए जा रहे हैं जब तक कि वे शाब्दिक रूप से आसन्न न हों। हम एक गाऊसी प्रक्रिया की संभावना का उपयोग करके आसन्न पिक्सल में कुछ स्थानिक सहसंबंध को सांकेतिक शब्दों में बदलना कर सकते हैं, लेकिन इससे हमें या तो सीधे तौर पर सहसंयोजक मैट्रिक्स को पलटना होगा, या हर बार एक विरल रैखिक प्रणाली को हल करना होगा जो संभावना का मूल्यांकन करना चाहते हैं, जो बहुत अधिक है महंगा (हालांकि सवाल से बाहर नहीं)।

— CBowman

आप "बायेसएक्स" सॉफ़्टवेयर में से कुछ को देखना चाहते हैं और संभवतः "इनला" सॉफ़्टवेयर को भी। इन दोनों में कुछ विचार होने की संभावना है जो आप कोशिश कर सकते हैं। यह गूगल

दोनों ही सटीक मैट्रिक्स (Ie सशर्त स्वतंत्रता, मार्कोव टाइप मॉडल) के पैरामीटराइजेशन में बहुत कम निर्भरता पर भरोसा करते हैं - और इसके लिए डिज़ाइन किया गया उलटा एल्गोरिदम है। अधिकांश उदाहरण मल्टी लेवल या ऑटो रिग्रेसिव गासियन मॉडल पर आधारित होते हैं। आपके द्वारा पोस्ट किए गए उदाहरण के समान होना चाहिए

— probabilityislogic
स्रोत