बायेसियन सांख्यिकी और जेनेरिक मॉडलिंग के बीच संबंध


15

क्या कोई मुझे एक अच्छे संदर्भ के लिए संदर्भित कर सकता है जो बेयसियन सांख्यिकी और जेनेरिक मॉडलिंग तकनीकों के बीच संबंध बताता है? हम आमतौर पर बायेसियन तकनीकों के साथ जेनेरिक मॉडल का उपयोग क्यों करते हैं?

क्यों यह विशेष रूप से संपूर्ण डेटा की अनुपस्थिति में बेयसियन आंकड़ों का उपयोग करने के लिए अपील कर रहा है, यदि बिल्कुल?

ध्यान दें कि मैं एक अधिक मशीन सीखने के उन्मुख दृष्टिकोण से आता हूं, और मैं सांख्यिकी समुदाय से इसके बारे में अधिक पढ़ने में रुचि रखता हूं।

इन बिंदुओं पर चर्चा करने वाले किसी भी अच्छे संदर्भ की बहुत सराहना की जाएगी। धन्यवाद।


मैं रूपांतरण के अनुकूली और सामान्य साधनों के बीच मूलभूत अंतर के बारे में पता लगा रहा हूं। ऐसा लगता है कि बायेसियन एक सांख्यिकीय मॉडल के रूप में अनुकूल है, लेकिन अनुकूली का अध्ययन करने के लिए अनुकूल है। इस निष्कर्ष पर और अधिक आत्मविश्वास से पहुंचने की जरूरत है।

1
हाय श्रीनिधि, साइट पर आपका स्वागत है। यह एक प्रश्न और उत्तर स्थल है। क्या आप कृपया अपनी टिप्पणी को एक प्रश्न में फिर से तैयार कर सकते हैं? साथ ही, यह प्रश्न जितना अधिक विशिष्ट होगा, उपयोगी उत्तर मिलने की संभावना उतनी ही अधिक होगी।
n

जवाबों:


12

मशीन में पूर्ण संभाव्यता मॉडल p (x, y) सीखने को जेनरेटर कहा जाता है क्योंकि इसका उपयोग डेटा उत्पन्न करने के लिए किया जा सकता है जबकि सशर्त मॉडल p (y | x) को विभेदक कहा जाता है क्योंकि यह p (x) के लिए संभाव्यता मॉडल निर्दिष्ट नहीं करता है। ) और केवल y दिया x उत्पन्न कर सकता है। दोनों का अनुमान बेयसियन फैशन में लगाया जा सकता है।

बायेसियन का अनुमान स्वाभाविक रूप से एक पूर्ण संभाव्यता मॉडल को निर्दिष्ट करने और मॉडल और डेटा पर अनुमान स्थिति का प्रदर्शन करने के बारे में है। इससे कई बायेसियन मॉडल एक जेनेरिक फील करते हैं। हालांकि एक बायेशियन के लिए महत्वपूर्ण अंतर इतना नहीं है कि डेटा कैसे उत्पन्न किया जाए, लेकिन ब्याज के अज्ञात मापदंडों के पीछे वितरण को प्राप्त करने के लिए क्या आवश्यक है, इसके बारे में अधिक।

भेदभावपूर्ण मॉडल p (y | x) बड़े मॉडल का हिस्सा है जहां p (y, x) = p (y | x) p (x) है। कई उदाहरणों में, p (x) मॉडल p में मापदंडों के पिछले वितरण के लिए अप्रासंगिक है (y | x)। विशेष रूप से, यदि p (x) के पैरामीटर p (y | x) से भिन्न हैं और पुजारी स्वतंत्र हैं, तो मॉडल p (x) में सशर्त मॉडल p (y | x) के अज्ञात मापदंडों के बारे में कोई जानकारी नहीं है, इसलिए एक बायेसियन को इसे मॉडल करने की आवश्यकता नहीं है।


अधिक सहज स्तर पर, "डेटा जनरेट करने" और "पोस्टीरियर वितरण की गणना" के बीच एक स्पष्ट लिंक है। रुबिन (1984) इस लिंक का निम्नलिखित उत्कृष्ट विवरण देता है:

यहाँ छवि विवरण दर्ज करें


बेयसियन सांख्यिकी को मुख्य रूप से लापता डेटा दिया जाता है क्योंकि यह उपद्रव मापदंडों - एकीकरण को खत्म करने का एक एकीकृत तरीका प्रदान करता है। गुम डेटा को (कई) उपद्रव मापदंडों के रूप में माना जा सकता है। वैकल्पिक मूल्य जैसे कि अपेक्षित मूल्य में प्लगिंग आमतौर पर खराब प्रदर्शन करेंगे क्योंकि हम उच्च स्तर की सटीकता के साथ लापता डेटा कोशिकाओं का अनुमान शायद ही लगा सकते हैं। यहां, एकीकरण अधिकतमकरण से बेहतर है।

P (y | x) जैसे विवेकशील मॉडल भी समस्याग्रस्त हो जाते हैं यदि x में लापता डेटा शामिल होता है क्योंकि हमारे पास केवल p (y | x_obs) का अनुमान लगाने के लिए डेटा होता है लेकिन अधिकांश समझदार मॉडल पूर्ण डेटा p (y | x) के संबंध में लिखे जाते हैं। यदि आपके पास पूरी तरह से प्रायिकता मॉडल p (y, x) है और बेयसियन हैं, तो आप ठीक हैं क्योंकि आप केवल लापता डेटा पर एकीकृत कर सकते हैं जैसे आप किसी अन्य अज्ञात मात्रा में।


2

@ ट्रिस्टन: आशा है कि आप मेरे जवाब का बुरा नहीं मानेंगे क्योंकि मैं इस बात पर काम कर रहा हूं कि सामान्य बिंदु को कैसे पारदर्शी बनाया जाए।

मेरे लिए, प्राथमिकआँकड़ों में अंतर्दृष्टि दोहराए गए अवलोकनों की अवधारणा करना है जो अलग-अलग होते हैं - जैसा कि संभावना उत्पन्न करने वाले मॉडल द्वारा उत्पन्न किया जा रहा है, जैसे कि सामान्य (म्यू, सिग्मा)। 1800 की शुरुआत में, मनोरंजन पैदा करने वाले मॉडल आमतौर पर सिर्फ मापदण्डों की भूमिका के साथ माप की त्रुटियों के लिए होते थे, जैसे कि म्यू और सिग्मा और उनके लिए पुजारी। फ़्रीक्वेंटिस्ट दृष्टिकोण ने मापदंडों को तय और अज्ञात के रूप में लिया और इसलिए संभावना उत्पन्न करने वाले मॉडल तब केवल संभव टिप्पणियों को शामिल करते थे। बायेसियन दृष्टिकोण (उचित पुजारियों के साथ) में संभावित अज्ञात मापदंडों और संभावित टिप्पणियों दोनों के लिए संभावना पैदा करने वाले मॉडल हैं। ये संयुक्त प्रायिकता उत्पन्न करने वाले मॉडल बड़े पैमाने पर सभी के लिए खाते हैं - इसे और अधिक आम तौर पर रखने के लिए - संभव अज्ञात (जैसे पैरामीटर) और ज्ञात (जैसे कि अवलोकन)। जैसा कि आपने रुबिन के लिंक में दिया है,

यह वास्तव में बहुत स्पष्ट रूप से गैल्टन द्वारा 1800 के अंत में एक दो चरण क्विनकुंक्स में चित्रित किया गया था। आकृति 5> स्टिगलर, स्टीफन एम। 2010 देखें। डार्विन, गैल्टन और सांख्यिकी

ज्ञान। रॉयल स्टैटिस्टिकल सोसायटी का जर्नल: श्रृंखला ए 173 (3): 469-482 । ।

यह बराबर है लेकिन शायद अधिक पारदर्शी है

पूर्ववर्ती = पूर्व (संभव अज्ञात) संभव ज्ञात = ज्ञात)

पूर्ववर्ती की तुलना में ~ पूर्व (संभव अज्ञात) * p (संभव ज्ञात = ज्ञात | संभव अज्ञात)

पूर्व में लापता मूल्यों के लिए बहुत कुछ नया नहीं है क्योंकि एक संभावित मॉडल के लिए संभव अज्ञात को जोड़ता है जो लापता मान उत्पन्न करता है और लापता को केवल एक ज्ञात ज्ञात के रूप में व्यवहार करता है (यानी तीसरा अवलोकन गायब था)।

हाल ही में, अनुमानित बायेसियन अभिकलन (एबीसी) ने इस रचनात्मक दो-चरण सिमुलेशन दृष्टिकोण को गंभीरता से लिया है जब पी (संभव ज्ञात = ज्ञात | अज्ञात अज्ञात) से काम नहीं किया जा सकता है। लेकिन जब यह काम किया जा सकता है और आसानी से प्राप्त किया जा सकता है, तो MCMC नमूनाकरण से प्राप्त करने योग्य (या तब भी जब पूर्ववर्ती संयुग्मित होने के कारण सीधे उपलब्ध है) रुबिन के इस दो चरण के नमूने के निर्माण के बारे में आसान समझ को सक्षम करने की बात को नजरअंदाज नहीं किया जाना चाहिए।

उदाहरण के लिए, मुझे यकीन है कि यह @Zen ने यहां क्या किया है, बायसियन : संभावना समारोह के दासों को पकड़ा होगा ? क्योंकि किसी को पहले (चरण एक) से एक संभावित अज्ञात सी खींचने की आवश्यकता होगी और फिर उस सी (चरण 2) को दिए गए संभावित ज्ञात (डेटा) को आकर्षित करेगा जो कि पी (संभव ज्ञात सी) के रूप में एक यादृच्छिक पीढ़ी नहीं होगी। केवल और केवल एक c के अलावा कोई संभावना नहीं है।

@Zen "Unfortunatelly से, सामान्य तौर पर, यह एक सांख्यिकीय मॉडल का वैध विवरण नहीं है। समस्या यह है कि, परिभाषा से,एक्समैं|सी(|सी) लगभग हर संभव मूल्य के लिए एक संभावना घनत्व होना चाहिएसी, जो सामान्य रूप से स्पष्ट रूप से गलत है। "

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.