क्या मैं हर MCMC पुनरावृत्ति पर एक बड़े डेटासेट की सदस्यता ले सकता हूँ?


8

समस्या: मैं एक बड़े डेटासेट पर कुछ पीछे हटने के लिए गिब्स नमूना प्रदर्शन करना चाहता हूं। Unfortunatelly, मेरा मॉडल बहुत सरल नहीं है और इस प्रकार नमूना बहुत धीमा है। मैं परिवर्तनशील या समानांतर दृष्टिकोणों पर विचार करूंगा, लेकिन उस दूर जाने से पहले ...

प्रश्न: मैं यह जानना चाहूंगा कि क्या मैं हर गिब्स पुनरावृत्ति में अपने डेटासेट से बेतरतीब ढंग से नमूना (प्रतिस्थापन के साथ) ले सकता हूं, ताकि मेरे पास हर कदम पर सीखने के लिए कम उदाहरण हैं।

मेरा अंतर्ज्ञान यह है कि अगर मैं नमूने बदल देता हूं, तो भी मैं संभावना घनत्व नहीं बदलूंगा और इसलिए गिब्स नमूना को चाल पर ध्यान नहीं देना चाहिए। क्या मैं सही हू? क्या ऐसा करने वाले लोगों के कुछ संदर्भ हैं?


1
एक तरफ के रूप में: एक और विचार बड़े डेटासेट के यादृच्छिक उपसमूह पर कई विश्लेषण करना होगा। इस तरह आप क्रॉस-वेलिडेट भी कर सकते हैं।
अनुमान

2
मैं किसी भी प्राधिकरण के साथ आपके सटीक प्रश्न का उत्तर नहीं दे सकता (हालांकि मेरा संदेह यह है कि आप सिर्फ मोंटे कार्लो के साथ आने वाले सन्निकटन त्रुटि को बढ़ाएंगे), दुखद सच्चाई यह है कि यह बायेसियन एमसीएमसी विश्लेषण का सिर्फ एक दुर्भाग्यपूर्ण पहलू है: वे कम्प्यूटेशनल रूप से हैं महंगा। @ कॉन्जेक्ट्स टिप्पणी एक महान विचार है, लेकिन वास्तव में इस मुद्दे पर दिल में नहीं आता है: प्रत्येक व्यक्ति के लिए उन सभी नमूनों को आकर्षित करना बहुत महंगा है। मेरी सिफारिश है कि भारी काम (Rcpp in R, Cython in Python, आदि) के लिए अपना स्वयं का C कोड लिखें और साथ ही (जब कोई शाखा निर्भरता न हो) समानांतर करें।

1
@conjectures यह माइकल जॉर्डन के छोटे बूटस्ट्रैप के बैग की तरह लगता है।
जरदनीमी

1
मैं पूरी तरह से अव्यक्त चर वृद्धि से बचने के लिए आपका नमूना बदलने का सुझाव दूंगा। अब आपके पास एक गिब्स नमूना नहीं होगा, लेकिन संभावना के लिए एक सामान्य सन्निकटन के आधार पर एक प्रस्ताव के साथ एक मेट्रोपोलिस-हेस्टिंग्स एल्गोरिदम बस ठीक काम करना चाहिए। बायेसियन डेटा विश्लेषण के दूसरे संस्करण की धारा 16.4 देखें।
जरदनीमी जुं

6
यह सक्रिय अनुसंधान का एक क्षेत्र है जिसे मैं आपके लिए संक्षेप में अच्छी तरह से नहीं जानता। उदाहरण के लिए देखें jmlr.org/proceedings/papers/v32/bardenet14.pdf और arxiv.org/pdf/1304.5299v4.pdf
एंड्रयू एम

जवाबों:


1

सबसेंम्पलिंग रणनीतियों के बारे में: उदाहरण के लिए केवल दो टिप्पणियों पर विचार करें X1N(μ1,σ12) तथा X2N(μ2,σ22)और माध्य और विचरण पर कुछ पुजारी लगाने के लिए विचार करें। चलोθ=(μ1,μ2,σ12,σ22)हम जिस पद का मूल्यांकन करना चाहते हैं, वह है

f(θ|X1,X2)f(X1|θ)f(X2|θ)f(θ)
कॉन्सडर अब एक द्विपद चर है δB(0.5)। अगरδ=0 हमने चुना है X1, अगर δ=1 हमने चुना है X2नई पोस्टीरियर है
f(θ,δ|X1,X2)f(X1,X2|δ,θ)f(θ)f(δ)
कहाँ पे f(X1,X2|δ,θ)=f(X1|θ)δf(X2|θ)1δ तथा f(δ)=0.5। अब अगर आप नमूना लेना चाहते हैंδ गिब्स कदम के साथ आपको गणना करनी होगी f(X1|θ) तथा f(X2|θ) चूंकि P(δ=1)=f(X1|θ)f(X1|θ)+f(X2|θ)। यदि आप अन्यथा मेट्रोपोलिस हेस्टिंग्स का उपयोग करते हैं तो आप एक नए राज्य का प्रस्ताव करते हैंδ और आपको केवल एक के बीच गणना करनी है f(X1|θ) तथा f(X2|θ)एक प्रस्तावित राज्यों से जुड़ा है, लेकिन आपको बीच में एक की गणना करनी होगी f(X1|θ) तथा f(X2|θ) यहां तक ​​कि अंतिम स्वीकृत स्थिति के लिए भी δ। तब मुझे यकीन नहीं है कि महानगर आपको कुछ लाभ देगा। इसके अलावा यहाँ हम एक द्विभाजित प्रक्रिया पर विचार कर रहे हैं, लेकिन एक बहुभिन्नरूपी प्रक्रिया के नमूने के साथδs महानगर के साथ बहुत जटिल हो सकता है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.