10D MCMC श्रृंखला को देखते हुए, मैं R में इसके पोस्ट मोड (एस) को कैसे निर्धारित कर सकता हूं?


10

प्रश्न: 10 आयामी MCMC श्रृंखला के साथ, मान लें कि मैं आपको ड्रॉ का एक मैट्रिक्स सौंपने के लिए तैयार हूं: 10 मापदंडों (कॉलम) द्वारा 100,000 पुनरावृत्तियों (पंक्तियों), मैं पोस्टीरियर मोड्स को कैसे पहचान सकता हूं? मैं विशेष रूप से कई मोड से चिंतित हूं।

पृष्ठभूमि:मैं खुद को एक कम्प्यूटेशनल रूप से समझदार सांख्यिकीविद् मानता हूं, लेकिन जब एक सहकर्मी ने मुझसे यह सवाल पूछा, तो मुझे शर्म आई कि मैं उचित जवाब नहीं दे पाया। प्राथमिक चिंता यह है कि कई मोड दिखाई दे सकते हैं, लेकिन केवल अगर कम से कम आठ या दस आयामों पर विचार किया जाता है। मेरा पहला विचार कर्नेल घनत्व अनुमान का उपयोग करना होगा, लेकिन आर के माध्यम से एक खोज में तीन आयामों से अधिक की समस्याओं के लिए आशाजनक कुछ भी नहीं पता चला। सहकर्मी ने दस आयामों में और अधिकतम की खोज करने के लिए एक तदर्थ बायनिंग रणनीति का प्रस्ताव दिया है, लेकिन मेरी चिंता यह है कि बैंडविड्थ या तो महत्वपूर्ण विरलता समस्याओं का कारण बन सकती है या कई मोडों को विघटित करने के लिए संकल्प की कमी हो सकती है। उस ने कहा, मैं खुशी से स्वचालित बैंडविड्थ सुझावों के लिए सुझाव स्वीकार करता हूं, 10 कर्नेल घनत्व अनुमानक के लिंक, या कुछ और जिसके बारे में आप जानते हैं।

चिंताओं:

  1. हम मानते हैं कि वितरण काफी कम हो सकता है; इसलिए, हम पोस्टीरियर मोड की पहचान करना चाहते हैं, न कि पोस्टीरियर साधनों की।

  2. हम चिंतित हैं कि कई पश्च मोड हो सकते हैं।

  3. यदि संभव हो तो, हम आर आधारित सुझाव पसंद करेंगे। लेकिन किसी भी एल्गोरिथ्म के रूप में लंबे समय के रूप में इसे लागू करने के लिए अविश्वसनीय रूप से मुश्किल नहीं है। मुझे लगता है कि मैं खरोंच से स्वचालित बैंडविड्थ चयन के साथ एक एनडी कर्नेल घनत्व अनुमानक को लागू नहीं करना पसंद करूंगा।


कृपया तेज मोड अनुमान विधियों पर विषय देखें। आँकड़े। Com .exexchange.com
पावेल

जवाबों:


9

क्या आपने निकटतम पड़ोसी दृष्टिकोण का उपयोग करने पर विचार किया है?

उदाहरण के kलिए, 100'000 अंकों में से प्रत्येक के लिए निकटतम पड़ोसियों की सूची बनाना और फिर kthपड़ोसी के सबसे छोटी दूरी के साथ डेटा बिंदु पर विचार करें। दूसरे शब्दों में: kइस बिंदु के आसपास अन्य बिंदुओं वाले 'सबसे छोटे बुलबुले' के साथ बिंदु ढूंढें ।

मुझे यकीन नहीं है कि यह कितना मजबूत है और इसके लिए विकल्प kस्पष्ट रूप से परिणामों को प्रभावित कर रहा है।


कभी-कभी मैं सिर्फ अपने आप को सिर के बल फेंकना चाहता हूं। बहुत बढ़िया सुझाव।
एम। टिबबिट्स

1
मैंने भी kmeansआर में फ़ंक्शन का उपयोग करने के बारे में सोचा था । मुझे वास्तव में आधी रात और सुबह 4 बजे के बीच सवाल नहीं पूछना चाहिए।
एम। टिबबिट्स

4

यह केवल एक आंशिक उत्तर है।

मैंने हाल ही में बहुआयामी गिरी घनत्व अनुमानों के लिए अंजीर का इस्तेमाल किया । यह एक सी पैकेज है और मुझे यह काफी आसानी से काम करने के लिए मिला है। हालांकि, मैंने इसका उपयोग केवल विशेष बिंदुओं पर घनत्व का अनुमान लगाने के लिए किया था, न कि सारांश के आँकड़ों की गणना के लिए।


3

यदि आप लॉग संभावना रखते हैं, तो आप सबसे अधिक मूल्य वाले को चुन सकते हैं। इसके अलावा, यदि आपकी रुचि मुख्य रूप से मोड है, तो उच्चतम लॉग संभावना के साथ बिंदु को खोजने के लिए एक अनुकूलन करना पर्याप्त होगा।


यह सबसे प्रासंगिक उत्तर है, कम से कम पहला भाग! कई MCMC सिमुलेशन में, (लॉग-) संभावना सभी प्रस्तावों के लिए गणना की जाती है और इस प्रकार संग्रहीत की जा सकती है। या अब तक का उच्चतम मूल्य और इसका तर्क संग्रहीत किया जा सकता है। बशर्ते MCMC एल्गोरिथ्म आपके द्वारा चलाए गए सिमुलेशन की संख्या से अधिक है, यह एक वैध दृष्टिकोण है।
शीआन

2

क्या आपने 'PRIM / बम्प हंटिंग' पर विचार किया है? (तिब्शीरानी एट अल द्वारा 'द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग' की धारा 9.3 और उदाहरण देखें। या अपने पसंदीदा खोज इंजन से पूछें)। यह सुनिश्चित नहीं है कि यह R में लागू है या नहीं।

[जहाँ तक मैं समझता हूँ कि आप संभावना घनत्व के उस मोड को खोजने की कोशिश कर रहे हैं जहाँ से आपकी 100'000 पंक्तियाँ खींची गई हैं। इसलिए आपकी समस्या को एक उपयुक्त density estimationविधि द्वारा आंशिक रूप से हल किया जाएगा ]।


हां, आर विगनेट के साथ एक प्राइमरी पैकेज है: बम्प हंटिंग के लिए प्राइम का उपयोग करना । हालांकि यह इस मामले में कैसे काम करेगा, यह मेरे लिए स्पष्ट नहीं है।
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.