बायेसियन मॉडल चयन और विश्वसनीय अंतराल


10

मेरे पास तीन चरों वाला एक डेटासेट है, जहाँ सभी चर परिमाण हैं। इसे , और । मैं MCMC के माध्यम से एक Bayesian परिप्रेक्ष्य में एक प्रतिगमन मॉडल फिटिंग कर रहा हूंyx1x2rjags

मैंने एक खोजपूर्ण विश्लेषण किया और सुझाव है कि एक द्विघात शब्द का उपयोग किया जाना चाहिए। फिर मैंने दो मॉडल फिट किएy×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

मॉडल 1 में प्रत्येक पैरामीटर का प्रभाव आकार छोटा नहीं है और 95% विश्वसनीय अंतराल में मान ।0

मॉडल 2 में पैरामीटर का प्रभाव आकार और छोटा है और सभी मापदंडों के लिए विश्वसनीय अंतराल में से प्रत्येक में शामिल हैं ।β3β40

तथ्य यह है कि एक विश्वसनीय अंतराल में होता है, यह कहने के लिए पर्याप्त है कि पैरामीटर महत्वपूर्ण नहीं है?0

फिर मैंने निम्नलिखित मॉडल को समायोजित किया

(3)y=β0+β1x1+β2x2+β3x22

प्रत्येक पैरामीटर का प्रभाव आकार छोटा नहीं है, लेकिन अपवाद के साथ सभी विश्वसनीय अंतरालों में होता है ।β10

बेयसियन आँकड़ों में परिवर्तनशील चयन करने का सही तरीका कौन सा है?

संपादित करें: मैं बीटा मॉडल की तरह किसी भी प्रतिगमन मॉडल में लासो का उपयोग कर सकता हूं? मैं चर फैलाव के साथ एक मॉडल का उपयोग कर रहा हूं जहां जहां एक वेक्टर है। मैं पहले भी लाप्लास का उपयोग करना चाहिए ?

log(σ)=δδX
δδδδ

EDIT2: मैंने दो मॉडल फिट किए, एक गॉसियन लिए , और एक लाप्लास (डबल-एक्सपोनेंशियल) के साथ।βjδj

गाऊसी मॉडल के लिए अनुमान हैं

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

लासो मॉडल के लिए अनुमान हैं

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

Lasso मॉडल में और लिए अनुमान बहुत कम हो गए, इसका मतलब है कि मुझे इस चर को मॉडल से हटा देना चाहिए?δ2δ4

EDIT3: डबल एक्सपोनेंशियल पूर्व ( लास्सो) वाले मॉडल ने मुझे गौसियन पादरियों के साथ मॉडल की तुलना में बड़े डिविज़न, बीआईसी और डीआईसी मान दिए और मुझे गौसियन मॉडल में फैलाव गुणांक के को हटाने के बाद एक छोटा मान भी मिला ।δ2


2
DBDA2E * की धारा 18.4 कई प्रतिगमन में परिवर्तनशील चयन के बारे में है। महान सावधानी के साथ आप प्रत्येक गुणांक के साथ समावेश संकेतकों में डाल सकते हैं और समावेश की पिछली संभावना को देख सकते हैं। मापदंडों के पीछे के वितरण की व्याख्या करते समय, शून्य सहित 95% एचडीआई शून्य के समकक्षता को इंगित नहीं करता है। * DBDA2E = बायेसियन डेटा विश्लेषण 2 संस्करण करना।
जॉन के। क्रुस्चके

2
एक बायेसियन ढांचे में मॉडल की तुलना करने का प्राकृतिक तरीका सीमांत संभावनाएं हैं, न कि विश्वसनीय अंतराल। मॉडल औसत से जुड़ा एक विकल्प एक मिश्रण प्रतिनिधित्व का उपयोग करना है और प्रत्येक मॉडल / घटक के वजन से अनुमान लगाया जाता है कि कौन सा मॉडल डेटा का पक्षधर है।
शीआन

@ शीआन लेकिन सीमांत संभावना के माध्यम से दो या अधिक मॉडलों की तुलना करना बेयस कारकों का उपयोग करने के समान नहीं होगा, यदि सभी मॉडलों को एक ही पूर्व संभावना दी गई हो?
डेल्टावी

प्रिय प्रो क्रूसके, मुझे संदेह करने योग्य अंतरालों की गणना के बारे में संदेह है। मैंने क्या समझा है कि विभिन्न पुजारियों के आधार पर पश्च की संभाव्यता के आधार पर कई विश्वसनीय अंतराल हो सकते हैं। लेकिन यहाँ कैसे तय किया जाए कि कौन से पुजारी सबसे अधिक प्रशंसनीय हैं जो बदले में सबसे प्रशंसनीय उत्तरोत्तर देते हैं? एक और सवाल यह है कि, मैं पोस्टीरियर्स की गणना के लिए वैरिएशन इनवेंशन (VI) का उपयोग कर रहा हूं और अंत में मॉडल सबूत के निचले हिस्से की गणना करता हूं। VI के मामले में डाकियों के लिए विश्वसनीय अंतराल की गणना कैसे करें? इसके अलावा VI के मामले में बेयस फैक्टर के लिए कैसे आगे बढ़ें?
संदीपन कर्मकार

जवाबों:


9

यह सर्वविदित है कि महत्वपूर्ण (या कुछ अन्य कसौटी जैसे AIC, चाहे एक विश्वसनीय अंतराल 0 हो) के आधार पर एक मॉडल का निर्माण करना बहुत समस्याग्रस्त है, खासकर यदि आप तब विरोधाभास करते हैं जैसे कि आपने मॉडल निर्माण नहीं किया था। बायेसियन विश्लेषण करने से यह नहीं बदलता है (यह भी देखें कि https://stats.stackexchange.com/a/201931/86654 )। यानी आपको परिवर्तनीय चयन नहीं करना चाहिए, बल्कि औसत औसत मॉडल (या ऐसा कुछ जो आपको कुछ शून्य गुणांक प्राप्त कर सकता है, लेकिन पूरी मॉडलिंग प्रक्रिया को दर्शाता है, जैसे LASSO या इलास्टिक नेट)।

बायेसियन मॉडल की पसंद को आमतौर पर बायेसियन मॉडल औसत के रूप में तैयार किया गया है। आपके पास अलग-अलग मॉडल हैं, प्रत्येक में एक अलग पूर्व संभावना है। यदि किसी मॉडल के लिए पिछले मॉडल की संभावना काफी कम हो जाती है, तो आप अनिवार्य रूप से मॉडल को पूरी तरह से त्याग रहे हैं। प्रत्येक मॉडल और फ्लैट पुजारियों के लिए समान वजन के लिए, प्रत्येक मॉडल के लिए आनुपातिक के साथ औसत मॉडल यह अनुमान लगाता है।exp(BIC/2)

आप वैकल्पिक रूप से मॉडल औसत को एक पूर्व के रूप में व्यक्त कर सकते हैं जो एक बिंदु द्रव्यमान के बीच मिश्रण है (बिंदु द्रव्यमान का वजन प्रभाव के शून्य होने की पूर्व संभावना है = प्रभाव मॉडल में नहीं है) और एक निरंतर वितरण (जैसे) स्पाइक-एंड-स्लैब पुजारी)। MCMC नमूनाकरण इस तरह के एक पूर्व के लिए काफी मुश्किल हो सकता है।

कार्वाल्हो एट अल। घोड़े की नाल संकोचन से पहले प्रेरित करें यह सुझाव देते हुए कि यह स्पाइक-एंड-स्लैब से पहले निरंतर सन्निकटन की तरह काम करता है। यह एक पदानुक्रमित मॉडल में समस्या को एम्बेड करने का भी मामला है, जहां कुछ हद तक कुछ चर पर प्रभाव और आकार की उपस्थिति दूसरों के लिए आवश्यक साक्ष्य को थोड़ा आराम करती है (वैश्विक संकोचन पैरामीटर के माध्यम से, यह झूठी खोज की तरह एक सा है। दर नियंत्रण) और दूसरी ओर साक्ष्य पर्याप्त स्पष्ट होने पर व्यक्तिगत प्रभाव को अपने दम पर खड़ा करने की अनुमति देते हैं। स्टान्स / रैस्टर पर बनने वाले ब्रम्स आर पैकेज से इसका एक सुविधाजनक कार्यान्वयन उपलब्ध है । आगे के समान कई पुजारी हैं जैसे घोड़े की नाल + पहले और पूरा विषय चल रहे शोध का एक क्षेत्र है।


बायेसियन लास्सो इस आँकड़े की तरह है ।stackexchange.com / questions / 28609 / ? मैं फैलाव चर वाला एक मॉडल हूं, मुझे उन मापदंडों के लिए पहले भी डबल घातांक का उपयोग करना चाहिए?

2

बायेसियन चर चयन के लिए कई औपचारिक तरीके हैं। Bayesian परिवर्तनशील चयन विधियों की थोड़ी पुरानी समीक्षा इसमें प्रस्तुत की गई है:

बायेसियन चर चयन विधियों की समीक्षा: क्या, कैसे और कौन

एक और हालिया समीक्षा, जिसमें विभिन्न तरीकों की तुलना और आर पैकेजों के प्रदर्शन शामिल हैं जहां वे लागू होते हैं:

बेवेरियन वैरिएबल सिलेक्शन और मॉडल एवरेजिंग फॉर यूनीवेरिएट लीनियर रिग्रेशन के तरीके और उपकरण

यह संदर्भ इस रूप में विशेष रूप से उपयोगी है कि यह आपको विशिष्ट आर संकुल की ओर इंगित करता है जहाँ आपको चर चयन को चलाने के लिए प्रतिक्रिया और कोवरिएट मान (और कुछ मामलों में हाइपरपरमीटर मान) में प्लग करने की आवश्यकता होती है।

एक और, त्वरित और गंदा और गैर-अनुशंसित, "बायेसियन" वैरिएबल चयन करने का तरीका है, बीआईसी और आर कमांड स्टेप एआईसी () का उपयोग करके स्टेप वाइज चयन (आगे, पीछे दोनों) का उपयोग करना है, जिसे चयन के मामले में ट्विस्ट किया जा सकता है। बीआईसी।

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

परीक्षण का एक और त्वरित और गंदा तरीका है सैवेज-डिकी घनत्व अनुपात और पहले से मौजूद अनुकार सिमुलेशन का उपयोग करके:β4=0

https://arxiv.org/pdf/0910.1452.pdf


मुझे लगता है कि सवाल पूछ रहा है कि मॉडल 3 में तीन मापदंडों में सभी विश्वसनीय क्षेत्र क्यों हैं जिनमें 0 है या नहीं, या नहीं 0. हैβ4
माइकल आर। चेरिक

@MichaelChernick फिर ओपी क्यों पूछ रहा है "In this case is reasonable say that $\beta_4\neq 0$"? और "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

मुझे सवाल का वह हिस्सा याद आया, लेकिन मुझे नहीं लगता कि यह मुख्य मुद्दा था।
माइकल आर। चेरिक

1
@MichaelChernick खैर, मुझे लगता है कि ओपी के पास यहाँ आखिरी शब्द है ...
CTHULHU

1

बायेसियन आँकड़ों का पूरा विचार एक लगातार दृष्टिकोण से अलग है। इस तरह से मुझे लगता है कि महत्व की शर्तों का उपयोग करना सही नहीं है। मुझे लगता है कि यह तय करने के लिए पाठक पर निर्भर है परिणाम (वितरण) आप अपने लिए अपने मॉडल से प्राप्त करता है, तो के विश्वसनीय या श्रद्धालु उसके लिए कर रहे हैं। यह हमेशा वितरण पर निर्भर करता है। यह कितना तिरछा और चौड़ा है और कितना क्षेत्र शून्य से नीचे है?β

आप 41:55 पर इस विषय के बारे में एक अच्छा व्याख्यान भी पा सकते हैं:

https://vimeo.com/14553953


मैंने एक चर के हिस्टोग्राम का एक उदाहरण जोड़ा है जिसमें विश्वसनीय अंतराल होता है क्या आप देख सकते हैं? 0

1
सप्ताहांत से वापस। हम हिस्टोग्राम कहां पा सकते हैं?
बर्टन ०३०
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.