बेयस रिग्रेशन: यह मानक रिग्रेशन की तुलना में कैसे किया जाता है?


57

मुझे बायेसियन रिग्रेशन के बारे में कुछ सवाल मिले:

  1. रूप में एक मानक प्रतिगमन को देखते हुए । अगर मैं इसे एक बायेसियन रिग्रेशन में बदलना चाहता हूं, तो क्या मुझे और दोनों के लिए पूर्व वितरण की आवश्यकता है (या यह इस तरह से काम नहीं करता है)?y=β0+β1x+εβ0β1

  2. मानक प्रतिगमन में कोई व्यक्ति अवशिष्ट को कम करने के लिए और लिए एकल मान प्राप्त करने का प्रयास करेगा । यह बेयस रिग्रेशन में कैसे किया जाता है?β0β1


मैं वास्तव में यहाँ बहुत संघर्ष करता हूँ:

posterior=prior×likelihood

संभावना वर्तमान डेटासेट से आती है (इसलिए यह मेरा प्रतिगमन पैरामीटर है लेकिन एक एकल मान के रूप में नहीं है, लेकिन संभावना वितरण के रूप में, सही है?)। पहले एक पिछले शोध से आता है (चलो कहते हैं)। इसलिए मुझे यह समीकरण मिला:

y=β1x+ε

with मेरी संभावना या पीछे होना (या यह पूरी तरह से गलत है)? β1

मैं बस यह नहीं समझ सकता कि कैसे मानक प्रतिगमन एक बायस में बदल जाता है।

जवाबों:


93

सरल रैखिक प्रतिगमन मॉडल

yi=α+βxi+ε

इसके पीछे संभावित मॉडल के संदर्भ में लिखा जा सकता है

μi=α+βxiyiN(μi,σ)

यानी आश्रित चर सामान्य वितरण निम्न प्रकार से अर्थ है , जो कि , और मानक विचलन द्वारा का एक रैखिक कार्य है । यदि आप ऐसे मॉडल का अनुमान लगाते हैं, जो साधारण से कम वर्ग का उपयोग करते हैं , तो आपको संभाव्य सूत्रीकरण के बारे में परेशान होने की आवश्यकता नहीं है, क्योंकि आप पूर्वानुमानित मानों के लिए फिट किए गए मानों की चुकता त्रुटियों को कम करके मापदंडों के इष्टतम मूल्यों की खोज कर रहे हैं । दूसरी ओर, आप इस तरह के मॉडल का अधिकतम संभावना अनुमान का उपयोग कर अनुमान लगा सकते हैं , जहां आप संभावना फ़ंक्शन को अधिकतम करके मापदंडों के इष्टतम मूल्यों की तलाश करेंगे।YμiXα,βσα,β

argmaxα,β,σi=1nN(yi;α+βxi,σ)

जहां बिंदुओं पर मूल्यांकन किए गए सामान्य वितरण का घनत्व फ़ंक्शन है , इसका मतलब है कि और मानक विचलन द्वारा पैरामीट्रिज्ड ।Nyiα+βxiσ

अकेले संभावना समारोह को अधिकतम करने के बजाय बायेसियन दृष्टिकोण में, हम मापदंडों के लिए पूर्व वितरण को मानेंगे और बेयस प्रमेय का उपयोग करेंगे।

posteriorlikelihood×prior

संभावना फ़ंक्शन उपरोक्त के समान है, लेकिन क्या परिवर्तन है कि आप अनुमानित पैरामीटर लिए कुछ पूर्व वितरण मान लेते हैं और उन्हें समीकरण में शामिल करते हैंα,β,σ

f(α,β,σY,X)posteriori=1nN(yiα+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors

"क्या वितरण?" एक अलग सवाल है, क्योंकि असीमित संख्या में विकल्प हैं। के लिए मापदंडों आप कर सकते थे, उदाहरण के लिए कुछ लोगों द्वारा parametrized सामान्य वितरण मान hyperparameters , या -distribution अगर आप भारी पूंछ, या समान वितरण को संभालने के लिए अगर आप ज्यादा मान्यताओं बनाने के लिए नहीं करना चाहते हैं, लेकिन आप यह मान करना चाहते हैं पैरामीटर एक प्राथमिकता "दी गई श्रेणी में कुछ भी" हो सकते हैं , आदि आपको कुछ पूर्व वितरण को मानने की आवश्यकता है जो कि तब अधिक शून्य होने के लिए बाध्य है, क्योंकि मानक विचलन को सकारात्मक होना चाहिए। यह जॉन के। क्रूसके द्वारा नीचे दिए गए मॉडल तैयार करने के लिए नेतृत्व कर सकता है।α,βtσ

बायेसियन रैखिक प्रतिगमन मॉडल तैयार करना

(स्रोत: http://www.indiana.edu/~kruschke/BMLR/ )

अधिकतम संभावना में जबकि आप प्रत्येक पैरामीटर के लिए एक ही इष्टतम मूल्य की तलाश कर रहे थे, बेयस प्रमेय को लागू करके बायस प्रमेय में आप मापदंडों के पीछे वितरण को प्राप्त करते हैं । अंतिम अनुमान उस जानकारी पर निर्भर करेगा जो आपके डेटा और आपके पादरियों से आती है , लेकिन जितनी अधिक जानकारी आपके डेटा में निहित है, उतना ही प्रभावशाली पुजारी हैं

ध्यान दें कि जब समान का उपयोग किया जाता है, तो वे सामान्यीकरण स्थिरांक को छोड़ने के बाद फॉर्म । इससे बेयस प्रमेय अकेले संभावना कार्य के लिए आनुपातिक हो जाता है, इसलिए पश्च वितरण अधिक से अधिक संभावना अनुमान के समान बिंदु पर अधिकतम तक पहुंच जाएगा। इसके बाद, समान पुजारियों के तहत अनुमान सामान्य कम से कम वर्गों का उपयोग करके ही होगा क्योंकि चुकता त्रुटियों को कम करने से सामान्य संभावना को अधिकतम करने के लिए मेल खाती हैf(θ)1

कुछ मामलों में बेयसियन दृष्टिकोण में एक मॉडल का अनुमान लगाने के लिए आप संयुग्मक पुजारियों का उपयोग कर सकते हैं , इसलिए पश्च वितरण सीधे उपलब्ध है ( उदाहरण यहां देखें )। हालाँकि अधिकांश मामलों में पश्च वितरण सीधे उपलब्ध नहीं होगा और आपको मॉडल का अनुमान लगाने के लिए मार्कोव चेन मोंटे कार्लो विधियों का उपयोग करना होगा ( रैखिक प्रतिगमन के मापदंडों का अनुमान लगाने के लिए मेट्रोपोलिस-हेस्टिंग्स एल्गोरिथम का उपयोग करने के इस उदाहरण की जांच करें )। अंत में, यदि आप केवल मापदंडों के बिंदु अनुमानों में रुचि रखते हैं, तो आप अधिकतम पश्च-अनुमान का उपयोग कर सकते हैं , अर्थात

argmaxα,β,σf(α,β,σY,X)

लॉजिस्टिक रिग्रेशन के अधिक विस्तृत विवरण के लिए आप बायेसियन लॉगिट मॉडल - सहज व्याख्या की जांच कर सकते हैं ? धागा।

अधिक सीखने के लिए आप निम्नलिखित पुस्तकों की जाँच कर सकते हैं:

क्रुस्के, जे (2014)। डूइंग बायेसियन डेटा एनालिसिस: ए ट्यूटोरियल विथ आर, जेएजीएस और स्टेन। अकादमिक प्रेस।

जेलमैन, ए।, कारलिन, जेबी, स्टर्न, एचएस, और रुबिन, डीबी (2004)। बायेसियन डेटा विश्लेषण। चैपमैन एंड हॉल / सीआरसी।


2
+1 जिस तरह से प्रश्न कहा गया है, उसे देखते हुए, मैं शायद इस दार्शनिक अंतर पर थोड़ा और अधिक जोर : साधारण कम से कम वर्गों और अधिकतम संभावना अनुमान में, हम इस प्रश्न के साथ शुरू कर रहे हैं " लिए सबसे अच्छे मूल्य क्या हैं (शायद बाद के लिए) उपयोग)?" βi, जबकि पूर्ण बायेसियन दृष्टिकोण में, हम प्रश्न के साथ शुरू करते हैं "हम अज्ञात मूल्यों बारे में क्या कह सकते हैं ?" βiऔर फिर एक बिंदु अनुमान की आवश्यकता होने पर अधिकतम पोस्टीरियर या पश्च मीन का उपयोग करने के लिए आगे बढ़ें।
JiK

2
+1। एक और बात जो बायेसियन और ओएलएस दृष्टिकोण के बीच संबंध को स्पष्ट करने के लिए उपयोगी हो सकती है, वह यह है कि ओएलएस को एक फ्लैट पूर्व (कम से कम जहां तक ​​मैं समझता हूं) के तहत पीछे के मतलब के रूप में समझा जा सकता है। बहुत अच्छा होगा यदि आप अपने उत्तर में उस पर थोड़ा विस्तार कर सकें।
अमीबा का कहना है कि

@amoeba यह एक अच्छा बिंदु है, मैं इसके बारे में सोचूंगा। लेकिन दूसरी ओर, मैं उत्तर को अधिक लंबा नहीं करना चाहता, इसलिए विवरण में जाने की बात है।
टिम

1
@amoeba FYI करें, मैंने उस पर एक संक्षिप्त टिप्पणी जोड़ी।
टिम

22

डेटा सेट जहाँ , एक बायेसियन लाइनिंग रिग्रेशन मॉडल में समस्या निम्नलिखित तरीके से:D=(x1,y1),,(xN,yN)xRd,yR

पहले:

wN(0,σw2Id)

w वेक्टर है , इसलिए पिछला वितरण एक बहुभिन्नरूपी गौसियन है; और है पहचान मैट्रिक्स।(w1,,wd)TIdd×d

संभावना:

YiN(wTxi,σ2)

हम मानते हैं किYiYj|w,ij

अभी के लिए हम विचरण के बजाय सटीकता का उपयोग करेंगे, , और । हम यह भी मानेंगे कि ज्ञात हैं।a=1/σ2b=1/σw2a,b

पूर्व को

p(w)exp{b2wtw}

और संभावना

p(D|w)exp{a2(yAw)T(yAw)}

जहाँ और एक मैट्रिक्स है जहाँ i-th पंक्ति ।y=(y1,,yN)TAn×dxiT

फिर पीछे वाला

p(w|D)p(D|w)p(w)

कई गणनाओं के बाद हमें पता चलता है

p(w|D)N(w|μ,Λ1)

कहाँ ( सटीक मैट्रिक्स है)Λ

Λ=aATA+bId
μ=aΛ1ATy

ध्यान दें कि नियमित रेखीय प्रतिगमन के के बराबर है , यह इसलिए है क्योंकि गौसियन के लिए, इसका मतलब मोड के बराबर है।μwMAP

इसके अलावा, हम कुछ बीजगणित को से अधिक कर सकते हैं और निम्नलिखित समानता प्राप्त कर सकते हैं ( ):μΛ=aATA+bId

μ=(ATA+baId)1ATy

और तुलना करें :wMLE

wMLE=(ATA)1ATy

में अतिरिक्त अभिव्यक्ति पूर्व से मेल खाती है। यह रिज प्रतिगमन के लिए अभिव्यक्ति के समान है, विशेष मामले के लिए जब । रिज रिग्रेशन अधिक सामान्य है क्योंकि तकनीक अनुचित पुजारी (बायेसियन परिप्रेक्ष्य में) चुन सकती है।μλ=ba

भविष्य कहनेवाला वितरण के लिए:

p(y|x,D)=p(y|x,D,w)p(w|x,D)dw=p(y|x,w)p(w|D)dw

इसकी गणना करना संभव है

y|x,DN(μTx,1a+xTΛ1x)

संदर्भ: लून एट अल। पुस्तक बुक

JAGS / स्टेन की तरह MCMC टूल का उपयोग करने के लिए Kruschke का डूइंग बायेसियन डेटा विश्लेषण


धन्यवाद jpneto मुझे लगता है कि यह एक महान जवाब है, लेकिन मैं गणित-ज्ञान की कमी के कारण इसे अभी तक नहीं समझ पाया हूं। लेकिन मैं कुछ गणित-कौशल हासिल करने के बाद इसे फिर से निश्चित रूप से
पढ़ूंगा

1
यह बहुत अच्छा है, लेकिन यह धारणा कि परिशुद्धता ज्ञात है, थोड़ा असामान्य है। क्या विचरण के लिए उलटा गामा वितरण, यानी सटीक के लिए गामा वितरण मान लेना ज्यादा आम नहीं है?
डेल्टिव डिवैल 22'16

+1। क्या आप "रिज रिग्रेशन अधिक सामान्य है क्योंकि तकनीक अनुचित पादरियों का चयन कर सकती है" पर थोड़ा अधिक टिप्पणी कर सकते हैं? मुझे नहीं मिला। मैंने सोचा था कि आरआर = गौसियन (उचित) पहले से । w
अमीबा का कहना है कि मोनिका

@amoeba: Gaussian पूर्व लेकिन शून्य हो सकती है, जिसके परिणामस्वरूप अनुचित पूर्व, अर्थात, MLE में परिणाम होता है। wN(0,λ1Id)λ
jpneto

1
@ डेल्टिव: निश्चित रूप से, जब हमारे पास एक पैरामीटर के बारे में अनिश्चितता होती है जिसे हम पूर्व के साथ मॉडल कर सकते हैं। ज्ञात परिशुद्धता की धारणा एक विश्लेषणात्मक समाधान खोजने के लिए आसान बनाने के लिए है। आमतौर पर, वे विश्लेषणात्मक समाधान संभव नहीं हैं और हमें एमसीएमसी या कुछ परिवर्तनशील तकनीक जैसे अनुमानों का उपयोग करना चाहिए।
jpneto
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.