Bayesian दृष्टिकोण से LASSO और रिज: ट्यूनिंग पैरामीटर के बारे में क्या?


17

LASSO और रिज जैसे दंडित प्रतिगमन अनुमानकों को कुछ पुजारियों के साथ बायेसियन अनुमानकों के अनुरूप कहा जाता है। मुझे लगता है (जैसा कि मैं बायेसियन आंकड़ों के बारे में पर्याप्त नहीं जानता हूं) कि एक निश्चित ट्यूनिंग पैरामीटर के लिए, पहले से एक ठोस मौजूद है।

अब एक व्यक्तिवादी क्रॉस सत्यापन द्वारा ट्यूनिंग पैरामीटर का अनुकूलन करेगा। क्या ऐसा करने के बराबर एक बायेसियन है, और क्या यह बिल्कुल भी उपयोग किया जाता है? या बायेसियन दृष्टिकोण डेटा को देखने से पहले ट्यूनिंग पैरामीटर को प्रभावी ढंग से ठीक करता है? (मुझे लगता है कि उत्तरार्द्ध भविष्य कहनेवाला प्रदर्शन के लिए हानिकारक होगा।)


3
मुझे लगता है कि एक पूरी तरह से बायेसियन दृष्टिकोण किसी दिए गए पूर्व के साथ शुरू होगा और इसे संशोधित नहीं करेगा, हाँ। लेकिन एक अनुभवजन्य-बैस दृष्टिकोण भी है जो हाइपरपरमीटर मूल्यों पर अनुकूलन करता है: उदाहरण के लिए आँकड़े देखें ।stackexchange.com/questions/24799
अमीबा का कहना है कि मोनिका

अतिरिक्त प्रश्न (मुख्य क्यू का हिस्सा हो सकता है): क्या नियमितीकरण पैरामीटर पर कुछ पूर्व मौजूद हैं जो किसी तरह क्रॉस-वैधीकरण प्रक्रिया को बदल देते हैं, किसी तरह?
kjetil b halvorsen

1
बायेसियन ट्यूनिंग पैरामीटर पर एक पूर्व डाल सकते हैं, क्योंकि यह आमतौर पर एक विचरण पैरामीटर से मेल खाती है। यह आम तौर पर सीवी से बचने के लिए किया जाता है ताकि पूरी तरह से बायस बने रहें। वैकल्पिक रूप से, आप नियमितीकरण पैरामीटर को अनुकूलित करने के लिए REML का उपयोग कर सकते हैं।
पुरुष

2
पुनश्च: इनाम के लिए लक्ष्य रखने वालों के लिए, मेरी टिप्पणी पर ध्यान दें: मैं एक स्पष्ट जवाब देखना चाहता हूं जो एक पूर्व दिखाता है जो लगातार क्रॉस-सत्यापन के बराबर एमएपी अनुमान को प्रेरित करता है।
१०

1
@ आँकड़ेलाइज़र 2 मुझे लगता है कि यह रिचर्ड के सवाल को अच्छी तरह से संबोधित करता है। आपका इनाम रिचर्ड के क्यू की तुलना में अधिक संकीर्ण पहलू (हाइपरपायर के बारे में) पर केंद्रित प्रतीत होता है
अमीबा का कहना है कि मोनिका

जवाबों:


18

LASSO और रिज जैसे दंडित प्रतिगमन अनुमानकों को कुछ पुजारियों के साथ बायेसियन अनुमानकों के अनुरूप कहा जाता है।

हां यह सही है। जब भी हमारे पास लॉग-लाइबिलिटी फ़ंक्शन के साथ-साथ पैरामीटर पर एक पेनल्टी फ़ंक्शन को शामिल करने के लिए ऑप्टिमाइज़ेशन समस्या होती है, तो यह गणितीय रूप से पोस्टीरियर मैक्सिमाइजेशन के बराबर होता है, जहां पेनल्टी फ़ंक्शन को एक पूर्व कर्नेल का लॉगरिथम लिया जाता है। इस देखने के लिए, मान लीजिए कि हम एक दंड कार्य हो w एक ट्यूनिंग पैरामीटर का उपयोग कर λ । इन मामलों में उद्देश्य समारोह के रूप में लिखा जा सकता है:wλ

Hx(θ|λ)=x(θ)w(θ|λ)=ln(Lx(θ)exp(w(θ|λ)))=ln(Lx(θ)π(θ|λ)Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,

जहां हम पहले का उपयोग π(θ|λ)exp(w(θ|λ)) । यहां देखें कि ऑप्टिमाइज़ेशन में ट्यूनिंग पैरामीटर को पूर्व वितरण में एक निश्चित हाइपरपरमीटर के रूप में माना जाता है। यदि आप एक निश्चित ट्यूनिंग पैरामीटर के साथ शास्त्रीय अनुकूलन कर रहे हैं, तो यह एक निश्चित हाइपर-पैरामीटर के साथ बायेसियन ऑप्टिमाइज़ेशन करने के बराबर है। LASSO और रिज प्रतिगमन के लिए दंड कार्य और संबंधित पूर्व समकक्ष हैं:

LASSO Regressionπ(θ|λ)=k=1mLaplace(0,1λ)=k=1mλ2exp(λ|θk|),Ridge Regressionπ(θ|λ)=k=1mNormal(0,12λ)=k=1mλ/πexp(λθk2).

पूर्व विधि उनके पूर्ण परिमाण के अनुसार प्रतिगमन गुणांक को दंडित करती है, जो कि शून्य से पहले लाप्लास लगाने के बराबर है। उत्तरार्द्ध विधि प्रतिगमन गुणांक को उनके चुकता परिमाण के अनुसार दंडित करती है, जो शून्य से पहले एक सामान्य लागू करने के बराबर है।

अब एक व्यक्तिवादी क्रॉस सत्यापन द्वारा ट्यूनिंग पैरामीटर का अनुकूलन करेगा। क्या ऐसा करने के बराबर एक बायेसियन है, और क्या यह बिल्कुल भी उपयोग किया जाता है?

अतः जब तक लगातारवादी पद्धति को अनुकूलन समस्या के रूप में प्रस्तुत किया जा सकता है (कहने के बजाय, एक परिकल्पना परीक्षण, या कुछ इस तरह से) एक समतुल्य पूर्व का उपयोग करके एक बायेसियन सादृश्य होगा। जिस तरह λ ट्यूनिंग पैरामीटर λ को अज्ञात मानते हैं और डेटा से यह अनुमान लगाते हैं, बायेसियन उसी तरह हाइपरपरमीटर λ को अज्ञात मान सकते हैं । एक पूर्ण बायेसियन विश्लेषण में यह हाइपरपरमीटर को अपने आप को देना और इस पूर्व के तहत पीछे के अधिकतम को खोजना होगा, जो निम्नलिखित उद्देश्य फ़ंक्शन को अधिकतम करने के लिए अनुरूप होगा:

Hx(θ,λ)=x(θ)w(θ|λ)h(λ)=ln(Lx(θ)exp(w(θ|λ))exp(h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.

इस विधि का उपयोग वास्तव में बेयसियन विश्लेषण में उन मामलों में किया जाता है जहां विश्लेषक अपने पूर्व के लिए एक विशिष्ट हाइपरपैरेट चुनने में सहज नहीं होते हैं, और इसे अज्ञात मानकर और इसे वितरण करके पूर्व अधिक फैलाना चाहते हैं। (ध्यान दें कि यह ब्याज की पैरामीटर के लिए एक अधिक फैलाना पहले देने का सिर्फ एक अंतर्निहित तरीका है θ ।)

( नीचे आँकड़े 2 से टिप्पणी ) मैं संख्यात्मक समकक्ष एमएपी अनुमानों की तलाश कर रहा हूं। उदाहरण के लिए, एक निश्चित दंड रिज के लिए एक गौसियन पहले है जो मुझे एमएपी अनुमान देगा रिज के अनुमान के बिल्कुल बराबर। अब, के-गुना सीवी रिज के लिए, हाइपर-पूर्व क्या है जो मुझे एमएपी अनुमान देगा जो सीवी-रिज अनुमान के समान है?

इससे पहले को देखने के लिए आगे बढ़ने से K पार सत्यापन गुना, यह पहली है कि ध्यान देने योग्य है, गणितीय, अधिकतम कारण का अनुमान (एमएपी) विधि बस पैरामीटर के एक समारोह के एक अनुकूलन है θ और डेटा x । यदि आप अनुचित पुजारियों की अनुमति देने के लिए तैयार हैं, तो गुंजाइश इन चरों के कार्य को शामिल करते हुए किसी भी अनुकूलन समस्या को हल कर देती है। इस प्रकार, इस तरह के एकल अनुकूलन समस्या के रूप में तैयार की जा सकने वाली किसी भी लगातार पद्धति में एमएपी सादृश्य होता है, और इस तरह के एकल अनुकूलन के रूप में तैयार नहीं किए जा सकने वाले किसी भी लगातार पद्धति का एमएपी सादृश्य नहीं होता है।

मॉडल के ऊपर रूप में, एक ट्यूनिंग पैरामीटर के साथ एक दंड समारोह से जुड़े, K गुना पार सत्यापन सामान्यतः ट्यूनिंग पैरामीटर अनुमान लगाने के लिए प्रयोग किया जाता है λ । इस विधि के लिए आप डेटा वेक्टर विभाजन x में K उप वैक्टर x1,...,xK । उप वेक्टर से प्रत्येक के लिए k=1,...,K आप "प्रशिक्षण" डेटा xk साथ मॉडल फिट करते हैं और फिर "परीक्षण" डेटा x k के साथ मॉडल के फिट को मापते हैंxk। प्रत्येक फिट में आपको मॉडल मापदंडों के लिए एक अनुमानक मिलता है, जो तब आपको परीक्षण डेटा की भविष्यवाणी देता है, जिसकी तुलना "हानि" का एक उपाय देने के लिए वास्तविक परीक्षण डेटा से की जा सकती है:

Estimatorθ^(xk,λ),Predictionsx^k(xk,λ),Testing lossLk(x^k,xk|xk,λ).

K "सिलवटों" में से प्रत्येक के लिए नुकसान के उपायों को तब पार-सत्यापन के लिए समग्र हानि उपाय प्राप्त करने के लिए एकत्र किया जा सकता है:

L(x,λ)=kLk(x^k,xk|xk,λ)

एक तो समग्र हानि माप को कम करके ट्यूनिंग पैरामीटर का अनुमान लगाता है:

λ^λ^(x)arg min λL(x,λ).

हम देख सकते हैं कि यह एक अनुकूलन समस्या है, और इसलिए हम अब दो अलग अनुकूलन समस्या है (यानी, एक के लिए ऊपर अनुभागों में वर्णित θ , और पाने के लिए यहां वर्णित λ )। के बाद से बाद के अनुकूलन को शामिल नहीं करता θ , हम इन अनुकूलन एक भी समस्या में, कुछ तकनीकी के साथ गठजोड़ कर सकते हैं कि मैं नीचे चर्चा की। ऐसा करने के लिए, उद्देश्य फ़ंक्शन के साथ अनुकूलन समस्या पर विचार करें:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ),

जहां δ>0 ट्यूनिंग-नुकसान पर एक भार मान है। के रूप में δ ट्यूनिंग घटाने के अनुकूलन पर वजन अनंत हो जाता है और इतने अनुकूलन समस्या पैदावार से ट्यूनिंग पैरामीटर अनुमान K पार सत्यापन गुना (सीमा में)। उद्देश्य फ़ंक्शन का शेष भाग ट्यूनिंग पैरामीटर के इस अनुमानित मूल्य पर मानक उद्देश्य फ़ंक्शन सशर्त है। अब, दुर्भाग्य से, ले जा δ= अप अनुकूलन समस्या शिकंजा, लेकिन अगर हम ले δ एक बहुत बड़े (लेकिन अभी भी परिमित) मूल्य होने के लिए, हम दो अनुकूलन समस्याओं के संयोजन अप मनमाना सटीकता के लिए अनुमान लगा सकता है।

उपरोक्त विश्लेषण से हम देख सकते हैं कि मॉडल-फिटिंग और K -फोल्ड क्रॉस-वैलिडेशन प्रक्रिया के लिए एमएपी सादृश्य बनाना संभव है । यह एक सटीक सादृश्य नहीं है, लेकिन यह एक करीबी सादृश्य है, मनमाने ढंग से सटीकता तक। यह भी ध्यान रखना महत्वपूर्ण है कि एमएपी सादृश्य अब मूल समस्या के समान ही फ़ंक्शन को साझा नहीं करता है, क्योंकि नुकसान फ़ंक्शन डेटा पर निर्भर करता है और इस प्रकार पूर्व के बजाय संभावना के हिस्से के रूप में अवशोषित होता है। वास्तव में, पूर्ण सादृश्य इस प्रकार है:

Hx(θ,λ)=x(θ)w(θ|λ)δL(x,λ)=ln(Lx(θ,λ)π(θ,λ)Lx(θ,λ)π(θ,λ)dθ)+const,

Lx(θ,λ)exp(x(θ)δL(x,λ))π(θ,λ)exp(w(θ|λ))δ


यह उन मामलों से पहले अनुचित है जहां जुर्माना एक सिग्मा-परिमित घनत्व के लघुगणक के अनुरूप नहीं है।


2
ठीक है पहले से ही, लेकिन इनाम के लिए मैं इन अधिक सटीक उत्तरों की तलाश कर रहा हूं।
18'तक

4
1. I do not get how (since frequentists generally use classical hypothesis tests, etc., which have no Bayesian equivalent) connects to the rest of what I or you are saying; parameter tuning has nothing to do with hypothesis tests, or does it? 2. Do I understand you correctly that there is no Bayesian equivalent to frequentist regularized estimation when the tuning parameter is selected by cross validation? What about empirical Bayes that amoeba mentions in the comments to the OP?
Richard Hardy

3
3. Since regularization with cross validation seems to be quite effective for, say, prediction, doesn't point 2. suggest that the Bayesian approach is somehow inferior?
Richard Hardy

1
@Ben, thanks for your explicit answer and the subsequent clarifications. You have once again done a wonderful job! Regarding 3., yes, it was quite a jump; it certainly is not a strict logical conclusion. But looking at your points w.r.t. 2. (that a Bayesian method can approximate the frequentist penalized optimization with cross validation), I no longer think that Bayesian must be "inferior". The last quibble on my side is, could you perhaps explain how the last, complicated formula could arise in practice in the Bayesian paradigm? Is it something people would normally use or not?
Richard Hardy

2
@ बीन (ctd) मेरी समस्या यह है कि मैं बेसेस के बारे में बहुत कम जानता हूँ। एक बार जब यह तकनीकी हो जाता है, तो मैं आसानी से परिप्रेक्ष्य खो सकता हूं। इसलिए मुझे आश्चर्य है कि क्या यह जटिल सादृश्य (अंतिम सूत्र) कुछ ऐसा है जो सिर्फ एक तकनीकी संभावना है या ऐसा कुछ है जो लोग नियमित रूप से उपयोग करते हैं। दूसरे शब्दों में, मैं इस बात में दिलचस्पी रखता हूं कि क्या क्रॉस वैधीकरण के पीछे का विचार (यहां दंडात्मक अनुमान के संदर्भ में) बायेसियन दुनिया में फिर से गूंज रहा है, क्या इसके फायदे वहां उपयोग किए जाते हैं। शायद यह एक अलग सवाल हो सकता है, लेकिन इस विशेष मामले के लिए एक संक्षिप्त विवरण पर्याप्त होगा।
रिचर्ड हार्डी

6

वास्तव में अधिकांश दंडित प्रतिगमन विधियां प्रतिगमन गुणांक से पहले एक विशेष प्रकार के रखने के अनुरूप हैं। उदाहरण के लिए, आपको पहले लैप्सो का उपयोग करके LASSO मिलता है, और रिज का उपयोग सामान्य पूर्व से होता है। ट्यूनिंग पैरामीटर बायेसियन फॉर्मूलेशन के तहत "हाइपरपरमेटर्स" हैं, जिसके लिए आप उन्हें अनुमान लगाने के लिए एक अतिरिक्त जगह कर सकते हैं; उदाहरण के लिए, रिज के मामले में यह अक्सर माना जाता है कि सामान्य वितरण के व्युत्क्रम विचरण में ए हैχ2पहले। हालांकि, जैसा कि एक उम्मीद करेगा, इन हाइपरपैरेटरों के लिए पूर्व वितरणों की पसंद के परिणामस्वरूप संलयन संवेदनशील हो सकते हैं। उदाहरण के लिए, घोड़े की नाल के लिए पहले कुछ सैद्धांतिक परिणाम हैं जो आपको हाइपरपैरेटर्स के लिए इस तरह के पूर्व में रखना चाहिए कि यह आपके द्वारा अपेक्षित गैर-शून्य गुणांक की संख्या को प्रतिबिंबित करेगा।

दंडित प्रतिगमन और बेयसियन पुजारियों के बीच संबंधों का एक अच्छा अवलोकन दिया गया है, उदाहरण के लिए, मल्लिक और यी द्वारा ।


आपके उत्तर के लिए धन्यवाद! लिंक किया गया पेपर काफी पठनीय है, जो अच्छा है।
रिचर्ड हार्डी

2
यह प्रश्न का उत्तर नहीं देता है, क्या आप यह समझाने के लिए विस्तृत कर सकते हैं कि हाइपर-पूर्व का संबंध सी-फोल्ड सीवी से कैसे है?
स्टैटस्लेरर 2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.