LASSO और रिज जैसे दंडित प्रतिगमन अनुमानकों को कुछ पुजारियों के साथ बायेसियन अनुमानकों के अनुरूप कहा जाता है।
हां यह सही है। जब भी हमारे पास लॉग-लाइबिलिटी फ़ंक्शन के साथ-साथ पैरामीटर पर एक पेनल्टी फ़ंक्शन को शामिल करने के लिए ऑप्टिमाइज़ेशन समस्या होती है, तो यह गणितीय रूप से पोस्टीरियर मैक्सिमाइजेशन के बराबर होता है, जहां पेनल्टी फ़ंक्शन को एक पूर्व कर्नेल का लॉगरिथम लिया जाता है। † इस देखने के लिए, मान लीजिए कि हम एक दंड कार्य हो w एक ट्यूनिंग पैरामीटर का उपयोग कर λ । इन मामलों में उद्देश्य समारोह के रूप में लिखा जा सकता है:†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
जहां हम पहले का उपयोग π(θ|λ)∝exp(−w(θ|λ)) । यहां देखें कि ऑप्टिमाइज़ेशन में ट्यूनिंग पैरामीटर को पूर्व वितरण में एक निश्चित हाइपरपरमीटर के रूप में माना जाता है। यदि आप एक निश्चित ट्यूनिंग पैरामीटर के साथ शास्त्रीय अनुकूलन कर रहे हैं, तो यह एक निश्चित हाइपर-पैरामीटर के साथ बायेसियन ऑप्टिमाइज़ेशन करने के बराबर है। LASSO और रिज प्रतिगमन के लिए दंड कार्य और संबंधित पूर्व समकक्ष हैं:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
पूर्व विधि उनके पूर्ण परिमाण के अनुसार प्रतिगमन गुणांक को दंडित करती है, जो कि शून्य से पहले लाप्लास लगाने के बराबर है। उत्तरार्द्ध विधि प्रतिगमन गुणांक को उनके चुकता परिमाण के अनुसार दंडित करती है, जो शून्य से पहले एक सामान्य लागू करने के बराबर है।
अब एक व्यक्तिवादी क्रॉस सत्यापन द्वारा ट्यूनिंग पैरामीटर का अनुकूलन करेगा। क्या ऐसा करने के बराबर एक बायेसियन है, और क्या यह बिल्कुल भी उपयोग किया जाता है?
अतः जब तक लगातारवादी पद्धति को अनुकूलन समस्या के रूप में प्रस्तुत किया जा सकता है (कहने के बजाय, एक परिकल्पना परीक्षण, या कुछ इस तरह से) एक समतुल्य पूर्व का उपयोग करके एक बायेसियन सादृश्य होगा। जिस तरह λ ट्यूनिंग पैरामीटर λ को अज्ञात मानते हैं और डेटा से यह अनुमान लगाते हैं, बायेसियन उसी तरह हाइपरपरमीटर λ को अज्ञात मान सकते हैं । एक पूर्ण बायेसियन विश्लेषण में यह हाइपरपरमीटर को अपने आप को देना और इस पूर्व के तहत पीछे के अधिकतम को खोजना होगा, जो निम्नलिखित उद्देश्य फ़ंक्शन को अधिकतम करने के लिए अनुरूप होगा:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
इस विधि का उपयोग वास्तव में बेयसियन विश्लेषण में उन मामलों में किया जाता है जहां विश्लेषक अपने पूर्व के लिए एक विशिष्ट हाइपरपैरेट चुनने में सहज नहीं होते हैं, और इसे अज्ञात मानकर और इसे वितरण करके पूर्व अधिक फैलाना चाहते हैं। (ध्यान दें कि यह ब्याज की पैरामीटर के लिए एक अधिक फैलाना पहले देने का सिर्फ एक अंतर्निहित तरीका है θ ।)
( नीचे आँकड़े 2 से टिप्पणी ) मैं संख्यात्मक समकक्ष एमएपी अनुमानों की तलाश कर रहा हूं। उदाहरण के लिए, एक निश्चित दंड रिज के लिए एक गौसियन पहले है जो मुझे एमएपी अनुमान देगा रिज के अनुमान के बिल्कुल बराबर। अब, के-गुना सीवी रिज के लिए, हाइपर-पूर्व क्या है जो मुझे एमएपी अनुमान देगा जो सीवी-रिज अनुमान के समान है?
इससे पहले को देखने के लिए आगे बढ़ने से K पार सत्यापन गुना, यह पहली है कि ध्यान देने योग्य है, गणितीय, अधिकतम कारण का अनुमान (एमएपी) विधि बस पैरामीटर के एक समारोह के एक अनुकूलन है θ और डेटा x । यदि आप अनुचित पुजारियों की अनुमति देने के लिए तैयार हैं, तो गुंजाइश इन चरों के कार्य को शामिल करते हुए किसी भी अनुकूलन समस्या को हल कर देती है। इस प्रकार, इस तरह के एकल अनुकूलन समस्या के रूप में तैयार की जा सकने वाली किसी भी लगातार पद्धति में एमएपी सादृश्य होता है, और इस तरह के एकल अनुकूलन के रूप में तैयार नहीं किए जा सकने वाले किसी भी लगातार पद्धति का एमएपी सादृश्य नहीं होता है।
मॉडल के ऊपर रूप में, एक ट्यूनिंग पैरामीटर के साथ एक दंड समारोह से जुड़े, K गुना पार सत्यापन सामान्यतः ट्यूनिंग पैरामीटर अनुमान लगाने के लिए प्रयोग किया जाता है λ । इस विधि के लिए आप डेटा वेक्टर विभाजन x में K उप वैक्टर x1,...,xK । उप वेक्टर से प्रत्येक के लिए k=1,...,K आप "प्रशिक्षण" डेटा x−k साथ मॉडल फिट करते हैं और फिर "परीक्षण" डेटा x k के साथ मॉडल के फिट को मापते हैंxk। प्रत्येक फिट में आपको मॉडल मापदंडों के लिए एक अनुमानक मिलता है, जो तब आपको परीक्षण डेटा की भविष्यवाणी देता है, जिसकी तुलना "हानि" का एक उपाय देने के लिए वास्तविक परीक्षण डेटा से की जा सकती है:
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
K "सिलवटों" में से प्रत्येक के लिए नुकसान के उपायों को तब पार-सत्यापन के लिए समग्र हानि उपाय प्राप्त करने के लिए एकत्र किया जा सकता है:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
एक तो समग्र हानि माप को कम करके ट्यूनिंग पैरामीटर का अनुमान लगाता है:
λ^≡λ^(x)≡arg min λL(x,λ).
हम देख सकते हैं कि यह एक अनुकूलन समस्या है, और इसलिए हम अब दो अलग अनुकूलन समस्या है (यानी, एक के लिए ऊपर अनुभागों में वर्णित θ , और पाने के लिए यहां वर्णित λ )। के बाद से बाद के अनुकूलन को शामिल नहीं करता θ , हम इन अनुकूलन एक भी समस्या में, कुछ तकनीकी के साथ गठजोड़ कर सकते हैं कि मैं नीचे चर्चा की। ऐसा करने के लिए, उद्देश्य फ़ंक्शन के साथ अनुकूलन समस्या पर विचार करें:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
जहां δ>0 ट्यूनिंग-नुकसान पर एक भार मान है। के रूप में δ→∞ ट्यूनिंग घटाने के अनुकूलन पर वजन अनंत हो जाता है और इतने अनुकूलन समस्या पैदावार से ट्यूनिंग पैरामीटर अनुमान K पार सत्यापन गुना (सीमा में)। उद्देश्य फ़ंक्शन का शेष भाग ट्यूनिंग पैरामीटर के इस अनुमानित मूल्य पर मानक उद्देश्य फ़ंक्शन सशर्त है। अब, दुर्भाग्य से, ले जा δ=∞ अप अनुकूलन समस्या शिकंजा, लेकिन अगर हम ले δ एक बहुत बड़े (लेकिन अभी भी परिमित) मूल्य होने के लिए, हम दो अनुकूलन समस्याओं के संयोजन अप मनमाना सटीकता के लिए अनुमान लगा सकता है।
उपरोक्त विश्लेषण से हम देख सकते हैं कि मॉडल-फिटिंग और K -फोल्ड क्रॉस-वैलिडेशन प्रक्रिया के लिए एमएपी सादृश्य बनाना संभव है । यह एक सटीक सादृश्य नहीं है, लेकिन यह एक करीबी सादृश्य है, मनमाने ढंग से सटीकता तक। यह भी ध्यान रखना महत्वपूर्ण है कि एमएपी सादृश्य अब मूल समस्या के समान ही फ़ंक्शन को साझा नहीं करता है, क्योंकि नुकसान फ़ंक्शन डेटा पर निर्भर करता है और इस प्रकार पूर्व के बजाय संभावना के हिस्से के रूप में अवशोषित होता है। वास्तव में, पूर्ण सादृश्य इस प्रकार है:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ))π(θ,λ)∝exp(−w(θ|λ))δ
† यह उन मामलों से पहले अनुचित है जहां जुर्माना एक सिग्मा-परिमित घनत्व के लघुगणक के अनुरूप नहीं है।