जवाबों:
हमें कल्पना करें कि आप कुछ देखे गए इनपुट-आउटपुट जोड़े से कुछ पैरामीटर को । आइए हम मान लें कि आउटपुट माध्यम से इनपुट से रैखिक रूप से संबंधित हैं और डेटा कुछ शोर द्वारा दूषित हैं :
जहाँ मतलब और विचरण साथ गॉसियन शोर है । यह एक गाऊसी संभावना को जन्म देता है:σϵ 2
आइए हम गॉसियन के पूर्व लगाकर पैरामीटर को नियमित करते हैं जहां एक सख्ती से सकारात्मक स्केलर है। इसलिए, संभावना और संयोजन के साथ हमारे पास बस:
आइए हम उपरोक्त अभिव्यक्ति का लघुगणक लें। कुछ स्थिरांक हमें मिल रहे हैं:
अगर हम उपरोक्त अभिव्यक्ति को संबंध में अधिकतम करते हैं , तो हमें तथाकथित अधिकतम पोस्टीरियर का अनुमान , या एमएपी का अनुमान छोटे के लिए होता है। इस अभिव्यक्ति में यह स्पष्ट हो जाता है कि क्यों गॉसियन से पहले एल 2 नियमितीकरण शब्द के रूप में व्याख्या की जा सकती है।β
इसी तरह L1 मानदंड और पूर्ववर्ती लाप्लास के बीच संबंध को उसी अंदाज में समझा जा सकता है। एक गाऊसी पूर्व के बजाय, एक लाप्लास पूर्व को अपनी संभावना के साथ मिलाएं और लघुगणक लें।
दोनों मुद्दों का विस्तार करते हुए एक अच्छा संदर्भ (शायद थोड़ा उन्नत) "सुपरवाइज्ड लर्निंग के लिए एडाप्टिव स्पार्सिटी" कागज़ है, जो वर्तमान में ऑनलाइन खोजना आसान नहीं है। वैकल्पिक रूप से "एड्रेक्टिव स्पार्सिटी का उपयोग करते हुए जेफ्रीस प्रायर" को देखें । एक और अच्छा संदर्भ है "लाप्लास पादरियों के साथ बायेसियन वर्गीकरण पर" ।
बहुभिन्नरूपी सामान्य पूर्व और बहुभिन्नरूपी सामान्य संभावना के साथ एक रेखीय मॉडल के लिए, आप एक बहुभिन्नरूपी सामान्य पश्च वितरण के साथ समाप्त होते हैं, जिसमें पश्च (और अधिकतम उत्तरोत्तर मॉडल) का मतलब बिल्कुल वही है जो आप का उपयोग करके प्राप्त करेंगे ( नियमित) एक उपयुक्त नियमितीकरण पैरामीटर के साथ कम से कम वर्ग।
ध्यान दें कि इसमें एक और मौलिक अंतर है कि बायेसियन पोस्टीरियर एक संभावना वितरण है, जबकि टिखोनोव नियमित रूप से कम से कम चौकोर समाधान एक विशिष्ट बिंदु अनुमान है।
उलटी समस्याओं के लिए बायेसियन विधियों पर कई पाठ्य पुस्तकों में इस पर चर्चा की गई है, उदाहरण के लिए देखें:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
इसी तरह, यदि आपके पास पहले से एक लैपेलियन है और एक बहुभिन्नरूपी सामान्य संभावना है, तो सबसे पीछे का वितरण एक बिंदु पर होता है जिसे आप एक नियमित रूप से कम से कम वर्गों की समस्या को हल करके प्राप्त कर सकते हैं ।
पहले ध्यान दें कि माध्य L1 मानदंड को कम करता है ( L1 और L2 पर अधिक जानने के लिए यहां या यहां देखें )
जबकि मतलब L2 को कम करता है
अब, याद रखें कि सामान्य वितरण '' पैरामीटर का उपयोग नमूना माध्य का अनुमान लगाया जा सकता है , जबकि लाप्लास वितरण पैरामीटर के लिए MLE अनुमानक औसत है। तो सामान्य वितरण का उपयोग L2 मानक अनुकूलन के बराबर है और L1 अनुकूलन का उपयोग करने के लिए लाप्लास वितरण का उपयोग करना है। व्यवहार में आप इसके बारे में सोच सकते हैं कि माध्य माध्यिका की तुलना में आउटलेयर के प्रति कम संवेदनशील है, और वही, पूर्व की भांति लैटर-टेल्ड लैप्लस वितरण का उपयोग करने से आपके मॉडल को सामान्य वितरण की तुलना में आउटलेर्स के लिए कम खतरा होता है।μ
हर्ले, डब्लूजे (2009) डबल एक्सपोनेंशियल डिस्ट्रीब्यूशन के लिए एमएलई की गणना करने के लिए एक इंडक्टिव अप्रोच है । जर्नल ऑफ मॉडर्न अप्लाइड स्टैटिस्टिकल मेथड्स: 8 (2), आर्टिकल 25।
वैरिएबल (w / o इंटरसेप्ट) के साथ एक प्रतिगमन समस्या के लिए आप के रूप में OLS करते हैं
दंड के साथ नियमित रूप से प्रतिगमन में आप करते हैं
हम तुलनात्मक रूप से कर सकते हैं (संकेत परिवर्तन पर ध्यान दें)
यह सीधे बायेसियन सिद्धांत से संबंधित है
या समकक्ष (नियमितता शर्तों के तहत)
अब यह देखना कठिन नहीं है कि कौन सा घातीय परिवार वितरण किस दंड प्रकार से मेल खाता है।
समतुल्यता को अधिक सटीक रूप से रखने के लिए:
एल 2 नियमितीकरण के साथ एक चुकता त्रुटि हानि फ़ंक्शन को कम करने के लिए मॉडल वज़न का अनुकूलन, उन वजनों को खोजने के बराबर है जो कि एक शून्य-मतलब स्वतंत्र गौसियन वेट से पहले, बेज़ नियम का उपयोग करके मूल्यांकन किए जाने वाले सबसे खराब वितरण के तहत होते हैं।
सबूत:
जैसा कि ऊपर वर्णित नुकसान समारोह द्वारा दिया जाएगा
ध्यान दें कि बहुभिन्नरूपी गॉसियन के लिए वितरण
Bayes नियम का उपयोग करना, हमारे पास वह है
जहाँ हम बहु-आयामी गासियन को एक उत्पाद में विभाजित करने में सक्षम हैं, क्योंकि कोवरियन एक पहचान मैट्रिक्स का एक गुण है।
नकारात्मक लॉग प्रायिकता को लें
हम निश्चित रूप से स्थिरांक को गिरा सकते हैं, और मूलभूत रूप से नुकसान फ़ंक्शन को प्रभावित किए बिना किसी भी राशि से गुणा कर सकते हैं। (निरंतर कुछ नहीं करता है, गुणन प्रभावी रूप से सीखने की दर को मापता है। मिनिमा के स्थान को प्रभावित नहीं करेगा) इसलिए हम देख सकते हैं कि पश्च वितरण की नकारात्मक लॉग संभावना एल 2 नियमित स्क्वायर त्रुटि हानि फ़ंक्शन के बराबर नुकसान फ़ंक्शन है।
यह समानता सामान्य है और वज़न के किसी भी मानकीकृत कार्य के लिए है - न केवल रैखिक प्रतिगमन, जैसा कि ऊपर निहित है।
बेइज़ियन मॉडलिंग की दो विशेषताएं हैं जिन पर ज़ोर देने की आवश्यकता है, जब कुछ दंडित अधिकतम संभावना अनुमान और बायेसियन प्रक्रियाओं के समतुल्य पर चर्चा की जाती है।
D dimension
रेखीय प्रतिगमन मामले में, स्पष्ट समाधान हो सकता हैbeta
औरsigma
हो सकता है ? मैं PRML पढ़ रहा हूं, और पेज 30 पर समीकरण (1.67) पा रहा हूं और इसे हल करने का कोई विचार नहीं है। अधिकतम संभावना में, हम हल करते हैंbeta
और फिरsigma
ग्रेडिएंट को शून्य पर सेट करते हैं। नियमित रूप से कम से कम वर्ग में, reqularization परम के बाद से कुछlambda
ज्ञात है, हमbeta
सीधे हल करते हैं। लेकिन अगर हम सीधे नक्शे का समाधान, क्या हल के लिए आदेश हैbeta
,sigma
? क्या उनके पास स्पष्ट समाधान हो सकता है या हमें पुनरावृत्ति प्रक्रिया का उपयोग करना चाहिए?