L2 नियमितीकरण गौसियन प्रायर के बराबर है


56

मैं इसे पढ़ता रहता हूं और सहज रूप से मैं इसे देख सकता हूं लेकिन कोई एल 2 नियमितीकरण से यह कहने के लिए कैसे जाता है कि यह विश्लेषणात्मक रूप से एक गाऊसी पूर्व है? L1 कहने के लिए समान पूर्ववर्ती एक लाप्लासियन के बराबर है।

आगे कोई संदर्भ महान होगा।

जवाबों:


54

हमें कल्पना करें कि आप कुछ देखे गए इनपुट-आउटपुट जोड़े से कुछ पैरामीटर को । आइए हम मान लें कि आउटपुट माध्यम से इनपुट से रैखिक रूप से संबंधित हैं और डेटा कुछ शोर द्वारा दूषित हैं :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

जहाँ मतलब और विचरण साथ गॉसियन शोर है । यह एक गाऊसी संभावना को जन्म देता है:σϵϵ 20σ2

n=1NN(yn|βxn,σ2).

आइए हम गॉसियन के पूर्व लगाकर पैरामीटर को नियमित करते हैं जहां एक सख्ती से सकारात्मक स्केलर है। इसलिए, संभावना और संयोजन के साथ हमारे पास बस:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

आइए हम उपरोक्त अभिव्यक्ति का लघुगणक लें। कुछ स्थिरांक हमें मिल रहे हैं:

n=1N1σ2(ynβxn)2λβ2+const.

अगर हम उपरोक्त अभिव्यक्ति को संबंध में अधिकतम करते हैं , तो हमें तथाकथित अधिकतम पोस्टीरियर का अनुमान , या एमएपी का अनुमान छोटे के लिए होता है। इस अभिव्यक्ति में यह स्पष्ट हो जाता है कि क्यों गॉसियन से पहले एल 2 नियमितीकरण शब्द के रूप में व्याख्या की जा सकती है।βββ


इसी तरह L1 मानदंड और पूर्ववर्ती लाप्लास के बीच संबंध को उसी अंदाज में समझा जा सकता है। एक गाऊसी पूर्व के बजाय, एक लाप्लास पूर्व को अपनी संभावना के साथ मिलाएं और लघुगणक लें।

दोनों मुद्दों का विस्तार करते हुए एक अच्छा संदर्भ (शायद थोड़ा उन्नत) "सुपरवाइज्ड लर्निंग के लिए एडाप्टिव स्पार्सिटी" कागज़ है, जो वर्तमान में ऑनलाइन खोजना आसान नहीं है। वैकल्पिक रूप से "एड्रेक्टिव स्पार्सिटी का उपयोग करते हुए जेफ्रीस प्रायर" को देखें । एक और अच्छा संदर्भ है "लाप्लास पादरियों के साथ बायेसियन वर्गीकरण पर"


1
एक D dimensionरेखीय प्रतिगमन मामले में, स्पष्ट समाधान हो सकता है betaऔर sigmaहो सकता है ? मैं PRML पढ़ रहा हूं, और पेज 30 पर समीकरण (1.67) पा रहा हूं और इसे हल करने का कोई विचार नहीं है। अधिकतम संभावना में, हम हल करते हैं betaऔर फिर sigmaग्रेडिएंट को शून्य पर सेट करते हैं। नियमित रूप से कम से कम वर्ग में, reqularization परम के बाद से कुछ lambdaज्ञात है, हम betaसीधे हल करते हैं। लेकिन अगर हम सीधे नक्शे का समाधान, क्या हल के लिए आदेश है beta, sigma? क्या उनके पास स्पष्ट समाधान हो सकता है या हमें पुनरावृत्ति प्रक्रिया का उपयोग करना चाहिए?
स्टैकंडरफ़्लो

आप पर एक "वर्ग" याद कर रहे हैं पिछले समीकरण में यानी ? λ बीटा 2λβλβ2
brian.keng

@AdamO यह गुणांक लेने वाले मूल्यों की संख्या को सीमित करता है। यदि उदाहरण के लिए पहले से 1-10 के बीच है, तो किसी अन्य मूल्य यानी, [-ff से 1] और [10, + inf] को लेने की गुणांक की संभावना है।
imsrgadich

1
इस स्थिति में ज्ञात है। क्या यह काम करता है जब अज्ञात है? बायेसियन रैखिक प्रतिगमन के लिए, पूर्व में एक उलटा गामा का उपयोग विचरण से पहले संयुग्म बनाने के लिए किया जा सकता है। लेकिन मुझे यकीन नहीं है कि बीजगणित समान अभिव्यक्ति की राशि होगी। σ 2σ2σ2
एडम ओक्टो

11

बहुभिन्नरूपी सामान्य पूर्व और बहुभिन्नरूपी सामान्य संभावना के साथ एक रेखीय मॉडल के लिए, आप एक बहुभिन्नरूपी सामान्य पश्च वितरण के साथ समाप्त होते हैं, जिसमें पश्च (और अधिकतम उत्तरोत्तर मॉडल) का मतलब बिल्कुल वही है जो आप का उपयोग करके प्राप्त करेंगे ( नियमित) एक उपयुक्त नियमितीकरण पैरामीटर के साथ कम से कम वर्ग। L2

ध्यान दें कि इसमें एक और मौलिक अंतर है कि बायेसियन पोस्टीरियर एक संभावना वितरण है, जबकि टिखोनोव नियमित रूप से कम से कम चौकोर समाधान एक विशिष्ट बिंदु अनुमान है।

उलटी समस्याओं के लिए बायेसियन विधियों पर कई पाठ्य पुस्तकों में इस पर चर्चा की गई है, उदाहरण के लिए देखें:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

इसी तरह, यदि आपके पास पहले से एक लैपेलियन है और एक बहुभिन्नरूपी सामान्य संभावना है, तो सबसे पीछे का वितरण एक बिंदु पर होता है जिसे आप एक नियमित रूप से कम से कम वर्गों की समस्या को हल करके प्राप्त कर सकते हैं । L1


9

पहले ध्यान दें कि माध्य L1 मानदंड को कम करता है ( L1 और L2 पर अधिक जानने के लिए यहां या यहां देखें )

median(x)=argminsi|xis|1

जबकि मतलब L2 को कम करता है

mean(x)=argminsi|xis|2

अब, याद रखें कि सामान्य वितरण '' पैरामीटर का उपयोग नमूना माध्य का अनुमान लगाया जा सकता है , जबकि लाप्लास वितरण पैरामीटर के लिए MLE अनुमानक औसत है। तो सामान्य वितरण का उपयोग L2 मानक अनुकूलन के बराबर है और L1 अनुकूलन का उपयोग करने के लिए लाप्लास वितरण का उपयोग करना है। व्यवहार में आप इसके बारे में सोच सकते हैं कि माध्य माध्यिका की तुलना में आउटलेयर के प्रति कम संवेदनशील है, और वही, पूर्व की भांति लैटर-टेल्ड लैप्लस वितरण का उपयोग करने से आपके मॉडल को सामान्य वितरण की तुलना में आउटलेर्स के लिए कम खतरा होता है।μμμ


हर्ले, डब्लूजे (2009) डबल एक्सपोनेंशियल डिस्ट्रीब्यूशन के लिए एमएलई की गणना करने के लिए एक इंडक्टिव अप्रोच हैजर्नल ऑफ मॉडर्न अप्लाइड स्टैटिस्टिकल मेथड्स: 8 (2), आर्टिकल 25।


शायद यह यहां दिए गए सबसे गणितीय रूप से कठोर उत्तर नहीं है, लेकिन यह निश्चित रूप से सबसे आसान है, एल 1 / एल 2 में शुरुआत के लिए सबसे अधिक सहज ज्ञान युक्त है।
SQLServerSteve

8

वैरिएबल (w / o इंटरसेप्ट) के साथ एक प्रतिगमन समस्या के लिए आप के रूप में OLS करते हैंk

minβ(yXβ)(yXβ)

दंड के साथ नियमित रूप से प्रतिगमन में आप करते हैंLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

हम तुलनात्मक रूप से कर सकते हैं (संकेत परिवर्तन पर ध्यान दें)

maxβ(yXβ)(yXβ)λi=1k|βi|p

यह सीधे बायेसियन सिद्धांत से संबंधित है

posteriorlikelihood×prior

या समकक्ष (नियमितता शर्तों के तहत)

log(posterior)log(likelihood)+log(penalty)

अब यह देखना कठिन नहीं है कि कौन सा घातीय परिवार वितरण किस दंड प्रकार से मेल खाता है।


3

समतुल्यता को अधिक सटीक रूप से रखने के लिए:

एल 2 नियमितीकरण के साथ एक चुकता त्रुटि हानि फ़ंक्शन को कम करने के लिए मॉडल वज़न का अनुकूलन, उन वजनों को खोजने के बराबर है जो कि एक शून्य-मतलब स्वतंत्र गौसियन वेट से पहले, बेज़ नियम का उपयोग करके मूल्यांकन किए जाने वाले सबसे खराब वितरण के तहत होते हैं।

सबूत:

जैसा कि ऊपर वर्णित नुकसान समारोह द्वारा दिया जाएगा

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

ध्यान दें कि बहुभिन्नरूपी गॉसियन के लिए वितरण

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Bayes नियम का उपयोग करना, हमारे पास वह है

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

जहाँ हम बहु-आयामी गासियन को एक उत्पाद में विभाजित करने में सक्षम हैं, क्योंकि कोवरियन एक पहचान मैट्रिक्स का एक गुण है।

नकारात्मक लॉग प्रायिकता को लें

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

हम निश्चित रूप से स्थिरांक को गिरा सकते हैं, और मूलभूत रूप से नुकसान फ़ंक्शन को प्रभावित किए बिना किसी भी राशि से गुणा कर सकते हैं। (निरंतर कुछ नहीं करता है, गुणन प्रभावी रूप से सीखने की दर को मापता है। मिनिमा के स्थान को प्रभावित नहीं करेगा) इसलिए हम देख सकते हैं कि पश्च वितरण की नकारात्मक लॉग संभावना एल 2 नियमित स्क्वायर त्रुटि हानि फ़ंक्शन के बराबर नुकसान फ़ंक्शन है।

यह समानता सामान्य है और वज़न के किसी भी मानकीकृत कार्य के लिए है - न केवल रैखिक प्रतिगमन, जैसा कि ऊपर निहित है।


1

बेइज़ियन मॉडलिंग की दो विशेषताएं हैं जिन पर ज़ोर देने की आवश्यकता है, जब कुछ दंडित अधिकतम संभावना अनुमान और बायेसियन प्रक्रियाओं के समतुल्य पर चर्चा की जाती है।

  1. बायेसियन फ्रेमवर्क में, समस्या की बारीकियों के आधार पर पूर्व का चयन किया जाता है और कम्प्यूटेशनल एक्सपेडिएंस से प्रेरित नहीं होता है। इसलिए Bayesians कई प्रकार के पादरियों का उपयोग करते हैं, जिनमें अब विरल भविष्यवाणियां भी शामिल हैं, पूर्ववर्ती भविष्यवाणियों की समस्याओं के लिए, और L1 या L2 दंड के बराबर वाले पादरियों पर इतना भरोसा करने की आवश्यकता नहीं है।
  2. पूर्ण बायेसियन दृष्टिकोण के साथ जब आप काम कर लेते हैं तो आपके पास सभी संभावित प्रक्रियाओं तक पहुंच होती है। उदाहरण के लिए आप बड़े प्रतिगमन गुणांक के लिए साक्ष्य का मूल्यांकन कर सकते हैं और आप प्रतिगमन गुणांक और समग्र अनुमानित मूल्यों पर विश्वसनीय अंतराल प्राप्त कर सकते हैं। बार-बार होने वाली रूपरेखा में, एक बार जब आप दंड का चयन करते हैं तो आप सभी ह्रास मशीन खो देते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.