नियमितीकरण शब्द को * लागत कार्य (गुणक आदि के बजाय) * से क्यों जोड़ा गया है?

51

J (θ) = \frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T} + α ‖ θ ‖_{2}^{2}

$J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2$

मेरा प्रश्न यह है कि इस नियमितीकरण शब्द को जोड़ा गया है, जो मूल लागत फ़ंक्शन में जोड़ा गया है और गुणा या कुछ और नहीं है जो नियमितीकरण के विचार के पीछे प्रेरणा की भावना रखता है? क्या यह इसलिए है क्योंकि यदि हम केवल इस पर शब्द जोड़ते हैं, तो यह पर्याप्त रूप से सरल है और हमें इसे विश्लेषणात्मक रूप से हल करने में सक्षम बनाता है या कोई गहरा कारण है? $\alpha\|\theta\|_2^2$

regularization

— grenmester
स्रोत

1

एक अन्य तर्क

— रिप्रजेंटेटर

2

लैग्रेनैज मल्टीप्लायर

— डू

9

यदि आपके पास टिप्पणियों से अधिक स्वतंत्र चर हैं, तो आप

\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}

$\frac 1 2(y-\theta X^T)(y-\theta X^T)^T$ से कई अलग-अलग तरीकों से शून्य कर सकते हैं, इसलिए किसी भी चीज़ से गुणा करना संभव नहीं है एक उपयोगी मॉडल को अलग करने में मदद

— हेनरी

47

बायेसियन ढांचे में इसका काफी अच्छा अंतर्ज्ञान है। पर विचार करें नियमित लागत समारोह है कि एक पैरामीटर विन्यास की संभावना के रूप में एक ऐसी ही भूमिका है दिया टिप्पणियों । बेस प्रमेय को लागू करते हुए, हम प्राप्त करते हैं: $J$ $\theta$ $X, y$

P (θ | X, y) = \frac{P (X, y | θ) P (θ)}{P (X, y)} .

$P(\theta|X,y) = \frac{P(X,y|\theta)P(\theta)}{P(X,y)}.$

अभिव्यक्ति का लॉग लेना हमें देता है:

\log P (θ | X, y) = \log P (X, y | θ) + \log P (θ) - \log P (X, y) .

$\log P(\theta|X,y) = \log P(X,y|\theta) + \log P(\theta) - \log P(X,y).$

अब, मान लें कि ऋणात्मक ¹ लॉग-पोस्टियर है, । चूँकि अंतिम पद पर निर्भर नहीं करता है , हम न्यूनतम को बदले बिना इसे छोड़ सकते हैं। आपको दो शब्दों के साथ छोड़ दिया जाता है: 1) और आधार पर संभावना शब्द और 2) पूर्व टर्म केवल आधार पर । ये दो शब्द डेटा शब्द और आपके सूत्र में नियमितीकरण शब्द के बिल्कुल अनुरूप हैं। $J(\theta)$ $-\log P(\theta|X,y)$ $\theta$ $\log P(X,y|\theta)$ $X$ $y$ $\log P(\theta)$ $\theta$

आप आगे भी जा सकते हैं और दिखा सकते हैं कि आपके द्वारा पोस्ट किया गया नुकसान फ़ंक्शन ठीक निम्नलिखित मॉडल से मेल खाता है:

P (X, y | θ) = N (y | θ X, σ_{1}^{2}),

$P(X,y|\theta) = \mathcal{N}(y|\theta X, \sigma_1^2),$

P (θ) = N (θ | 0, σ_{2}^{2}),

$P(\theta) = \mathcal{N}(\theta | 0, \sigma_2^2),$

जहां मानकों एक शून्य मतलब गाऊसी वितरण से आते हैं और टिप्पणियों शून्य मतलब गाऊसी शोर है। अधिक जानकारी के लिए यह उत्तर देखें । $\theta$ $y$

¹ नकारात्मक क्योंकि आप संभावना को अधिकतम करना चाहते हैं लेकिन लागत को कम करते हैं।

— जन कुक्कुटा
स्रोत

5

मैं इस जवाब से थोड़ा असंतुष्ट हूं क्योंकि यह सिर्फ लागत समारोह और लॉग-पोस्ट के बीच पत्राचार करता है। यदि लागत लॉग-पोस्ट के अनुरूप नहीं है, बल्कि स्वयं ही पीछे है, तो हम यह निष्कर्ष निकालेंगे कि नियमितीकरण को गैर-नियमित लागत से गुणा किया जाना चाहिए (जैसे ओपी ने पूछा)। - इस उत्तर को उचित ठहराने के लिए, आपको यह औचित्य देने की आवश्यकता होगी कि यह लॉग-पोस्टियर क्यों है जो हम लागत के बराबर हैं। (आप "आगे भी चलते हैं" के साथ करते हैं, लेकिन आपको उस बिंदु पर थोड़ा सा हाथ लहराता है।)

— आरएम

1

@ आरएम, मान्य बिंदु। एक कारण है: ऐसा इसलिए है क्योंकि मशीन लर्निंग में उपयोग किए जाने वाले मानक हानि कार्य पश्च-पश्च की बजाय लॉग-पोस्टियर के अनुरूप हैं। क्यों? क्योंकि वे अनुभवजन्य जोखिम को कम करते हैं; , और मानक हानि कार्य फॉर्म जहां एक हानि फ़ंक्शन है जो लॉग-पोस्टियर संभावना के रूप में एक समझदार व्याख्या है। (मुझे संदेह है कि आप यह जानते हैं, लेकिन मैं इसे अन्य आगंतुकों के लिए वर्तनी दे रहा हूं।)

\log P (X_{1}, \dots, X_{n}, y_{1}, \dots, y_{n} | θ) = \sum_{i} \log P (X_{i}, y_{i} | θ)

$\log P(X_1,\dots,X_n,y_1,\dots,y_n|\theta) = \sum_i \log P(X_i,y_i|\theta)$

\sum_{i} f (X_{i}, y_{i}, θ_{i})

$\sum_i f(X_i,y_i,\theta_i)$

f

$f$

— डीडब्ल्यू

@RM यदि आपकी कुछ लागत तो आप हमेशा संदर्भ में अपनी समस्या को फिर से परिभाषित कर सकते हैं । दूसरे शब्दों में, आपकी लागत फ़ंक्शन जो भी है, यह कुछ सामान्य को स्थिर करके विभाजित पर आधारित वितरण को परिभाषित करता है जिसे आप MCMC विधियों का उपयोग करते समय अनदेखा कर सकते हैं। तथ्य यह है कि आप हमेशा एक घातीय के संदर्भ में आराम कर सकते हैं उदाहरण के लिए सिम्युलेटेड एनेलिंग, एमसीएमसी नमूने, आदि के लिए बहुत महत्वपूर्ण है

C

$C$

C = \exp \ln C

$C = \exp{\ln C}$

\exp \ln C

$\exp{\ln C}$

— ely

उदाहरण के लिए @RM, Jun लियू द्वारा इस पत्र पर विचार करें (और लियू की MCMC पुस्तक में भी इसी तरह की टिप्पणी है), जहाँ नीचे पृष्ठ 3 पर लिखा है, "Let जांच के तहत लक्ष्य संभाव्यता वितरण होना चाहिए (संभवतः सभी pdfs को इस रूप में लिखा जा सकता है) "(जोर दिया गया)। इसलिए बायेसियन दृष्टिकोण से जहां संभावना मॉडल के द्वारा परिभाषित पीछे के हिस्से में यह नुकसान समारोह होगा, इस जवाब के लिए बायेसियन अपघटन पूरी तरह से सामान्य होगा।

π (x) = c \exp - h (x)

$\pi(x) = c\exp{-h(x)}$

— Ely

जवाब के लिए धन्यवाद! मैं आपकी पोस्ट की शुरुआत में "इसे" समझने की कोशिश कर रहा हूं: क्या आप दावा कर रहे हैं कि बायेसियन फ्रेमवर्क में अच्छा अंतर्ज्ञान है? मौलिक कारण दंड जोड़ने से अच्छे अनुमानक मिलते हैं? या ऐतिहासिक (और गैर-वैज्ञानिक) कारण क्यों लोग इन योगात्मक अनुमानकों का उपयोग करते हैं? (जैसा कि मैं सुझाव देने की कोशिश कर रहा था, मुझे लगता है कि आपका उत्तर एक सांख्यिकीय कारण के बजाय ऐतिहासिक कारण को संबोधित करता है।)

— user795305

34

Jan और Cagdas एक अच्छा बेइज़ियन कारण देते हैं, नियमित करने वाले की पूर्व की तरह व्याख्या करते हैं। यहाँ कुछ गैर-बायेसियन हैं:

यदि आपका अनियमित उद्देश्य उत्तल है, और आप एक उत्तल नियमितकारक जोड़ते हैं, तो आपका कुल उद्देश्य अभी भी उत्तल होगा। यह सच नहीं होगा यदि आप इसे गुणा करते हैं, या संयोजन के अधिकांश अन्य तरीके। उत्तल अनुकूलन वास्तव में, गैर-उत्तल अनुकूलन की तुलना में वास्तव में अच्छा है; यदि उत्तल सूत्रीकरण कार्य करता है, तो यह करना अच्छा है।
कभी-कभी यह एक बहुत ही सरल बंद रूप की ओर जाता है, क्योंकि wpof उल्लेख रिज प्रतिगमन के लिए मामला है।
यदि आप इस समस्या के बारे में सोचते हैं कि आप "वास्तव में" एक कठिन बाधा the साथ एक समस्या के रूप में हल करना चाहते हैं तो इसका Lagrange समस्या का हालाँकि आपको Lagrange duality का उपयोग नहीं करना है, लेकिन इसके बारे में बहुत कुछ समझा जाता है।
$min_{θ : c (θ) \leq 0} J (θ),$ $\min_{\theta : c(\theta) \le 0} J(\theta) ,$ $min_{θ} J (θ) + λ c (θ) .$ $\min_\theta J(\theta) + \lambda c(\theta) .$
जैसा कि ओगोगम ने उल्लेख किया है , रिप्रजेंटेंट प्रमेय एक योगात्मक दंड के मामले पर लागू होता है: यदि आप फ़ंक्शन संपूर्ण पुनरुत्पादन कर्नेल हिल्बर्ट स्पेस पर को ऑप्टिमाइज़ करना चाहते हैं , तो हम जानते हैं कि पूरे स्पेस का कई नुकसान के लिए एक सरल परिमित आयामी उपस्पेस में निहित ; मुझे नहीं पता कि क्या यह एक गुणक नियमित के लिए होगा (हालांकि यह हो सकता है)। यह कर्नेल एसवीएम का अंडरपिनिंग है। $f$ $\mathcal H$
$min_{f \in H} J (f) + λ ‖ f ‖_{H}^{2}$ $\min_{f \in \mathcal H} J(f) + \lambda \lVert f \rVert_{\mathcal H}^2$ $J$
यदि आप किसी भी तरह से गहरी शिक्षा या कुछ गैर-उत्तल कर रहे हैं: योज्य हानि सरल योज्य ग्रेडिएंट देता है। आपके द्वारा दिए गए साधारण लिए , यह बहुत ही सरल वज़न क्षय हो जाता है । लेकिन यहां तक कि एक अधिक जटिल नियमितता के लिए, WGAN-GP के नुकसान ग्रेडप्रोपैजेशन के लिए ग्रेडिएंट्स की गणना करना आसान है, जब इसे केवल नुकसान और जटिल रेग्युलर का योग (अलग से चीजों पर विचार करना) पर विचार करना है, बजाय उत्पाद नियम करें। $L_2$
$\sum_{x, y} \underset{the loss}{\underset{⏟}{f_{θ} (x) - f_{θ} (y)}} + λ \underset{the regularizer}{\underset{⏟}{{\hat{E}}_{α \sim U n i f o r m (0, 1)} {(‖ \nabla f_{θ} (α x + (1 - α) y) ‖ - 1)}^{2}}},$ $\sum_{x,y} \underbrace{f_\theta(x) - f_\theta(y)}_\text{the loss} + \lambda \underbrace{\mathbb{\hat E}_{\alpha \sim \mathrm{Uniform}(0, 1)} \left( \lVert \nabla f_\theta(\alpha x + (1 - \alpha) y) \rVert - 1\right)^2}_\text{the regularizer},$
Additive नुकसान लोकप्रिय ADMM ऑप्टिमाइज़ेशन एल्गोरिदम और अन्य "अपघटन" -आधारित एल्गोरिदम के लिए भी उत्तरदायी हैं ।

इनमें से कोई भी कठिन और तेज़ नियम नहीं है, और वास्तव में कभी-कभी एक गुणक (या कुछ अन्य) नियमित रूप से बेहतर काम कर सकता है (जैसा कि ओगोगम बताते हैं )। (वास्तव में, मैंने अभी दूसरे दिन एक पेपर प्रस्तुत किया है कि आप एक गुणक नियमितकर्ता के रूप में कुछ कैसे व्याख्या कर सकते हैं, ऊपर दिए गए WGAN-GP एडिटिव से बेहतर है!) लेकिन उम्मीद है कि यह समझाने में मदद करता है कि एडिटिव रेगुलराइज़र "डिफ़ॉल्ट" क्यों हैं।

— Dougal
स्रोत

2

+1। अपने [संभवतः NIPS] प्रस्तुत करने के साथ शुभकामनाएँ!

— अमीबा का कहना है कि मोनिका

13

आप वस्तुनिष्ठ समारोह में दोनों शब्दों को कम से कम करना चाहते हैं । इसलिए, आपको शर्तों को डिकूप करने की आवश्यकता है। यदि आप शर्तों को गुणा करते हैं तो आपके पास एक शब्द बड़ा और दूसरा बहुत कम हो सकता है। तो, आप अभी भी उद्देश्य फ़ंक्शन के कम मूल्य के साथ समाप्त होते हैं, लेकिन एक अवांछनीय परिणाम के साथ।

आप एक ऐसे मॉडल के साथ समाप्त हो सकते हैं जिसमें सबसे अधिक परिवर्तनशील होता है शून्य के साथ कोई भविष्य कहनेवाला शक्ति नहीं।

वस्तुनिष्ठ फ़ंक्शन, जो कि फ़ंक्शन है जिसे न्यूनतम किया जाना है, का निर्माण लागत समारोह और नियमितीकरण की शर्तों के योग के रूप में किया जा सकता है।

यदि दोनों एक-दूसरे पर स्वतंत्र हैं, तो आपको उद्देश्य के लिए पहले आंकड़े में चित्रित मूल्य मिलते हैं। आप राशि के मामले में देखते हैं, केवल (0, 0) पर एक न्यूनतम है। उत्पाद के मामले में आपके पास अस्पष्टता है। आपके पास शून्य (x = 0 या y = 0) के बराबर पूरी हाइपर-सतह है। तो, अनुकूलन एल्गोरिथ्म आपके प्रारंभ के आधार पर कहीं भी समाप्त हो सकता है। और यह तय नहीं किया जा सकता है कि कौन सा समाधान बेहतर है।

— सोरेन
स्रोत

10

आप अन्य बाइनरी ऑपरेशन ( ) आज़मा सकते हैं और देख सकते हैं कि उनकी तुलना कैसे की जाती है। $\max,\min,\times$

और साथ समस्या यह है कि यदि त्रुटि , तो नियमित दंड समाप्त हो जाएगा । यह मॉडल को ओवरफिट करने की अनुमति देता है। $\min$ $\times$ $0$ $0$

साथ समस्या यह है कि आप दो दंड (प्रशिक्षण त्रुटि या नियमितीकरण) के "कठिन" को कम करते हैं, लेकिन दूसरे को नहीं। $\max$

इसके विपरीत, सरल है और यह काम करता है। $+$

आप पूछ सकते हैं कि अन्य बाइनरी ऑपरेशन क्यों नहीं? कोई तर्क नहीं है जो उन्हें बाहर शासन कर सकता है, इसलिए वास्तव में क्यों नहीं?

— jkabrg
स्रोत

8

मुझे लगता है कि आपके पास एक वैध प्रश्न है। आपको एक उचित जवाब देने के लिए आपको समस्या की संभावित प्रकृति को समझना होगा।

सामान्य तौर पर हम जिस समस्या को हल करने की कोशिश कर रहे हैं, वह निम्नलिखित है: डेटा को देखते हुए, इस डेटा की व्याख्या करने वाली परिकल्पनाओं का वितरण क्या है। जब हम परिकल्पना कहते हैं तो हमारा मतलब एक पीडीएफ (कम से कम इस संदर्भ में) है। और परिकल्पनाओं का वितरण पीडीएफ का एक पीडीएफ है, अर्थात, । $D$ $p(H | D)$

$p(H | D)$ दिए गए परिकल्पना पर एक वितरण है । यदि हम इसे पा सकते हैं तो हम इन परिकल्पनाओं में से किसी एक का चयन कर सकते हैं, उदाहरण के लिए सबसे अधिक संभावना वाला व्यक्ति, या हम उन सभी पर औसत चयन कर सकते हैं। कुछ हद तक एक आसान तरीका यह है कि बेयस प्रमेय का उपयोग करके किसी अलग दिशा से समस्या पर हमला किया जाए। $D$

$p (H | D) = \frac{p (D | H) \times p (H)}{p (D)}$ $p(H|D) = \frac{p(D|H)\times p(H)}{p(D)}$
$p(D|H)$ परिकल्पना में से एक है, इसे संभावना भी कहा जाता है। डेटा के अवलोकन से पहले हमारे परिकल्पना के ब्रह्मांड में परिकल्पनाओं का वितरण है। डेटा का निरीक्षण करने के बाद हम अपनी मान्यताओं को अपडेट करते हैं। $p(H)$
$p(D)$ हमारी मान्यताओं को अद्यतन करने से पहले परिकल्पनाओं का औसत है।

अब यदि हम Bayes के समीकरण के दोनों पक्षों का लेते हैं: $-\log$

- \log [p (H | D)] = - \log [p (D | H)] - \log [p (H)] + \log [p (D)]

$-\log [p(H|D)] = -\log [p(D|H)] -\log [p(H)] + \log [p(D)]$

आमतौर पर की गणना करना मुश्किल है। अच्छी बात यह है कि यह परिणाम को प्रभावित नहीं करता है। यह बस एक सामान्यीकरण स्थिरांक है। $p(D)$

अब उदाहरण के लिए यदि हमारा सेट हाइपोथेसिस साथ गॉसियंस का एक समूह है जहाँ हम नहीं जानते , लेकिन (या कम से कम मान लें कि यह एक स्थिर है) को जानने के लिए मान लें , और इसके अलावा परिकल्पना स्वयं को साथ एक गाऊसी के रूप में वितरित की जाती है। तो ऊपर सब कुछ plugging कुछ इस तरह दिखता है: $p(D|H)$ $p(y|X,\theta)\sim N(\theta X,\sigma)$ $\theta$ $\sigma$ $p(H) = p(\theta) \sim N(0,\alpha^{-1} I)$

- \log [p (H | D)] = bunch of constants + \frac{1}{2} (y - θ X)^{2} + \frac{1}{2} α | | θ | |^{2} + c o n s t a n t

$-\log [p(H|D)] = \text{bunch of constants} + \frac{1}{2}(y-\theta X)^2 + \frac{1}{2}\alpha||\theta||^2 + {\rm constant}$

अब अगर हम इस अभिव्यक्ति को कम करते हैं तो हम परिकल्पना को सबसे अधिक संभावना के साथ पाते हैं। स्थिरांक न्यूनतम को प्रभावित नहीं करते हैं। यह आपके प्रश्न में अभिव्यक्ति है।

तथ्य यह है कि हम गाऊसी इस्तेमाल किया तथ्य यह नहीं है कि नियमितीकरण शब्द अतिरिक्त है। यह योगात्मक होना चाहिए (लॉग शब्दों में या संभावनाओं में गुणक), कोई अन्य विकल्प नहीं है। यदि हम अन्य वितरणों का उपयोग करते हैं, तो जोड़ के घटक क्या होंगे? आपके द्वारा प्रदान की गई लागत / हानि समारोह, गाऊसी लोगों के एक विशिष्ट परिदृश्य के लिए इष्टतम है।

— कगदस ओजगेंक
स्रोत

हे कैगदास, स्पष्टीकरण के लिए धन्यवाद। मैं RHS पर अंतिम समीकरण के परिवर्तन को नहीं समझ पाया। क्या आप उस हिस्से को और अधिक स्पष्ट रूप से समझने के लिए मेरे लिए कुछ संसाधन की ओर इशारा कर सकते हैं

— इताची

7

रिज एक बहुत ही सुविधाजनक सूत्रीकरण है। संभाव्य उत्तर के विपरीत, यह उत्तर अनुमान की कोई व्याख्या नहीं देता है, बल्कि यह बताता है कि रिज एक पुराना और स्पष्ट सूत्रीकरण क्यों है।

रैखिक प्रतिगमन में, सामान्य समीकरण $\hat{\theta} = (X^TX)^{-1} X^T y$

लेकिन, मैट्रिक्स कभी-कभी उलटा नहीं होता है; : इसे समायोजित करने की एक तरह से विकर्ण लिए एक छोटा सा तत्व जोड़कर है । $X^TX$ $X^TX + \alpha I$

यह समाधान देता है: ; तब मूल समस्या को हल नहीं करता, बल्कि रिज समस्या को हल करता है। $\tilde{\theta} = (X^TX + \alpha I)^{-1} X^T y$ $\tilde{\theta}$

— wpof
स्रोत

3

कृपया उन उत्तरों को निर्दिष्ट करें जिनका आप उल्लेख कर रहे हैं। जैसे-जैसे "ऊपर" होता है, वैसे-वैसे यह क्रम बढ़ता चला जाएगा।

— गुंग - फिर से बहाल करें मोनिका

1

मुझे लगता है कि नियमितीकरण शब्द से हम गुणा क्यों नहीं कर सकते, इसका एक अधिक सहज कारण है।

हमारे दंड समारोह को नियमित दंड समारोह में ले जाएँ, जैसा कि आप सुझाते हैं, एक नियमितीकरण शब्द से गुणा किया जाता है।

J (θ) = (\frac{1}{2} (y - θ X^{T}) (y - θ X^{T})^{T}) α ‖ θ ‖_{2}^{2}

$J(θ)=(\frac{1}{2}(y−θX^T)(y−θX^T)^T)α‖θ‖^2_2$

यहां हम पेनल्टी फ़ंक्शन का एक वैश्विक न्यूनतम बनाते हैं जहां । इस मामले में हमारा मॉडल भविष्यवाणी और डेटा के बीच उच्च त्रुटियों का उत्पादन कर सकता है, लेकिन यह कोई फर्क नहीं पड़ता, यदि मॉडल पैरामीटर भार सभी शून्य हैं हमारा जुर्माना फ़ंक्शन शून्य । $α‖θ‖^2_2=0$ $J(θ=0)=0$

चूंकि, जब तक हमारा मॉडल पूरी तरह से सही नहीं है, शब्द कभी भी शून्य नहीं हो सकता (संभावना है कि एक सेट मौजूद है) हमारे मॉडल को 'सही' बनाने के लिए वास्तविक डेटा के लिए नगण्य है), तो हमारे मॉडल को हमेशा समाधान model = 0 की ओर ट्रेन करना चाहिए। $(\frac{1}{2}(y−θX^T)(y−θX^T)^T)$

यह वही है जो तब तक वापस आ जाएगा जब तक यह कहीं स्थानीय न्यूनतम में फंस न जाए।

— जेम्स फुल्टन
स्रोत