नियमितीकरण: क्यों 1/2 मीटर से गुणा करें?

10

में सप्ताह में 3 व्याख्यान नोट्स के एंड्रयू एनजी के Coursera मशीन लर्निंग वर्ग , एक शब्द नियमितीकरण को लागू करने की लागत समारोह में जोड़ा जाता है:

{जे}^{+} (θ) = जे (θ) + \frac{λ}{2 म} Σ_{जे = 1}^{n} θ_{जे}^{2}

$J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2$

व्याख्यान नोट्स कहते हैं:

हम अपने सभी थीटा मापदंडों को एक ही योग में नियमित कर सकते हैं:

$म मैं n_{θ} \frac{1}{2 म} [Σ_{मैं = 1}^{म} (ज_{θ} ({एक्स}^{(मैं)}) - y^{(मैं)})^{2} + λ Σ_{जे = 1}^{n} θ_{जे}^{2}]$ $min_\theta\ \dfrac{1}{2m}\ \left[ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2 \right]$

$\frac 1 {2m}$ बाद में तंत्रिका नेटवर्क के नियमितीकरण शब्द पर लागू होता है :

स्मरण करो कि नियमित लॉजिस्टिक प्रतिगमन के लिए लागत समारोह था:

$जे (θ) = - \frac{1}{म} Σ_{मैं = 1}^{म} [y^{(मैं)} लॉग (ज_{θ} ({एक्स}^{(मैं)})) + (1 - y^{(मैं)}) लॉग (1 - ज_{θ} ({एक्स}^{(मैं)}))] + \frac{λ}{2 म} Σ_{जे = 1}^{n} θ_{जे}^{2}$ $J(\theta) = - \frac{1}{m} \sum_{i=1}^m [ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$
तंत्रिका नेटवर्क के लिए, यह थोड़ा और अधिक जटिल होने जा रहा है:
$\begin{matrix} जे (Θ) = - \frac{1}{म} Σ_{मैं = 1}^{म} Σ_{क = 1}^{क} [y_{क}^{(मैं)} लॉग ((ज_{Θ} ({एक्स}^{(मैं)}))_{क}) + (1 - y_{क}^{(मैं)}) लॉग (1 - (ज_{Θ} ({एक्स}^{(मैं)}))_{क})] + \frac{λ}{2 म} Σ_{एल = 1}^{एल - 1} Σ_{मैं = 1}^{{रों}_{एल}} Σ_{जे = 1}^{{रों}_{एल + 1}} (Θ_{जे, मैं}^{(एल)})^{2} \end{matrix}$ $\begin{gather*} J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}$

यहां निरंतर एक-आध का उपयोग क्यों किया जाता है? ताकि यह व्युत्पन्न में रद्द हो जाए ? $J'$
प्रशिक्षण उदाहरणों द्वारा विभाजन क्यों ? प्रशिक्षण के उदाहरणों की मात्रा चीजों को कैसे प्रभावित करती है? $m$

regularization

— टॉम हेल
स्रोत

क्या आप सुनिश्चित हैं कि 1 / मी नियमितीकरण पर है और J (थीटा) पर नहीं है। AFAIK @DikranMarsupial का उत्तर यह धारणा बना रहा है कि क्या J (थीटा) के पास 1 / m शब्द है?

— seanv507

यह धारणा गलत है - को नियमित-नियमित लागत फ़ंक्शन और नियमितीकरण अवधि दोनों पर लागू किया जाता है। मैंने पूर्ण सूत्र देने के लिए प्रश्न को अपडेट किया है।

\frac{1}{2 m}

$1 \over 2m$

— टॉम हेल

5

मान लीजिए कि आप 10 उदाहरण है और आप संख्या से एक एल 2 नियमितीकरण लागत को विभाजित नहीं है के उदाहरण लगता है चलो हूँ । फिर क्रॉस-एन्ट्रापी लागत की तुलना में एल 2 नियमितीकरण लागत का एक "प्रभुत्व" 10: 1 की तरह होगा, क्योंकि प्रत्येक प्रशिक्षण उदाहरण 1 / m = 1/10 के अनुपात में समग्र लागत में योगदान कर सकता है ।

यदि आपके पास अधिक उदाहरण हैं, तो मान लीजिए कि 100, तो L2 नियमितीकरण लागत का "प्रभुत्व" 100: 1 जैसा कुछ होगा, इसलिए आपको तदनुसार एक λ को कम करने की आवश्यकता है , जो असुविधाजनक है। बैच आकार की परवाह किए बिना λ स्थिर होना बेहतर है ।

अद्यतन: इस तर्क को और अधिक मजबूत बनाने के लिए मैंने एक ज्यूपिटर नोटबुक बनाया ।

— Grez
स्रोत

1

हम्म, लेकिन लागत समारोह से पहले 1 / मी कारक का उद्देश्य नहीं है कि प्रत्येक प्रशिक्षण उदाहरण लागत में समान रूप से योगदान देता है? इसलिए, चूंकि हम पहले से ही व्यक्तिगत लागत से औसत हैं, इसलिए यह एल 2 शब्द के प्रभुत्व का कारण नहीं होना चाहिए। हालांकि, मैं आपके महान सिमुलेशन से देखता हूं कि एल 2 टर्म से पहले 1 / मी कारक भी मदद करता है। मैं अभी इसके पीछे (अभी तक) अंतर्ज्ञान नहीं मिलता है।

— मिलनिया

यह असुविधाजनक क्यों है ?? नमूनों की संख्या से L2 लागत को विभाजित करना सरल है। मुझे लगता है कि शायद आपने इसे गलत तरीके से समझा। मुझे लगता है कि आपके कहने का मतलब यह है कि हर बार L2 लागत को मैन्युअल रूप से मापना असुविधाजनक है , अपने आप इसे स्केल करने के लिए सूत्र के भाग के रूप में नमूनों की संख्या से विभाजित करना बेहतर है।

— स्पेसमनीज

6

प्रशिक्षण सेट पर नुकसान फ़ंक्शन आम तौर पर प्रशिक्षण सेट को शामिल करने वाले पैटर्न पर एक राशि है, इसलिए जैसे ही प्रशिक्षण सेट बड़ा हो जाता है, पहला शब्द अनिवार्य रूप से साथ रैखिक रूप से शुरू होता है । हम का एक अच्छा मूल्य के लिए seraching के लिए सीमा की अवधि कम कर सकते हैं एक निष्पक्ष बिट अगर हम पहले से नियमितीकरण अवधि विभाजित की निर्भरता की भरपाई के लिए पर । पाठ्यक्रम के 2 वास्तव में इष्टतम ata निर्धारित करने के लिए इस्तेमाल किया opimisation एल्गोरिथ्म के लिए आवश्यक डेरिवेटिव को सरल बनाने के लिए है । $J(\theta)$ $m$ $\lambda$ $m$ $J(\theta)$ $m$ $\theta$

— डिक्रान मार्सुपियल
स्रोत

साथ गैर-नियमित लागत स्केलिंग समझाने के लिए धन्यवाद । मैं अभी भी नहीं मिलता है कैसे से विभाजित एक भी मदद मिलेगी का व्यापक रूप से भिन्न मूल्यों के साथ बेहतर मूल्य काम । गैर नियमित लागत पहले से ही भारी पर निर्भर है , तो क्यों नियमितीकरण शब्द है जो पर निर्भर है के बारे में देखभाल मानकों, नहीं उदाहरण? क्या ऐसा इसलिए है क्योंकि अधिक प्रशिक्षण उदाहरणों के साथ, वैरिएशन में समान मापदंडों की संख्या में कमी आएगी?

m

$m$

m

$m$

λ

$\lambda$

m

$m$

m

$m$

n

$n$

m

$m$

— टॉम हेल

प्रश्न में हानि फ़ंक्शन सभी उदाहरणों पर एक औसत है (अर्थात यह मी द्वारा विभाजित है), एक राशि नहीं है, इसलिए मैं वास्तव में नहीं देखता कि यह उत्तर कैसे काम करता है।

— डेन्ज़िलो

@ डेंजिलो इसे नियमितीकरण शब्द पर भी लागू किया जाता है।

— डिक्रान मार्सुपियल

2

मैं इस पाठ्यक्रम को लेते समय ठीक उसी चीज के बारे में सोचता था, और इस पर थोड़ा शोध किया। मैं यहाँ एक छोटा सा उत्तर दूंगा, लेकिन आप इसके बारे में लिखे एक ब्लॉग पोस्ट में अधिक विस्तृत अवलोकन पढ़ सकते हैं ।

मेरा मानना है कि उन स्केलिंग गुणांक के कारण का कम से कम हिस्सा यह है कि Lization नियमितीकरण संभवतया संबंधित की शुरूआत के माध्यम से गहन शिक्षा के क्षेत्र में प्रवेश किया, लेकिन समान नहीं, वजन घटाने की अवधारणा।

0.5 कारक तो ढाल में वजन क्षय के लिए एक अच्छा λ- केवल गुणांक प्राप्त करने के लिए है, और मीटर द्वारा स्केलिंग ... ठीक है, कम से कम 5 अलग-अलग प्रेरणाएं हैं जो मुझे मिली हैं या साथ आई हैं:

बैच ग्रैडिएंट डिसेंट का एक साइड-इफ़ेक्ट: जब ग्रैडिएंट डिसेंट का एक इटरएशन पूरे ट्रेनिंग सेट पर औपचारिक रूप से लागू होता है, जिसके परिणामस्वरूप एल्गोरिथ्म को कभी-कभी बैच ग्रैडिएंट डिसेंट कहा जाता है, जो लागत फ़ंक्शन को तुलनीय बनाने के लिए 1 / m का स्केलिंग फैक्टर पेश करता है। अलग-अलग आकार के डेटासेट में, स्वचालित रूप से वज़न क्षय शब्द पर लागू होता है।
एकल उदाहरण के वजन में पुनर्विक्रय: देखें ग्रीज़ का दिलचस्प अंतर्ज्ञान।
प्रशिक्षण सेट प्रतिनिधित्वशीलता: यह नियमितीकरण को स्केल करने के लिए समझ में आता है क्योंकि प्रशिक्षण सेट का आकार सांख्यिकीय रूप से बढ़ता है, समग्र वितरण का इसका प्रतिनिधित्व भी बढ़ता है। मूल रूप से, हमारे पास जितना अधिक डेटा है, उतना कम नियमितीकरण की आवश्यकता है।
Λ को तुलनीय बनाना: उम्मीद है कि जब मी बदलता है, तो λ को बदलने की आवश्यकता को कम करके, यह स्केलिंग λ को विभिन्न आकार के डेटासेट में तुलनीय बनाता है। यह λ को एक विशिष्ट सीखने की समस्या पर एक विशिष्ट मॉडल द्वारा आवश्यक नियमितीकरण की वास्तविक डिग्री का अधिक प्रतिनिधि अनुमानक बनाता है।
अनुभवजन्य मूल्य: यह grezदर्शाता है कि यह व्यवहार में प्रदर्शन को बेहतर बनाता है।

— ShayPal5
स्रोत

0

मैं भी इस बारे में उलझन में था, लेकिन तब deeplearning.ai एंड्रयू के लिए एक व्याख्यान में यह सिर्फ एक स्केलिंग स्थिरांक है:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

शायद 1/2 मीटर का उपयोग करने का एक गहरा कारण है, लेकिन मुझे संदेह है कि यह केवल एक हाइपरपरमीटर है।

— कीन पी
स्रोत

इस सवाल का जवाब नहीं है।

— बजे माइकल आर। चेरनिक