नियमितीकरण: क्यों 1/2 मीटर से गुणा करें?


10

में सप्ताह में 3 व्याख्यान नोट्स के एंड्रयू एनजी के Coursera मशीन लर्निंग वर्ग , एक शब्द नियमितीकरण को लागू करने की लागत समारोह में जोड़ा जाता है:

जे+(θ)=जे(θ)+λ2Σजे=1nθजे2

व्याख्यान नोट्स कहते हैं:

हम अपने सभी थीटा मापदंडों को एक ही योग में नियमित कर सकते हैं:

मैंnθ 12 [Σमैं=1(θ(एक्स(मैं))-y(मैं))2+λ Σजे=1nθजे2]

12 बाद में तंत्रिका नेटवर्क के नियमितीकरण शब्द पर लागू होता है :

स्मरण करो कि नियमित लॉजिस्टिक प्रतिगमन के लिए लागत समारोह था:

जे(θ)=-1Σमैं=1[y(मैं) लॉग(θ(एक्स(मैं)))+(1-y(मैं)) लॉग(1-θ(एक्स(मैं)))]+λ2Σजे=1nθजे2

तंत्रिका नेटवर्क के लिए, यह थोड़ा और अधिक जटिल होने जा रहा है:

जे(Θ)=-1Σमैं=1Σ=1[y(मैं)लॉग((Θ(एक्स(मैं))))+(1-y(मैं))लॉग(1-(Θ(एक्स(मैं))))]+λ2Σएल=1एल-1Σमैं=1रोंएलΣजे=1रोंएल+1(Θजे,मैं(एल))2
  • यहां निरंतर एक-आध का उपयोग क्यों किया जाता है? ताकि यह व्युत्पन्न में रद्द हो जाए ?जे'
  • प्रशिक्षण उदाहरणों द्वारा विभाजन क्यों ? प्रशिक्षण के उदाहरणों की मात्रा चीजों को कैसे प्रभावित करती है?

क्या आप सुनिश्चित हैं कि 1 / मी नियमितीकरण पर है और J (थीटा) पर नहीं है। AFAIK @DikranMarsupial का उत्तर यह धारणा बना रहा है कि क्या J (थीटा) के पास 1 / m शब्द है?
seanv507

यह धारणा गलत है - को नियमित-नियमित लागत फ़ंक्शन और नियमितीकरण अवधि दोनों पर लागू किया जाता है। मैंने पूर्ण सूत्र देने के लिए प्रश्न को अपडेट किया है। 12
टॉम हेल

जवाबों:


5

मान लीजिए कि आप 10 उदाहरण है और आप संख्या से एक एल 2 नियमितीकरण लागत को विभाजित नहीं है के उदाहरण लगता है चलो हूँ । फिर क्रॉस-एन्ट्रापी लागत की तुलना में एल 2 नियमितीकरण लागत का एक "प्रभुत्व" 10: 1 की तरह होगा, क्योंकि प्रत्येक प्रशिक्षण उदाहरण 1 / m = 1/10 के अनुपात में समग्र लागत में योगदान कर सकता है ।

यदि आपके पास अधिक उदाहरण हैं, तो मान लीजिए कि 100, तो L2 नियमितीकरण लागत का "प्रभुत्व" 100: 1 जैसा कुछ होगा, इसलिए आपको तदनुसार एक λ को कम करने की आवश्यकता है , जो असुविधाजनक है। बैच आकार की परवाह किए बिना λ स्थिर होना बेहतर है ।

अद्यतन: इस तर्क को और अधिक मजबूत बनाने के लिए मैंने एक ज्यूपिटर नोटबुक बनाया ।


1
हम्म, लेकिन लागत समारोह से पहले 1 / मी कारक का उद्देश्य नहीं है कि प्रत्येक प्रशिक्षण उदाहरण लागत में समान रूप से योगदान देता है? इसलिए, चूंकि हम पहले से ही व्यक्तिगत लागत से औसत हैं, इसलिए यह एल 2 शब्द के प्रभुत्व का कारण नहीं होना चाहिए। हालांकि, मैं आपके महान सिमुलेशन से देखता हूं कि एल 2 टर्म से पहले 1 / मी कारक भी मदद करता है। मैं अभी इसके पीछे (अभी तक) अंतर्ज्ञान नहीं मिलता है।
मिलनिया

यह असुविधाजनक क्यों है ?? नमूनों की संख्या से L2 लागत को विभाजित करना सरल है। मुझे लगता है कि शायद आपने इसे गलत तरीके से समझा। मुझे लगता है कि आपके कहने का मतलब यह है कि हर बार L2 लागत को मैन्युअल रूप से मापना असुविधाजनक है , अपने आप इसे स्केल करने के लिए सूत्र के भाग के रूप में नमूनों की संख्या से विभाजित करना बेहतर है।
स्पेसमनीज

6

प्रशिक्षण सेट पर नुकसान फ़ंक्शन आम तौर पर प्रशिक्षण सेट को शामिल करने वाले पैटर्न पर एक राशि है, इसलिए जैसे ही प्रशिक्षण सेट बड़ा हो जाता है, पहला शब्द अनिवार्य रूप से साथ रैखिक रूप से शुरू होता है । हम का एक अच्छा मूल्य के लिए seraching के लिए सीमा की अवधि कम कर सकते हैं एक निष्पक्ष बिट अगर हम पहले से नियमितीकरण अवधि विभाजित की निर्भरता की भरपाई के लिए पर । पाठ्यक्रम के 2 वास्तव में इष्टतम ata निर्धारित करने के लिए इस्तेमाल किया opimisation एल्गोरिथ्म के लिए आवश्यक डेरिवेटिव को सरल बनाने के लिए है ।J(θ)mλmJ(θ)mθ


साथ गैर-नियमित लागत स्केलिंग समझाने के लिए धन्यवाद । मैं अभी भी नहीं मिलता है कैसे से विभाजित एक भी मदद मिलेगी का व्यापक रूप से भिन्न मूल्यों के साथ बेहतर मूल्य काम । गैर नियमित लागत पहले से ही भारी पर निर्भर है , तो क्यों नियमितीकरण शब्द है जो पर निर्भर है के बारे में देखभाल मानकों, नहीं उदाहरण? क्या ऐसा इसलिए है क्योंकि अधिक प्रशिक्षण उदाहरणों के साथ, वैरिएशन में समान मापदंडों की संख्या में कमी आएगी? mmλmmn
टॉम हेल

प्रश्न में हानि फ़ंक्शन सभी उदाहरणों पर एक औसत है (अर्थात यह मी द्वारा विभाजित है), एक राशि नहीं है, इसलिए मैं वास्तव में नहीं देखता कि यह उत्तर कैसे काम करता है।
डेन्ज़िलो

@ डेंजिलो इसे नियमितीकरण शब्द पर भी लागू किया जाता है।
डिक्रान मार्सुपियल

2

मैं इस पाठ्यक्रम को लेते समय ठीक उसी चीज के बारे में सोचता था, और इस पर थोड़ा शोध किया। मैं यहाँ एक छोटा सा उत्तर दूंगा, लेकिन आप इसके बारे में लिखे एक ब्लॉग पोस्ट में अधिक विस्तृत अवलोकन पढ़ सकते हैं ।

मेरा मानना ​​है कि उन स्केलिंग गुणांक के कारण का कम से कम हिस्सा यह है कि Lization नियमितीकरण संभवतया संबंधित की शुरूआत के माध्यम से गहन शिक्षा के क्षेत्र में प्रवेश किया, लेकिन समान नहीं, वजन घटाने की अवधारणा।

0.5 कारक तो ढाल में वजन क्षय के लिए एक अच्छा λ- केवल गुणांक प्राप्त करने के लिए है, और मीटर द्वारा स्केलिंग ... ठीक है, कम से कम 5 अलग-अलग प्रेरणाएं हैं जो मुझे मिली हैं या साथ आई हैं:

  1. बैच ग्रैडिएंट डिसेंट का एक साइड-इफ़ेक्ट: जब ग्रैडिएंट डिसेंट का एक इटरएशन पूरे ट्रेनिंग सेट पर औपचारिक रूप से लागू होता है, जिसके परिणामस्वरूप एल्गोरिथ्म को कभी-कभी बैच ग्रैडिएंट डिसेंट कहा जाता है, जो लागत फ़ंक्शन को तुलनीय बनाने के लिए 1 / m का स्केलिंग फैक्टर पेश करता है। अलग-अलग आकार के डेटासेट में, स्वचालित रूप से वज़न क्षय शब्द पर लागू होता है।
  2. एकल उदाहरण के वजन में पुनर्विक्रय: देखें ग्रीज़ का दिलचस्प अंतर्ज्ञान।
  3. प्रशिक्षण सेट प्रतिनिधित्वशीलता: यह नियमितीकरण को स्केल करने के लिए समझ में आता है क्योंकि प्रशिक्षण सेट का आकार सांख्यिकीय रूप से बढ़ता है, समग्र वितरण का इसका प्रतिनिधित्व भी बढ़ता है। मूल रूप से, हमारे पास जितना अधिक डेटा है, उतना कम नियमितीकरण की आवश्यकता है।
  4. Λ को तुलनीय बनाना: उम्मीद है कि जब मी बदलता है, तो λ को बदलने की आवश्यकता को कम करके, यह स्केलिंग λ को विभिन्न आकार के डेटासेट में तुलनीय बनाता है। यह λ को एक विशिष्ट सीखने की समस्या पर एक विशिष्ट मॉडल द्वारा आवश्यक नियमितीकरण की वास्तविक डिग्री का अधिक प्रतिनिधि अनुमानक बनाता है।
  5. अनुभवजन्य मूल्य: यह grezदर्शाता है कि यह व्यवहार में प्रदर्शन को बेहतर बनाता है।

0

मैं भी इस बारे में उलझन में था, लेकिन तब deeplearning.ai एंड्रयू के लिए एक व्याख्यान में यह सिर्फ एक स्केलिंग स्थिरांक है:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

शायद 1/2 मीटर का उपयोग करने का एक गहरा कारण है, लेकिन मुझे संदेह है कि यह केवल एक हाइपरपरमीटर है।


इस सवाल का जवाब नहीं है।
बजे माइकल आर। चेरनिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.