में सप्ताह में 3 व्याख्यान नोट्स के एंड्रयू एनजी के Coursera मशीन लर्निंग वर्ग , एक शब्द नियमितीकरण को लागू करने की लागत समारोह में जोड़ा जाता है:
जे+( Θ ) = जम्मू( Θ ) +λ2 मीΣज = १nθ2जे
व्याख्यान नोट्स कहते हैं:
हम अपने सभी थीटा मापदंडों को एक ही योग में नियमित कर सकते हैं:
एम आईnθ 12 मी [Σमैं = १म(जθ(एक्स( i )) -y( i ))2+ λ Σज = १nθ2जे]
12 मी बाद में तंत्रिका नेटवर्क के नियमितीकरण शब्द पर लागू होता है :
स्मरण करो कि नियमित लॉजिस्टिक प्रतिगमन के लिए लागत समारोह था:
जे( Θ ) = -1मΣमैं = १म[y( i ) लॉग(जθ(एक्स( i )) ) + ( 1 -y( i )) लॉग करें ( 1 -जθ(एक्स( i )) ) ] +λ2 मीΣज = १nθ2जे
तंत्रिका नेटवर्क के लिए, यह थोड़ा और अधिक जटिल होने जा रहा है:
जे( Θ ) = -1मΣमैं = १मΣके = १क[y( i )कलॉग( (जΘ(एक्स( i )))क) + ( 1 -y( i )क) लॉग करें( 1 - (जΘ(एक्स( i )))क) ]]+λ2 मीΣएल = 1एल - 1Σमैं = १रोंएलΣज = १रोंएल + 1(Θ( l )जे , आई)2
- यहां निरंतर एक-आध का उपयोग क्यों किया जाता है? ताकि यह व्युत्पन्न में रद्द हो जाए ?जे'
- प्रशिक्षण उदाहरणों द्वारा विभाजन क्यों ? प्रशिक्षण के उदाहरणों की मात्रा चीजों को कैसे प्रभावित करती है?म