ढाल तरीकों आम तौर पर बेहतर अनुकूलन काम की तुलना में पी ( एक्स ) की वजह से ढाल लॉग पी ( एक्स ) आम तौर पर अधिक है अच्छी तरह से बढ़ाया । यही है, इसका एक आकार है जो लगातार और सहायक रूप से उद्देश्य फ़ंक्शन की ज्यामिति को दर्शाता है, जिससे एक उपयुक्त चरण आकार का चयन करना और कम चरणों में इष्टतम को प्राप्त करना आसान हो जाता है।logp(x)p(x)logp(x)
मेरा मतलब देखने के लिए, और f ( x ) = log p ( x ) = - x 2 के लिए ढाल अनुकूलन प्रक्रिया की तुलना करें । पर किसी भी बिंदु एक्स , की ढाल च ( एक्स ) है च ' ( x ) = - 2 एक्स । अगर हम गुणा कि द्वारा 1 / 2p(x)=exp(−x2)f(x)=logp(x)=−x2xf(x)
f′(x)=−2x.
1/2, हम मूल आकार में वैश्विक इष्टतम को प्राप्त करने के लिए आवश्यक सटीक कदम आकार प्राप्त करते हैं, चाहे कोई भी
हो। इसका मतलब यह है कि हमें एक अच्छा कदम आकार (या एमएल शब्दजाल में "सीखने की दर") प्राप्त करने के लिए बहुत मेहनत करने की आवश्यकता नहीं है। कोई फर्क नहीं पड़ता कि हमारा प्रारंभिक बिंदु कहां है, हम बस अपना कदम आधा ढाल तक निर्धारित करते हैं और हम एक कदम पर मूल में होंगे। और अगर हमें उस सटीक कारक का पता नहीं है जिसकी आवश्यकता है, तो हम बस 1 के आसपास एक कदम आकार चुन सकते हैं, थोड़ी लाइन खोज कर सकते हैं, और हम बहुत तेज़ी से एक महान कदम आकार प्राप्त करेंगे, जो कि अच्छी तरह से काम करता है जहां कोई बात नहीं है
x है। यह संपत्ति
च ( x ) के अनुवाद और स्केलिंग के लिए मजबूत है । स्केलिंग करते समय
f ( x )xxf(x)f(x)1/2 से भिन्न होने के लिए इष्टतम चरण स्केलिंग का कारण होगा, कम से कम चरण स्केलिंग वही होगा जो कोई भी
है, इसलिए हमें केवल एक कुशल ढाल-आधारित अनुकूलन योजना प्राप्त करने के लिए एक पैरामीटर खोजना होगा।
x
इसके विपरीत, के ढाल में अनुकूलन के लिए बहुत खराब वैश्विक गुण हैं। हम पी ' ( x ) = च ' ( x ) पी ( एक्स ) = - 2 एक्स exp ( - एक्स 2 ) । यह पूरी तरह से अच्छा, अच्छी तरह से व्यवहार ढाल को गुणा करता है - 2 एक्स एक फैक्टर एक्सप ( - एक्स 2 ) के साथ जो एक्स के रूप में तेजी से (तुलना में) तेजी से घटता हैp(x)
p′(x)=f′(x)p(x)=−2xexp(−x2).
−2xexp(−x2)xबढ़ती है। पर
, हम पहले से ही है
exp ( - एक्स 2 ) = 1.4 ⋅ 10 - 11 है, तो ढाल वेक्टर साथ एक कदम के बारे में है
10 - 11 बार बहुत छोटा है। इष्टतम की ओर एक उचित कदम आकार प्राप्त करने के लिए, हमें उस के पारस्परिक द्वारा ढाल को बड़ा करना होगा, एक विशाल स्थिर
ous 10 11 । इस तरह की एक बुरी तरह से बढ़ाया ढाल अनुकूलन प्रयोजनों के लिए बेकार से भी बदतर है - हम सिर्फ खिलाफ स्केलिंग द्वारा हमारे कदम की स्थापना की तुलना में ऊपर की ओर दिशा में एक इकाई कदम प्रयास कर बेहतर होगा
पी ' ( x )x=5exp(−x2)=1.4⋅10−1110−11∼1011p′(x)! (कई चर में
के बाद से हम कम से कम ढाल से दिशात्मक जानकारी प्राप्त थोड़ा अधिक उपयोगी हो जाता है, लेकिन स्केलिंग मुद्दा बना हुआ है।)
p′(x)
logp(x)logp(x)p(x)f′′(x)