मैं सुदृढीकरण सीखने पर एंड्रयू एनजी के व्याख्यान नोट्स पढ़ रहा था , और मैं यह समझने की कोशिश कर रहा था कि नीति पुनरावृत्ति इष्टतम मान फ़ंक्शन और इष्टतम नीति क्यों परिवर्तित हुई ।
याद रखें नीति पुनरावृत्ति है:
ऐसा क्यों है कि एक लालची-एल्गोरिथ्म इष्टतम नीति और इष्टतम मूल्य फ़ंक्शन की ओर जाता है? (मुझे पता है कि लालची एल्गोरिदम हमेशा इसकी गारंटी नहीं देते हैं, या स्थानीय ऑप्टिमा में फंस सकते हैं, इसलिए मैं सिर्फ एल्गोरिदम की इसकी इष्टतमता के लिए एक प्रमाण देखना चाहता था)।
इसके अलावा, यह मुझे लगता है कि नीति पुनरावृत्ति क्लस्टरिंग या ढाल वंश के अनुरूप है। क्लस्टरिंग के लिए, क्योंकि मापदंडों की वर्तमान सेटिंग के साथ, हम अनुकूलन करते हैं। ग्रेडिएंट डिसेंट के समान है क्योंकि यह केवल कुछ फ़ंक्शन चुनता है जो कुछ फ़ंक्शन को बढ़ाता है। ये दो विधियां हमेशा अधिकतम मैक्सिमा में परिवर्तित नहीं होती हैं, और मैं यह समझने की कोशिश कर रहा था कि यह एल्गोरिथम मेरे द्वारा बताए गए पिछले संस्करणों से कैसे अलग था।
ये मेरे अब तक के विचार हैं:
यह कहें कि हम कुछ पॉलिसी शुरू करते हैं , फिर पहले कदम के बाद, उस निश्चित पॉलिसी के लिए हमारे पास है:
जहां V ^ {(1)} पहली पुनरावृत्ति के लिए मान फ़ंक्शन है। फिर दूसरे चरण के बाद हम के मान को बढ़ाने के लिए कुछ नई नीति चुनते हैं । अब, नई नीति , यदि हम एल्गोरिथ्म का दूसरा चरण करते हैं, तो निम्नलिखित असमानता सही है:
क्योंकि हम पिछले चरण में मान फ़ंक्शन को बढ़ाने के लिए दूसरे चरण में चुनते हैं (यानी सुधार करने के लिए । अब तक, यह स्पष्ट है कि को केवल V ^ {(1)} को बढ़ा सकता है। क्योंकि हम कैसे चुनते हैं । हालांकि, मेरा भ्रम दोहराए गए कदम में आता है क्योंकि एक बार जब हम दोहराते हैं और चरण 1 पर वापस जाते हैं, तो हम वास्तव में चीजों को पूरी तरह से बदल देते हैं क्योंकि हम नई नीति लिए फिर से गणना । जो देता है:
लेकिन यह नहीं है:
जो एक समस्या लगती है क्योंकि को सुधार करने के लिए चुना गया था , और इस नए । असल में समस्या यह है कि है की गारंटी देता है सुधार करने के लिए ऐसा करने से बजाय की मूल्य समारोह है जब । लेकिन दोहराने के चरण में हम को बदल देते हैं , लेकिन मैं यह नहीं देखता कि यह गारंटी कैसे दी जाती है कि मान फ़ंक्शन प्रत्येक पुनरावृत्ति में में सुधार करता है क्योंकि की गणना मूल्य फ़ंक्शन को बेहतर बनाने के लिए की थी मान फ़ंक्शन, लेकिन चरण 1 परिवर्तन के लिए (जो बुरा है, क्योंकि मैं केवल पिछले मान समारोह हम था सुधार)।