हल करते समय (संख्यात्मक रूप से, मान कार्य क्रम द्वारा) असतत समय में एक गतिशील प्रोग्रामिंग समस्या, जैसे
$$ V_1 (a) = \ max_ {c} \ u (c) + \ dfrac {1} {1+ \ rho} V_0 (a) $$
हम नियंत्रण चर के संबंध में अधिकतम करते हैं और पहले आदेश की स्थिति प्राप्त करते हैं जिसे हम ऊपर दिखाए गए कार्यात्मक समीकरण में वापस प्लग करते हैं। इस चरण के परिणाम, $ V (a) _1 $, का उपयोग तब दूसरी पुनरावृत्ति के RHS पर किया जाएगा
$$ V_2 (a) = \ max_ {c} \ u (c) + \ dfrac {1} {1+ \ rho} V_1 (a) $$
और हम इस प्रक्रिया को $ V (a) _n-V (a) _ {n + 1} & lt; \ epsilon $ तक दोहराते हैं।
मेरा सवाल यह है कि निरंतर समय में वैल्यू फंक्शन का अपडेट कैसे काम करता है? मैं एक ऐसे पेपर पर काम कर रहा हूं जो निरंतर समय की गतिशील प्रोग्रामिंग का उपयोग करता है, इसलिए बेलमैन समीकरण इस प्रकार है
$$ \ rho V_n (a) = \ max_ {c} \ u (c) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t \ quad (*) $ $
जहाँ संक्रमण समीकरण $ da_t $ द्वारा दर्शाया गया है। मैंने जो देखा है, उससे $ \ Delta $ की गणना करके मूल्य फ़ंक्शन का अद्यतन किया जाता है:
$$ \ Delta = \ u (c (a ^ *)) + \ dfrac {\ आंशिक V_n (a)} {\ आंशिक a} da_t (a ^ *) - \ rho V_n (a) $ $
जहाँ $ u (c (a ^ *)) $ और $ da_t (a ^ *) $ इष्टतम नीति के कार्यों के रूप में नियंत्रण और संक्रमण समीकरण का प्रतिनिधित्व करते हैं। यही है, हम पिछले उदाहरण (असतत समय मामले) के रूप में आरएचएस को अधिकतम करते हैं, लेकिन फिर हम दोनों पक्षों से $ \ rho V (a) $ घटाते हैं। फिर मान फ़ंक्शन को अपडेट करना निम्नानुसार किया जाता है:
$ $ V_ {n + 1} (a) = V_n (a) + \ Delta $ $
ऐसा कैसे हो सकता है? मैंने सोचा होगा कि मैं (*) के अधिकतम आरएचएस का उपयोग करूंगा और एक नए पुनरावृत्ति में प्लग करूंगा। कैसे अन्य विधि सही है?